大模型评测体系 - web建站教程手机端

返回大模型评测体系

: HELM官网：斯坦福大学推出的语言模型整体评估体系; HELM是斯坦福大学推出的大模型评测体系。其核心评测框架包含场景、适配、指标三大核心模块，每次评测需明确指定一个应用场景、一套模型适配提示，以及一项或多项评估指标。; AI模型评测大模型评测体系斯坦福大学

: MMBench：一款由高校等联合研发多模态基准测试工具; MMBench是一款多模态基准测试工具，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学及浙江大学联合研发。该基准构建了一套从感知到认知的逐级细分评估流程，覆盖20项细粒度能力维度，数据集包含约3000道单项选择题，均源自互联网及权威基准数据集。; AI模型评测上海人工智能实验室南洋理工大学多模态AI模型大模型评测体系新加坡国立大学浙江大学香港中文大学