评测框架介绍

支持的评测框架

平台提供三个主流评测框架供用户选择：lm-evaluation-harness、OpenCompass、EvalScope。

特点	lm-evaluation-harness	OpenCompass	EvalScope
任务范围	全球化（英文为主）	特别关注中文	特别关注中文
模型支持	开源 + API 模型	开源 + 国内商用模型	开源 + 国内商用模型
适用场景	学术研究，英文模型对比	中文任务，国内外模型比较	中文任务，数据集较新
扩展性	较高，偏技术性	用户友好	用户友好

EleutherAI 开发的 Python 评测工具，提供标准化评测流程，支持 NLP 多种任务（文本生成、完形填空、问答、翻译），适合英文或全球化学术研究场景。

内置基准测试（部分）：MMLU、HellaSwag、ARC、TruthfulQA、WinoGrande 等。

开源评测框架，特别针对中文大语言模型评测进行优化，支持中文基准测试（如 CEVAL、CLUE），兼容国内主流模型，适合中文任务评估。

内置基准测试（部分）：C-Eval、CMMLU、MMLU、GSM8K、HumanEval 等。

魔搭社区出品的评测框架，内置 MMLU、CMMLU、C-Eval、GSM8K 等基准，支持大语言模型、多模态模型、Embedding 模型、AIGC 模型，适合中文任务和使用最新数据集的场景。

内置基准测试（部分）：C-Eval、CMMLU、MMLU、GSM8K、ARC、HellaSwag 等。