自定义评测数据集

概述

平台提供的模型评测工具支持自定义评测数据集。用户可以上传自己的数据集，然后使用这些数据集评测模型效果，以满足特定业务场景下的评估需求。

EvalScope 自定义数据集

选择题（MCQ）

支持 CSV 和 JSONL 格式，字段说明：

字段	是否必须	说明
`id`	否	题目编号
`question`	是	题目内容
`A` / `B` / `C` / `D`	是	选项内容
`answer`	是	正确答案（如 `A`）

CSV 示例：

id,question,A,B,C,D,answer
1,中国的首都是哪里？,北京,上海,广州,深圳,A

问答题（QA）

支持 JSONL 格式，字段说明：

字段	是否必须	说明
`system`	否	系统提示词
`query`	是	问题内容
`response`	是	参考答案

JSONL 示例：

{"query": "什么是大语言模型？", "response": "大语言模型是基于Transformer架构训练的大规模神经网络模型..."}

OpenCompass 自定义数据集

选择题（MCQ）

支持 .jsonl 和 .csv 格式：

{"question": "中国的首都是？", "A": "北京", "B": "上海", "C": "广州", "D": "深圳", "answer": "A"}

问答题（QA）

支持 .jsonl 和 .csv 格式：

{"question": "什么是大语言模型？", "answer": "大语言模型是..."}

lm-evaluation-harness 自定义数据集

lm-evaluation-harness 使用任务配置文件（YAML）来定义评测任务，需要在数据集中包含 task YAML 文件。

数据集目录结构示例：

my_custom_dataset/
  task.yaml          ← 任务配置文件
  data/
    test.jsonl       ← 测试数据

task.yaml 示例：

task: my_custom_qa
dataset_path: my_custom_dataset
dataset_name: default
output_type: generate_until
doc_to_text: "问题：{{question}}\n回答："
doc_to_target: "{{answer}}"

使用自定义数据集

将自定义数据集上传至平台数据集仓库。
在创建评测任务时，在数据集选择中搜索并选择您上传的数据集。
选择对应的评测框架，确保数据集格式与框架要求匹配。

自定义评测数据集

概述

EvalScope 自定义数据集

选择题（MCQ）

问答题（QA）

OpenCompass 自定义数据集

选择题（MCQ）

问答题（QA）

lm-evaluation-harness 自定义数据集

使用自定义数据集

相关文档