使用模型评测
模型评测任务创建后,您可以在评测任务列表中跟踪任务进度、查看评测结果并管理任务。
评测状态说明
评测任务在运行过程中会经历以下状态:
| 状态 | 说明 |
|---|---|
| 评测中(Evaluating) | 评测任务正在运行中,暂时无法查看评测详情 |
| 已完成(Completed) | 评测任务已完成,可查看评测结果和详细报告 |
| 失败(Failed) | 评测任务执行失败,请查看日志了解失败原因 |
备注
评测任务运行时间取决于数据集大小、评测基准数量和资源配置。大规模评测任务可能需要较长时间,请耐心等待。
查看评测详情
当评测任务状态变为已完成后,点击任务列表中的详情按钮,进入评测结果详情页。
评测详情页包含以下信息:
| 信息 | 说明 |
|---|---|
| 总体得分 | 模型在所有评测基准上的综合得分 |
| 分项得分 | 模型在每个评测基准/数据集上的单项得分 |
| 评测指标 | 准确率、F1 分数、BLEU 分数等具体指标 |
| 评测配置 | 评测时使用的框架、数据集和参数配置 |
通过评测详情页,您可以全面了解模型在不同基准测试中的表现,为模型选型和优化提供数据支持。
下载评测结果
在评测详情页或任务列表中,点击下载按钮即可下载完整的评测结果文件。
下载的文件包含:
- 评测分数汇总表
- 各基准测试的详细评测数据
- 模型预测输出样例
提示
下载的评测结果文件可用于离线分析、团队分享或存档记录。
删除评测任务
如果不再需要某个评测任务,在任务列表中点击删除按钮即可删除该任务。
警告
删除操作不可恢复。评测任务删除后,其评测结果和相关数据将被永久清除。请在删除前确认已下载需要保留的评测结果。