最新更新:

    使用模型评测

    模型评测任务创建后,您可以在评测任务列表中跟踪任务进度、查看评测结果并管理任务。

    评测状态说明

    评测任务在运行过程中会经历以下状态:

    状态 说明
    评测中(Evaluating) 评测任务正在运行中,暂时无法查看评测详情
    已完成(Completed) 评测任务已完成,可查看评测结果和详细报告
    失败(Failed) 评测任务执行失败,请查看日志了解失败原因

    备注

    评测任务运行时间取决于数据集大小、评测基准数量和资源配置。大规模评测任务可能需要较长时间,请耐心等待。

    查看评测详情

    当评测任务状态变为已完成后,点击任务列表中的详情按钮,进入评测结果详情页。

    评测详情页包含以下信息:

    信息 说明
    总体得分 模型在所有评测基准上的综合得分
    分项得分 模型在每个评测基准/数据集上的单项得分
    评测指标 准确率、F1 分数、BLEU 分数等具体指标
    评测配置 评测时使用的框架、数据集和参数配置

    通过评测详情页,您可以全面了解模型在不同基准测试中的表现,为模型选型和优化提供数据支持。

    下载评测结果

    在评测详情页或任务列表中,点击下载按钮即可下载完整的评测结果文件。

    下载的文件包含:

    • 评测分数汇总表
    • 各基准测试的详细评测数据
    • 模型预测输出样例

    提示

    下载的评测结果文件可用于离线分析、团队分享或存档记录。

    删除评测任务

    如果不再需要某个评测任务,在任务列表中点击删除按钮即可删除该任务。

    警告

    删除操作不可恢复。评测任务删除后,其评测结果和相关数据将被永久清除。请在删除前确认已下载需要保留的评测结果。