最新更新:

    数据标注

    概述

    数据标注功能深度集成了 Label Studio——一款功能强大且灵活的开源数据标注工具。通过与平台数据集管理模块的深度集成,所有数据的导入、管理与导出都在平台内完成,实现统一的数据流转与一站式标注体验。

    功能优势

    • 开箱即用:无需单独安装 Label Studio,直接在平台内打开即可使用
    • 统一数据管理:所有数据的导入与导出通过平台数据集管理完成,保证数据源与标注结果的一致性与可追溯性
    • 多模态支持:支持文本、图像、音频、视频、HTML 以及多传感器数据的标注
    • 多格式导出:标注结果可直接导出为多种格式,方便后续用于模型训练或共享
    • 灵活配置:支持使用 Label Studio 内置标注模板,也可以自定义标签和界面

    使用流程

    第一步:进入标注工具

    数据工具 → 数据标注菜单项中,点击即可打开数据标注工具。系统调用后端接口(/dataflow/studio/jump-to-studio)生成访问链接,并在新标签页中打开 Label Studio 工作空间。

    第二步:创建标注项目

    在 Label Studio 中创建一个新项目:

    1. 填写项目名称
    2. 保存项目,开始新的标注任务

    第三步:导入数据

    从平台数据集中选择需要标注的数据:

    1. 在 Label Studio 的项目中选择导入数据
    2. 选择平台数据集中的数据分支并导入
    3. 等待数据加载完成

    第四步:配置标注界面

    导入完成后,设定标注配置:

    • 使用内置模板:Label Studio 提供文本分类、NER、图像分类、目标检测等多种内置模板,可快速开始
    • 自定义标签:根据业务需求自定义标签类型和标注界面

    第五步:执行标注

    配置完成后,即可开始逐条标注数据。支持:

    • 单人标注
    • 多人协作标注(通过项目成员管理分配任务)
    • 模型辅助预标注(结合模型推理结果提升效率)

    第六步:导出结果

    标注完成后,将标注结果导出并保存到平台数据集中:

    1. 在 Label Studio 中选择导出
    2. 选择导出格式(JSON、CSV 等)
    3. 结果自动保存到平台数据集,导出分支后缀名为 _label

    支持的标注类型

    数据类型 典型标注任务
    文本 文本分类、命名实体识别、关系抽取、情感分析、文本摘要
    图像 图像分类、目标检测、图像分割、关键点标注
    音频 语音识别、音频分类、语音分割
    视频 视频分类、动作识别、时序标注
    多模态 图文对标注、视觉问答数据构建

    备注

    如需了解 Label Studio 更高级的使用方法(如复杂的模板配置、协作标注、模型辅助标注等),请参考 Label Studio 官方文档