数据标注
概述
数据标注功能深度集成了 Label Studio——一款功能强大且灵活的开源数据标注工具。通过与平台数据集管理模块的深度集成,所有数据的导入、管理与导出都在平台内完成,实现统一的数据流转与一站式标注体验。
功能优势
- 开箱即用:无需单独安装 Label Studio,直接在平台内打开即可使用
- 统一数据管理:所有数据的导入与导出通过平台数据集管理完成,保证数据源与标注结果的一致性与可追溯性
- 多模态支持:支持文本、图像、音频、视频、HTML 以及多传感器数据的标注
- 多格式导出:标注结果可直接导出为多种格式,方便后续用于模型训练或共享
- 灵活配置:支持使用 Label Studio 内置标注模板,也可以自定义标签和界面
使用流程
第一步:进入标注工具
在数据工具 → 数据标注菜单项中,点击即可打开数据标注工具。系统调用后端接口(/dataflow/studio/jump-to-studio)生成访问链接,并在新标签页中打开 Label Studio 工作空间。
第二步:创建标注项目
在 Label Studio 中创建一个新项目:
- 填写项目名称
- 保存项目,开始新的标注任务
第三步:导入数据
从平台数据集中选择需要标注的数据:
- 在 Label Studio 的项目中选择导入数据
- 选择平台数据集中的数据分支并导入
- 等待数据加载完成
第四步:配置标注界面
导入完成后,设定标注配置:
- 使用内置模板:Label Studio 提供文本分类、NER、图像分类、目标检测等多种内置模板,可快速开始
- 自定义标签:根据业务需求自定义标签类型和标注界面
第五步:执行标注
配置完成后,即可开始逐条标注数据。支持:
- 单人标注
- 多人协作标注(通过项目成员管理分配任务)
- 模型辅助预标注(结合模型推理结果提升效率)
第六步:导出结果
标注完成后,将标注结果导出并保存到平台数据集中:
- 在 Label Studio 中选择导出
- 选择导出格式(JSON、CSV 等)
- 结果自动保存到平台数据集,导出分支后缀名为
_label
支持的标注类型
| 数据类型 | 典型标注任务 |
|---|---|
| 文本 | 文本分类、命名实体识别、关系抽取、情感分析、文本摘要 |
| 图像 | 图像分类、目标检测、图像分割、关键点标注 |
| 音频 | 语音识别、音频分类、语音分割 |
| 视频 | 视频分类、动作识别、时序标注 |
| 多模态 | 图文对标注、视觉问答数据构建 |
备注
如需了解 Label Studio 更高级的使用方法(如复杂的模板配置、协作标注、模型辅助标注等),请参考 Label Studio 官方文档。