数据处理
概述
数据处理模块支持用户通过可视化工作流编辑器,将多种数据处理算子(Mapper、Filter、Deduplicator、Selector)组合为 Pipeline,对大模型训练数据进行清洗、增强、去重和质量筛选,从而提升训练数据质量。
数据处理可支持用户使用不同的模型算子,针对大模型所用的数据进行处理,包括数据清洗、自动数据增强及分析等处理方式,帮助用户获取更高质量的数据。
任务类型
| 任务类型 | 说明 |
|---|---|
| 数据清洗(data_refine) | 通过去重、去敏等多种算子,清洗数据,使数据满足使用需求 |
| 数据增强(data_enhancement) | 基于种子数据自动化生成更多数据,支持自定义参数及 Prompt |
| 数据生成(data_generation) | 利用模型生成特定类型的训练数据 |
创建数据处理任务
在数据工具 → 数据处理页面,点击创建任务按钮,按以下步骤配置:
第一步:基本配置
| 参数 | 说明 |
|---|---|
| 任务名称 | 自定义任务标识 |
| 任务类型 | 选择算子任务或工具任务 |
| 数据来源 | 选择源数据集和分支 |
| 数据流向 | 选择处理结果保存的目标数据集 |
| 数据流向分支 | 结果保存的目标分支(不存在时自动创建) |
第二步:工作流配置
使用可视化工作流编辑器配置处理 Pipeline:
- 从左侧算子面板将算子节点拖拽到画布区域
- 点击节点上的连接点并拖动到另一个节点,建立处理顺序
- 点击节点配置其参数(部分算子有必填参数)
- 可通过缩放、重置视图、清除画布等操作管理画布
工作流操作指南:
- 从左侧拖拽节点到右侧画布区域
- 点击节点连接点并拖动到另一节点创建连接
- 拖拽节点可调整位置
- 鼠标悬停节点显示删除按钮
- 按 Delete 键删除选中节点
第三步:数据导出配置
配置处理后数据的保存方式:
- 推送到原数据集:以新提交的方式推送到原始数据集仓库
- 推送到新数据集:将处理结果保存到新的指定数据集
算子类型
平台支持以下四种类型的算子:
| 算子类型 | 说明 |
|---|---|
| Mapper | 对每条数据样本进行转换操作,如文本标准化、格式转换等 |
| Filter | 根据条件过滤数据,保留满足条件的样本 |
| Deduplicator | 对数据进行去重操作 |
| Selector | 从数据集中选取特定样本子集 |
常用算子示例:
| 算子名称 | 类型 | 功能 |
|---|---|---|
| 文本标准化 | Mapper | Unicode 文本标准化和繁体转简体 |
| 特殊内容移除 | Mapper | 移除 URL、不可见字符、HTML 标签等 |
| 汉字转换 | Mapper | 繁体/简体/日文汉字之间互转 |
| 文本替换 | Mapper | 正则表达式替换文本内容 |
| 句子分割 | Mapper | 将文本拆分为句子 |
| 文本长度过滤 | Filter | 保留指定长度范围内的样本 |
| 特殊字符占比过滤 | Filter | 过滤特殊字符比例超标的样本 |
| N-Gram 重复率过滤 | Filter | 过滤重复率过高的样本 |
| 语言置信度过滤 | Filter | 保留特定语言的样本 |
| MD5 去重 | Deduplicator | 精确匹配去重 |
| SimHash 去重 | Deduplicator | 相似度去重 |
| MinHashLSH 去重 | Deduplicator | 高效近似去重 |
| 随机选择器 | Selector | 随机选取数据样本 |
查看任务状态与结果
任务提交后,在任务列表中可查看:
| 字段 | 说明 |
|---|---|
| 任务名称 | 任务标识 |
| 任务类型 | 算子任务 / 工具任务 |
| 运行状态 | 等待中 / 处理中 / 已完成 / 失败 |
| 数据来源 | 源数据集信息 |
| 数据流向 | 目标数据集信息 |
- 点击详情可查看处理前后的 Session 对比、已处理数据量等信息
- 点击日志可查看执行日志
- 任务完成后,点击处理结果查看处理后的数据
提示
建议先使用小批量数据验证 Pipeline 配置,确认效果后再处理全量数据集。可将 Pipeline 保存为算法模板以便后续复用。