应用场景
- 异构算力管理
文档中心
- 行业大模型平台
- v3.4

简体中文
- English
- 简体中文
Star

最新更新:

数据处理

概述

数据处理模块支持用户通过可视化工作流编辑器，将多种数据处理算子（Mapper、Filter、Deduplicator、Selector）组合为 Pipeline，对大模型训练数据进行清洗、增强、去重和质量筛选，从而提升训练数据质量。

数据处理可支持用户使用不同的模型算子，针对大模型所用的数据进行处理，包括数据清洗、自动数据增强及分析等处理方式，帮助用户获取更高质量的数据。

任务类型

任务类型	说明
数据清洗（data_refine）	通过去重、去敏等多种算子，清洗数据，使数据满足使用需求
数据增强（data_enhancement）	基于种子数据自动化生成更多数据，支持自定义参数及 Prompt
数据生成（data_generation）	利用模型生成特定类型的训练数据

创建数据处理任务

在数据工具 → 数据处理页面，点击创建任务按钮，按以下步骤配置：

第一步：基本配置

参数	说明
任务名称	自定义任务标识
任务类型	选择算子任务或工具任务
数据来源	选择源数据集和分支
数据流向	选择处理结果保存的目标数据集
数据流向分支	结果保存的目标分支（不存在时自动创建）

第二步：工作流配置

使用可视化工作流编辑器配置处理 Pipeline：

从左侧算子面板将算子节点拖拽到画布区域
点击节点上的连接点并拖动到另一个节点，建立处理顺序
点击节点配置其参数（部分算子有必填参数）
可通过缩放、重置视图、清除画布等操作管理画布

工作流操作指南：

从左侧拖拽节点到右侧画布区域
点击节点连接点并拖动到另一节点创建连接
拖拽节点可调整位置
鼠标悬停节点显示删除按钮
按 Delete 键删除选中节点

第三步：数据导出配置

配置处理后数据的保存方式：

推送到原数据集：以新提交的方式推送到原始数据集仓库
推送到新数据集：将处理结果保存到新的指定数据集

算子类型

平台支持以下四种类型的算子：

算子类型	说明
Mapper	对每条数据样本进行转换操作，如文本标准化、格式转换等
Filter	根据条件过滤数据，保留满足条件的样本
Deduplicator	对数据进行去重操作
Selector	从数据集中选取特定样本子集

常用算子示例：

算子名称	类型	功能
文本标准化	Mapper	Unicode 文本标准化和繁体转简体
特殊内容移除	Mapper	移除 URL、不可见字符、HTML 标签等
汉字转换	Mapper	繁体/简体/日文汉字之间互转
文本替换	Mapper	正则表达式替换文本内容
句子分割	Mapper	将文本拆分为句子
文本长度过滤	Filter	保留指定长度范围内的样本
特殊字符占比过滤	Filter	过滤特殊字符比例超标的样本
N-Gram 重复率过滤	Filter	过滤重复率过高的样本
语言置信度过滤	Filter	保留特定语言的样本
MD5 去重	Deduplicator	精确匹配去重
SimHash 去重	Deduplicator	相似度去重
MinHashLSH 去重	Deduplicator	高效近似去重
随机选择器	Selector	随机选取数据样本

查看任务状态与结果

任务提交后，在任务列表中可查看：

字段	说明
任务名称	任务标识
任务类型	算子任务 / 工具任务
运行状态	等待中 / 处理中 / 已完成 / 失败
数据来源	源数据集信息
数据流向	目标数据集信息

点击详情可查看处理前后的 Session 对比、已处理数据量等信息
点击日志可查看执行日志
任务完成后，点击处理结果查看处理后的数据

提示

建议先使用小批量数据验证 Pipeline 配置，确认效果后再处理全量数据集。可将 Pipeline 保存为算法模板以便后续复用。