最新更新:

    数据处理

    概述

    数据处理模块支持用户通过可视化工作流编辑器,将多种数据处理算子(Mapper、Filter、Deduplicator、Selector)组合为 Pipeline,对大模型训练数据进行清洗、增强、去重和质量筛选,从而提升训练数据质量。

    数据处理可支持用户使用不同的模型算子,针对大模型所用的数据进行处理,包括数据清洗、自动数据增强及分析等处理方式,帮助用户获取更高质量的数据。

    任务类型

    任务类型 说明
    数据清洗(data_refine) 通过去重、去敏等多种算子,清洗数据,使数据满足使用需求
    数据增强(data_enhancement) 基于种子数据自动化生成更多数据,支持自定义参数及 Prompt
    数据生成(data_generation) 利用模型生成特定类型的训练数据

    创建数据处理任务

    数据工具 → 数据处理页面,点击创建任务按钮,按以下步骤配置:

    第一步:基本配置

    参数 说明
    任务名称 自定义任务标识
    任务类型 选择算子任务或工具任务
    数据来源 选择源数据集和分支
    数据流向 选择处理结果保存的目标数据集
    数据流向分支 结果保存的目标分支(不存在时自动创建)

    第二步:工作流配置

    使用可视化工作流编辑器配置处理 Pipeline:

    1. 从左侧算子面板将算子节点拖拽到画布区域
    2. 点击节点上的连接点并拖动到另一个节点,建立处理顺序
    3. 点击节点配置其参数(部分算子有必填参数)
    4. 可通过缩放、重置视图、清除画布等操作管理画布

    工作流操作指南:

    • 从左侧拖拽节点到右侧画布区域
    • 点击节点连接点并拖动到另一节点创建连接
    • 拖拽节点可调整位置
    • 鼠标悬停节点显示删除按钮
    • 按 Delete 键删除选中节点

    第三步:数据导出配置

    配置处理后数据的保存方式:

    • 推送到原数据集:以新提交的方式推送到原始数据集仓库
    • 推送到新数据集:将处理结果保存到新的指定数据集

    算子类型

    平台支持以下四种类型的算子:

    算子类型 说明
    Mapper 对每条数据样本进行转换操作,如文本标准化、格式转换等
    Filter 根据条件过滤数据,保留满足条件的样本
    Deduplicator 对数据进行去重操作
    Selector 从数据集中选取特定样本子集

    常用算子示例:

    算子名称 类型 功能
    文本标准化 Mapper Unicode 文本标准化和繁体转简体
    特殊内容移除 Mapper 移除 URL、不可见字符、HTML 标签等
    汉字转换 Mapper 繁体/简体/日文汉字之间互转
    文本替换 Mapper 正则表达式替换文本内容
    句子分割 Mapper 将文本拆分为句子
    文本长度过滤 Filter 保留指定长度范围内的样本
    特殊字符占比过滤 Filter 过滤特殊字符比例超标的样本
    N-Gram 重复率过滤 Filter 过滤重复率过高的样本
    语言置信度过滤 Filter 保留特定语言的样本
    MD5 去重 Deduplicator 精确匹配去重
    SimHash 去重 Deduplicator 相似度去重
    MinHashLSH 去重 Deduplicator 高效近似去重
    随机选择器 Selector 随机选取数据样本

    查看任务状态与结果

    任务提交后,在任务列表中可查看:

    字段 说明
    任务名称 任务标识
    任务类型 算子任务 / 工具任务
    运行状态 等待中 / 处理中 / 已完成 / 失败
    数据来源 源数据集信息
    数据流向 目标数据集信息
    • 点击详情可查看处理前后的 Session 对比、已处理数据量等信息
    • 点击日志可查看执行日志
    • 任务完成后,点击处理结果查看处理后的数据

    提示

    建议先使用小批量数据验证 Pipeline 配置,确认效果后再处理全量数据集。可将 Pipeline 保存为算法模板以便后续复用。