最新更新:

    工具池

    概述

    工具池(DataFlow Tools)是一个多模态数据处理工具集合,可使数据质量更高、更有价值、更适合大模型处理。与算法模板中的算子相比,工具池中的工具更专注于特定的数据处理场景,支持更复杂的数据预处理和后处理操作。

    工具分类

    工具池中的工具分为内部工具外部工具两类。

    内置工具列表

    工具名称 类型 说明
    通用分析工具 分析 分析数据集,计算过滤操作的统计数据,生成统计表和分布图,帮助理解输入数据集
    数据集按语言分割工具 预处理 加载数据集,使用语言识别过滤器按语言分割数据集并保存
    从代码仓库准备数据集工具 预处理 从代码仓库准备数据集,格式包含仓库名称、文件路径、文件内容
    原始 arXiv 数据转换工具 预处理 将原始 arXiv 数据(gzipped tar 文件)转换为 JSONL 格式
    原始 Stack Exchange 数据转换工具 预处理 将 Stack Exchange 数据转换为多个 JSONL 文件
    CSV NaN 值重格式化工具 预处理 处理包含 NaN 值的 CSV/TSV 文件
    JSONL NaN 值重格式化工具 预处理 重格式化包含 NaN 值的 JSONL 文件
    元数据序列化工具 预处理 序列化 JSONL 文件中除指定字段外的所有字段,确保数据格式一致性
    MD 转 JSONL 工具 预处理 支持分块的 Markdown 文件转 JSONL 格式转换
    令牌计数工具 后处理 统计数据集和分词器的 Token 数量(仅支持 JSONL 格式)
    数据混合工具 后处理 将多个数据集混合为一个,支持 JSONL、JSON、Parquet 格式
    元数据反序列化工具 后处理 对 JSONL 文件中指定字段进行反序列化处理
    质量分类器 分析 预测数据集文档评分,为每行提供 score 和 should_keep 字段
    URL 数据抓取工具 预处理 基于大型语言模型的网站和本地文档(XML、HTML、JSON 等)数据抓取
    PDF 数据提取工具 预处理 高质量 PDF 转 Markdown 和 JSON 工具
    文本价值评估工具 分析 根据用户自定义评分标准对数据评分过滤,结合 bloom 过滤器去重
    高质量对话生成工具 生成 使用固定提示词生成多轮对话,并保留质量最高的对话
    增强文本描述工具 生成 使用大模型对数据源内容生成详细描述

    使用工具

    1. 数据工具 → 工具池页面,浏览或搜索需要的工具。
    2. 点击工具卡片上的使用工具按钮。
    3. 系统跳转到新建任务页面,自动选中该工具。
    4. 配置任务参数(数据来源、目标数据集、工具参数等)。
    5. 提交执行。

    搜索与筛选

    支持以下方式查找工具:

    • 搜索工具名称:输入关键词搜索
    • 工具分类筛选:按工具类型(分析/预处理/后处理/生成)筛选
    • 内部/外部工具标签:切换查看平台内置工具或外部集成工具