工具池
概述
工具池(DataFlow Tools)是一个多模态数据处理工具集合,可使数据质量更高、更有价值、更适合大模型处理。与算法模板中的算子相比,工具池中的工具更专注于特定的数据处理场景,支持更复杂的数据预处理和后处理操作。
工具分类
工具池中的工具分为内部工具和外部工具两类。
内置工具列表
| 工具名称 | 类型 | 说明 |
|---|---|---|
| 通用分析工具 | 分析 | 分析数据集,计算过滤操作的统计数据,生成统计表和分布图,帮助理解输入数据集 |
| 数据集按语言分割工具 | 预处理 | 加载数据集,使用语言识别过滤器按语言分割数据集并保存 |
| 从代码仓库准备数据集工具 | 预处理 | 从代码仓库准备数据集,格式包含仓库名称、文件路径、文件内容 |
| 原始 arXiv 数据转换工具 | 预处理 | 将原始 arXiv 数据(gzipped tar 文件)转换为 JSONL 格式 |
| 原始 Stack Exchange 数据转换工具 | 预处理 | 将 Stack Exchange 数据转换为多个 JSONL 文件 |
| CSV NaN 值重格式化工具 | 预处理 | 处理包含 NaN 值的 CSV/TSV 文件 |
| JSONL NaN 值重格式化工具 | 预处理 | 重格式化包含 NaN 值的 JSONL 文件 |
| 元数据序列化工具 | 预处理 | 序列化 JSONL 文件中除指定字段外的所有字段,确保数据格式一致性 |
| MD 转 JSONL 工具 | 预处理 | 支持分块的 Markdown 文件转 JSONL 格式转换 |
| 令牌计数工具 | 后处理 | 统计数据集和分词器的 Token 数量(仅支持 JSONL 格式) |
| 数据混合工具 | 后处理 | 将多个数据集混合为一个,支持 JSONL、JSON、Parquet 格式 |
| 元数据反序列化工具 | 后处理 | 对 JSONL 文件中指定字段进行反序列化处理 |
| 质量分类器 | 分析 | 预测数据集文档评分,为每行提供 score 和 should_keep 字段 |
| URL 数据抓取工具 | 预处理 | 基于大型语言模型的网站和本地文档(XML、HTML、JSON 等)数据抓取 |
| PDF 数据提取工具 | 预处理 | 高质量 PDF 转 Markdown 和 JSON 工具 |
| 文本价值评估工具 | 分析 | 根据用户自定义评分标准对数据评分过滤,结合 bloom 过滤器去重 |
| 高质量对话生成工具 | 生成 | 使用固定提示词生成多轮对话,并保留质量最高的对话 |
| 增强文本描述工具 | 生成 | 使用大模型对数据源内容生成详细描述 |
使用工具
- 在数据工具 → 工具池页面,浏览或搜索需要的工具。
- 点击工具卡片上的使用工具按钮。
- 系统跳转到新建任务页面,自动选中该工具。
- 配置任务参数(数据来源、目标数据集、工具参数等)。
- 提交执行。
搜索与筛选
支持以下方式查找工具:
- 搜索工具名称:输入关键词搜索
- 工具分类筛选:按工具类型(分析/预处理/后处理/生成)筛选
- 内部/外部工具标签:切换查看平台内置工具或外部集成工具