数据工具
什么是数据工具
数据工具(DataFlow)是一站式的数据处理平台,实现从数据到模型的全生命周期闭环,助力持续优化。它兼容多种数据格式和来源,支持本地文件、云端数据以及数据库的接入,并提供高效的转换与处理工具以确保数据一致性。可定制的 Pipeline 实现复杂数据的清洗和转换,结合并行处理提升效率。此外,通过集成标注系统支持多人协作,确保标注的准确性与数据质量。
数据工具与平台数据集深度集成——处理前需要先在平台创建数据集,处理结果也将直接保存至数据集仓库,实现统一的数据流转。
功能模块
| 模块 | 说明 |
|---|---|
| 系统仪表盘 | 查看数据采集、格式转换、数据处理三大任务的整体运行状态 |
| 数据采集 | 从 MySQL、MongoDB、文件、Hive 等来源导入数据 |
| 格式转换 | 支持 Excel→JSON/CSV/Parquet、Word/PPT→Markdown 等格式转换 |
| 数据处理 | 使用可视化工作流编辑器,配置算子 Pipeline 进行数据清洗与增强 |
| 算法模板 | 内置和自定义数据处理算法模板,支持复用和共享 |
| 工具池 | 汇聚多种数据处理工具,支持分析、转换、生成等专项任务 |
| 数据标注 | 集成 Label Studio,支持文本、图像、音频、视频等多模态数据标注 |
快速开始
- 在平台数据集页面创建或选择一个数据集作为数据来源和处理结果的存储目标
- 进入顶部导航的数据工具模块
- 根据需求选择对应功能:
系统仪表盘
系统仪表盘提供数据采集、格式转换、数据处理三大任务模块的整体运行情况监控。
数据采集
数据采集功能支持从 MySQL、MongoDB、文件、Hive 等多种来源导入数据到平台数据集。
格式转换
格式转换功能支持 Excel、Word、PPT 等文件格式与 JSON、CSV、Parquet、Markdown 之间的互相转换。
数据处理
数据处理模块支持使用可视化工作流编辑器,配置 Mapper、Filter、Deduplicator 等算子 Pipeline,对大模型训练数据进行清洗、增强和去重。
算法模板
算法模板允许用户将常用的数据处理 Pipeline 保存为模板,支持内置模板和自定义模板,方便复用和共享。
工具池
工具池汇聚了多种专项数据处理工具,支持数据分析、格式转换、数据生成等场景。
数据标注
数据标注功能集成 Label Studio,支持文本、图像、音频、视频等多模态数据的标注任务。