格式转换
概述
格式转换模块支持常见办公文档格式与大模型训练常用数据格式之间的转换,方便用户将企业内部文档快速转化为可用于模型训练的结构化数据。
支持的转换格式
| 源格式 | 目标格式 |
|---|---|
| Excel(.xlsx / .xls) | JSON、CSV、Parquet |
| Word(.docx) | Markdown |
| PPT(.pptx) | Markdown |
创建格式转换任务
- 在数据工具 → 格式转换页面,点击右上角的创建任务按钮。
- 填写任务信息:
| 参数 | 说明 |
|---|---|
| 任务描述 | 可选,对本次转换任务的说明 |
| 数据来源 | 选择源数据集和分支 |
| 源格式 | 待转换的文件格式(Excel / Word / PPT) |
| 目标格式 | 转换后的文件格式(JSON / CSV / Parquet / Markdown) |
| 数据流向分支 | 转换结果保存到哪个数据集分支 |
| 是否生成 Meta 文件 | 可选,是否同时生成元数据描述文件 |
- 点击开始执行启动转换任务。
查看任务状态
任务提交后,列表中会显示任务状态:
| 状态 | 说明 |
|---|---|
| 处理中 | 转换任务正在运行 |
| 已完成 | 转换成功 |
| 失败 | 转换失败,可查看日志排查原因 |
- 点击详情可查看任务的配置信息和元数据
- 点击日志可查看执行过程及错误/警告信息
查看转换结果
格式转换成功后,可在平台的个人数据集中找到已完成转换的文件。
备注
转换结果将保存到指定数据流向分支中。若转换任务失败,请检查源文件格式是否正确,并查看日志获取详细错误信息。