应用场景
- 异构算力管理
文档中心
- 行业大模型平台
- v3.4

简体中文
- English
- 简体中文
Star

最新更新:

数据采集

概述

数据采集模块支持从多种外部数据源导入数据，并将结果同步到平台的数据集仓库中，为后续的数据处理和模型训练提供数据基础。

支持的数据源类型

数据源类型	说明
关系型数据库（MySQL）	批量导入数据库表，支持自定义表和字段选择
非关系型数据库（MongoDB）	导入非关系型数据，支持集合、字段选择和结构转换
文件数据导入	支持 CSV、Excel、JSON 等多种格式文件导入
Hive 系统导入	高效读取 Hive 系统中存储的数据

添加数据源

在数据工具 → 数据采集 → 数据源管理中，点击添加数据源按钮，填写以下连接信息：

参数	说明
数据源名称	自定义名称，便于识别
数据源类型	MySQL / MongoDB / 文件数据 / Hive
服务器地址	数据库服务器 IP 或域名
端口号	数据库连接端口
数据库名称	目标数据库名称
用户名 / 密码	数据库认证信息
鉴权类型	不做身份校验 / LDAP / Kerberos

填写完成后，点击测试连接验证连接是否可用。

创建数据采集任务

连接成功后，系统会自动查询数据库中的所有表。
选择需要导入的表和字段。
配置数据流向（目标数据集）和数据流向分支（若分支不存在，系统会自动创建）。
选择执行方式：
- 立即执行：提交后立即运行
- 定时任务：设置指定时间自动执行
- 仅保存配置：稍后手动触发运行
点击保存并执行或保存配置。

查看任务状态

在数据采集任务列表中，可查看每条任务的：

字段	说明
任务名称	自定义任务标识
数据源类型	来源数据库类型
连接状态	正常 / 待测试 / 异常
最后更新	最近一次同步时间
已导入记录 / 总记录数	数据导入进度

点击详情可查看任务配置信息，点击日志可查看执行过程及错误信息。

查看导入结果

数据采集成功后，可在平台的个人数据集中查看已同步的数据文件。

备注

数据采集前，请确保已在平台创建了目标数据集仓库。若指定的数据流向分支不存在，系统会自动创建。