数据采集
概述
数据采集模块支持从多种外部数据源导入数据,并将结果同步到平台的数据集仓库中,为后续的数据处理和模型训练提供数据基础。
支持的数据源类型
| 数据源类型 | 说明 |
|---|---|
| 关系型数据库(MySQL) | 批量导入数据库表,支持自定义表和字段选择 |
| 非关系型数据库(MongoDB) | 导入非关系型数据,支持集合、字段选择和结构转换 |
| 文件数据导入 | 支持 CSV、Excel、JSON 等多种格式文件导入 |
| Hive 系统导入 | 高效读取 Hive 系统中存储的数据 |
添加数据源
在数据工具 → 数据采集 → 数据源管理中,点击添加数据源按钮,填写以下连接信息:
| 参数 | 说明 |
|---|---|
| 数据源名称 | 自定义名称,便于识别 |
| 数据源类型 | MySQL / MongoDB / 文件数据 / Hive |
| 服务器地址 | 数据库服务器 IP 或域名 |
| 端口号 | 数据库连接端口 |
| 数据库名称 | 目标数据库名称 |
| 用户名 / 密码 | 数据库认证信息 |
| 鉴权类型 | 不做身份校验 / LDAP / Kerberos |
填写完成后,点击测试连接验证连接是否可用。
创建数据采集任务
- 连接成功后,系统会自动查询数据库中的所有表。
- 选择需要导入的表和字段。
- 配置数据流向(目标数据集)和数据流向分支(若分支不存在,系统会自动创建)。
- 选择执行方式:
- 立即执行:提交后立即运行
- 定时任务:设置指定时间自动执行
- 仅保存配置:稍后手动触发运行
- 点击保存并执行或保存配置。
查看任务状态
在数据采集任务列表中,可查看每条任务的:
| 字段 | 说明 |
|---|---|
| 任务名称 | 自定义任务标识 |
| 数据源类型 | 来源数据库类型 |
| 连接状态 | 正常 / 待测试 / 异常 |
| 最后更新 | 最近一次同步时间 |
| 已导入记录 / 总记录数 | 数据导入进度 |
点击详情可查看任务配置信息,点击日志可查看执行过程及错误信息。
查看导入结果
数据采集成功后,可在平台的个人数据集中查看已同步的数据文件。
备注
数据采集前,请确保已在平台创建了目标数据集仓库。若指定的数据流向分支不存在,系统会自动创建。