最新更新:

    数据采集

    概述

    数据采集模块支持从多种外部数据源导入数据,并将结果同步到平台的数据集仓库中,为后续的数据处理和模型训练提供数据基础。

    支持的数据源类型

    数据源类型 说明
    关系型数据库(MySQL) 批量导入数据库表,支持自定义表和字段选择
    非关系型数据库(MongoDB) 导入非关系型数据,支持集合、字段选择和结构转换
    文件数据导入 支持 CSV、Excel、JSON 等多种格式文件导入
    Hive 系统导入 高效读取 Hive 系统中存储的数据

    添加数据源

    数据工具 → 数据采集 → 数据源管理中,点击添加数据源按钮,填写以下连接信息:

    参数 说明
    数据源名称 自定义名称,便于识别
    数据源类型 MySQL / MongoDB / 文件数据 / Hive
    服务器地址 数据库服务器 IP 或域名
    端口号 数据库连接端口
    数据库名称 目标数据库名称
    用户名 / 密码 数据库认证信息
    鉴权类型 不做身份校验 / LDAP / Kerberos

    填写完成后,点击测试连接验证连接是否可用。

    创建数据采集任务

    1. 连接成功后,系统会自动查询数据库中的所有表。
    2. 选择需要导入的字段
    3. 配置数据流向(目标数据集)和数据流向分支(若分支不存在,系统会自动创建)。
    4. 选择执行方式:
      • 立即执行:提交后立即运行
      • 定时任务:设置指定时间自动执行
      • 仅保存配置:稍后手动触发运行
    5. 点击保存并执行保存配置

    查看任务状态

    数据采集任务列表中,可查看每条任务的:

    字段 说明
    任务名称 自定义任务标识
    数据源类型 来源数据库类型
    连接状态 正常 / 待测试 / 异常
    最后更新 最近一次同步时间
    已导入记录 / 总记录数 数据导入进度

    点击详情可查看任务配置信息,点击日志可查看执行过程及错误信息。

    查看导入结果

    数据采集成功后,可在平台的个人数据集中查看已同步的数据文件。

    备注

    数据采集前,请确保已在平台创建了目标数据集仓库。若指定的数据流向分支不存在,系统会自动创建。