最新更新:

    数据集

    什么是数据集

    数据集仓库(Dataset Hub)能够有效统一管理数据,可以轻松访问和共享各类型数据。数据集可分为文本、图像、音频、视频、多模态、科学计算等多种类型,用于文本生成、语音识别、图形分类、关系抽取等各类任务,支持模型训练、预测等。

    数据集类型

    平台支持以下类型的数据集:

    类型 示例任务
    文本 文本分类、情感分析、问答、文本生成
    图像 图像分类、目标检测、图像分割
    音频 语音识别、音频分类
    视频 视频理解、动作识别
    多模态 图文理解、视觉问答

    核心功能

    • 数据集上传:支持通过 Web 界面或 Git 上传各种格式的数据文件。
    • 数据集预览:支持在线预览 Parquet、CSV、JSONL 等格式文件内容。
    • 版本控制:基于 Git 对数据集进行版本管理。
    • 权限控制:支持公开和私有两种可见性设置。
    • 数据处理集成:可直接将数据集用于平台的模型微调和评测任务。

    相关操作

    数据集卡片

    了解数据集卡片(Dataset Card)的概念、元数据格式及编写规范,帮助用户快速理解和使用数据集。

    创建数据集

    介绍如何在平台上创建数据集仓库,包括创建入口、表单参数说明和后续操作。

    上传数据集

    介绍通过 Web 界面、Git、命令行工具和 Python SDK 四种方式上传数据集文件。

    更新数据集

    介绍如何编辑数据集文件、修改仓库设置以及删除数据集。

    下载数据集

    介绍如何通过 Git、命令行工具和 Python SDK 下载数据集。