数据集
什么是数据集
数据集仓库(Dataset Hub)能够有效统一管理数据,可以轻松访问和共享各类型数据。数据集可分为文本、图像、音频、视频、多模态、科学计算等多种类型,用于文本生成、语音识别、图形分类、关系抽取等各类任务,支持模型训练、预测等。
数据集类型
平台支持以下类型的数据集:
| 类型 | 示例任务 |
|---|---|
| 文本 | 文本分类、情感分析、问答、文本生成 |
| 图像 | 图像分类、目标检测、图像分割 |
| 音频 | 语音识别、音频分类 |
| 视频 | 视频理解、动作识别 |
| 多模态 | 图文理解、视觉问答 |
核心功能
- 数据集上传:支持通过 Web 界面或 Git 上传各种格式的数据文件。
- 数据集预览:支持在线预览 Parquet、CSV、JSONL 等格式文件内容。
- 版本控制:基于 Git 对数据集进行版本管理。
- 权限控制:支持公开和私有两种可见性设置。
- 数据处理集成:可直接将数据集用于平台的模型微调和评测任务。
相关操作
数据集卡片
了解数据集卡片(Dataset Card)的概念、元数据格式及编写规范,帮助用户快速理解和使用数据集。
创建数据集
介绍如何在平台上创建数据集仓库,包括创建入口、表单参数说明和后续操作。
上传数据集
介绍通过 Web 界面、Git、命令行工具和 Python SDK 四种方式上传数据集文件。
更新数据集
介绍如何编辑数据集文件、修改仓库设置以及删除数据集。
下载数据集
介绍如何通过 Git、命令行工具和 Python SDK 下载数据集。