最新更新:

    数据集卡片

    什么是数据集卡片

    数据集卡片(Dataset Card)是数据集仓库根目录下的 README.md 文件,采用 YAML 前置元数据 + Markdown 正文 的格式,用于描述数据集的基本信息、用途、结构和使用方法。

    数据集卡片是帮助用户快速了解数据集的核心文档。一个完善的数据集卡片应包含以下内容:

    • 数据集名称与概述:数据集的基本描述和用途说明
    • 适用场景:数据集适用的任务类型和行业场景
    • 适配模型:该数据集可用于训练或微调的模型类型
    • 数据结构:数据字段、格式及示例
    • 使用方法:加载和使用数据集的代码示例
    • 创建信息:数据来源、采集方式和标注方法
    • 风险与限制:已知的偏差、限制和使用注意事项

    元数据格式

    数据集卡片使用 YAML 前置元数据块定义结构化信息,平台会自动解析并展示这些元数据。YAML 块位于文件开头,由 --- 分隔:

    ---
    language:
      - zh
      - en
    tags:
      - text-classification
      - sentiment-analysis
    task_categories:
      - text-classification
    size_categories:
      - 10K<n<100K
    license: apache-2.0
    ---
    

    数据集卡片模板

    以下是推荐的数据集卡片完整模板:

    ---
    language:
      - zh
    tags:
      - text-classification
    task_categories:
      - text-classification
    size_categories:
      - 1K<n<10K
    license: apache-2.0
    ---
    
    # 数据集名称
    
    ## 数据集描述
    
    简要说明数据集的内容、来源和用途。
    
    ## 适用场景
    
    - 文本分类
    - 情感分析
    - 模型微调
    
    ## 数据结构
    
    | 字段名 | 类型 | 说明 |
    |--------|------|------|
    | text | string | 输入文本 |
    | label | int | 类别标签 |
    
    示例数据:
    
    \```json
    {
      "text": "这款产品使用体验很好",
      "label": 1
    }
    \```
    
    ## 使用方法
    
    \```python
    from pycsghub.snapshot_download import snapshot_download
    
    dataset_path = snapshot_download(
        repo_id="<命名空间>/<数据集名称>",
        repo_type="dataset",
        endpoint="https://<平台地址>",
        token="<访问令牌>"
    )
    \```
    
    ## 创建信息
    
    - **数据来源**:说明数据的采集来源
    - **采集方式**:描述数据的采集和处理方法
    - **标注方法**:说明数据标注的方式和标准
    - **数据规模**:数据条目总数
    
    ## 风险与限制
    
    说明数据集的已知偏差、限制条件和使用时的注意事项。
    

    备注

    模板中的代码块示例使用了 ``` 转义符以避免渲染冲突。实际编写时,请使用标准的三个反引号。

    数据集任务标签

    在元数据的 task_categories 字段中,可使用以下标准任务标签:

    标签 说明
    text-classification 文本分类
    token-classification 词元分类(如命名实体识别)
    question-answering 问答
    summarization 文本摘要
    translation 机器翻译
    text-generation 文本生成
    text2text-generation 文本到文本生成
    fill-mask 填充掩码
    sentence-similarity 句子相似度
    conversational 对话
    table-question-answering 表格问答
    image-classification 图像分类
    object-detection 目标检测
    image-segmentation 图像分割
    image-to-text 图像到文本
    text-to-image 文本到图像
    visual-question-answering 视觉问答
    automatic-speech-recognition 语音识别
    audio-classification 音频分类
    text-to-speech 文本转语音
    video-classification 视频分类
    reinforcement-learning 强化学习
    feature-extraction 特征提取

    行业标签

    在元数据的 tags 字段中,可使用行业标签标识数据集的应用领域:

    标签 说明
    finance 金融
    healthcare 医疗健康
    education 教育
    legal 法律
    government 政务
    manufacturing 制造业
    retail 零售
    energy 能源
    transportation 交通运输
    agriculture 农业
    general 通用

    提示

    合理设置任务标签和行业标签,可以帮助其他用户更快地发现和筛选数据集。