最新更新:

    下载数据集

    下载方式概览

    平台支持以下三种方式下载数据集:

    方式 适用场景
    HTTPS Git Clone 通用下载,适合所有用户
    SSH Git Clone 配置 SSH 密钥后免密下载
    csghub-cli 命令行 支持断点续传,适合大型数据集下载

    前置条件

    下载包含大文件的数据集前,需要安装 Git LFS:

    # 安装 Git LFS(macOS)
    brew install git-lfs
    
    # 安装 Git LFS(Ubuntu/Debian)
    sudo apt-get install git-lfs
    
    # 初始化 Git LFS
    git lfs install
    

    使用 HTTPS 下载

    # 克隆数据集仓库
    git lfs install
    git clone https://<平台地址>/<命名空间>/<数据集名称>
    

    若需要身份验证(私有数据集),使用访问令牌:

    git clone https://<用户名>:<访问令牌>@<平台地址>/<命名空间>/<数据集名称>
    

    如需跳过大文件下载:

    GIT_LFS_SKIP_SMUDGE=1 git clone https://<平台地址>/<命名空间>/<数据集名称>
    

    使用 SSH 下载

    在平台 个人设置 → SSH 密钥 中添加您的 SSH 公钥后:

    git lfs install
    git clone ssh://git@<平台地址>/<命名空间>/<数据集名称>
    

    使用 csghub-cli 下载

    安装 csghub-cli:

    pip install csghub-sdk
    

    下载数据集:

    # 下载整个数据集仓库
    csghub-cli download <命名空间>/<数据集名称> --repo_type dataset
    
    # 下载指定版本
    csghub-cli download <命名空间>/<数据集名称> --repo_type dataset --revision main
    

    使用 Python SDK 下载

    from pycsghub.snapshot_download import snapshot_download
    
    # 下载数据集到本地缓存目录
    dataset_path = snapshot_download(
        repo_id="<命名空间>/<数据集名称>",
        repo_type="dataset",
        endpoint="https://<平台地址>",
        token="<访问令牌>"  # 私有数据集需要
    )
    print(f"数据集已下载到: {dataset_path}")
    

    备注

    访问令牌可在平台 个人设置 → 访问令牌 中生成。