更新数据集
编辑数据集文件
本地编辑(Git / SDK)
通过 Git 或 Python SDK 将数据集仓库克隆到本地后,可在本地对文件进行修改,然后将变更推送到远端。
使用 Git:
# 克隆仓库
git lfs install
git clone https://<用户名>:<访问令牌>@<平台地址>/<命名空间>/<数据集名称>
cd <数据集名称>
# 修改文件后提交推送
git add .
git commit -m "update dataset files"
git push
使用 Python SDK:
from pycsghub.repository import Repository
repo = Repository(
repo_id="<命名空间>/<数据集名称>",
repo_type="dataset",
endpoint="https://<平台地址>",
token="<访问令牌>"
)
repo.clone()
# 在本地仓库中修改文件后推送
repo.push()
Web 在线编辑
- 进入数据集详情页,切换到 文件 标签页
- 点击要编辑的文件名称,进入文件查看页面
- 点击 编辑 按钮,进入在线编辑模式
- 修改文件内容,填写提交信息后点击 提交 完成保存
提示
Web 在线编辑适合修改 README.md、配置文件等文本文件。对于大型数据文件的更新,建议通过 Git 或 CLI 操作。
仓库设置
进入数据集详情页,点击 设置 标签页可修改数据集仓库的配置信息。
不可修改项
以下信息在创建后不可更改:
| 字段 | 说明 |
|---|---|
| 数据集名称 | 即数据集的英文标识名称,创建后固定不变 |
| 可见性 | 默认为私有,平台暂不支持在页面上自主切换可见性 |
可修改项
| 字段 | 说明 |
|---|---|
| 数据集别名 | 修改数据集的友好显示名称 |
| 数据集简介 | 修改数据集的文字描述 |
| 任务标签 | 添加或修改数据集的任务类型标签(如 text-classification、question-answering 等) |
| 行业标签 | 添加或修改数据集的行业领域标签(如金融、医疗、教育等) |
删除数据集
警告
删除数据集是不可逆操作,删除后所有数据文件和版本历史将永久移除,无法恢复。
删除数据集的步骤:
- 进入数据集详情页,点击 设置 标签页
- 滚动到页面底部的 删除数据集 区域
- 在确认输入框中输入数据集的完整名称
- 点击 删除 按钮完成操作