使用微调与状态监控
微调实例创建并进入 Running 状态后,您可以通过 Web UI 或 Notebook 两种方式进行模型微调训练。
使用 Web UI(LlamaBoard)
如果创建实例时选择了 LLaMA-Factory 框架,系统会提供 LlamaBoard 可视化训练界面,支持无代码操作完成模型微调。
操作步骤
-
加载训练配置 在实例操作栏中点击打开 Web UI 按钮,进入 LlamaBoard 训练界面。在顶部选择基础模型和微调方法(如 LoRA、QLoRA、全参数微调)。
-
选择训练数据集 在数据集配置区域选择已上传到平台的训练数据集。支持自定义数据集和平台内置数据集。
-
调整超参数 根据实际需求调整训练超参数:
参数 说明 推荐范围 Batch Size 每批次训练样本数 根据显存大小调整,通常 4-16 Learning Rate 学习率 1e-5 到 5e-4 Epoch 训练轮次 通常 1-5 轮 LoRA Rank LoRA 低秩矩阵的维度 8、16 或 32 LoRA Alpha LoRA 缩放系数 通常为 Rank 的 2 倍 -
启动训练 配置完成后,点击开始微调按钮启动训练任务。训练过程中可在界面查看实时 Loss 曲线和训练进度。
提示
LlamaBoard 会自动保存训练配置。如果需要多次实验,可快速加载之前的配置进行参数调整。
使用 Notebook
在实例操作栏中点击启动 Notebook 按钮,系统将在浏览器中打开 JupyterLab 开发环境,您可以完全自定义训练代码和流程。
Notebook 方式适用于以下场景:
- 需要自定义训练脚本和数据预处理逻辑
- 需要使用 MS-Swift 或其他框架的 CLI 命令
- 需要对训练过程进行更精细的控制
- 需要调试模型或数据集问题
备注
Notebook 环境已预装相应的微调框架和依赖库,可直接使用。如需额外依赖,可通过终端执行
pip install 安装。训练监控
在实例列表中点击实例名称进入详情页,切换到分析页签,可查看实时训练状态和资源监控:
资源监控
| 监控指标 | 说明 |
|---|---|
| CPU 利用率 | 系统 CPU 的使用百分比 |
| GPU 利用率 | GPU 计算核心的使用率 |
| 内存使用量 | 系统内存的占用情况 |
| 显存使用量 | GPU 显存的分配和使用情况 |
训练指标
| 训练指标 | 说明 |
|---|---|
| Loss 曲线 | 训练损失随步数/轮次的变化趋势 |
| 学习率变化 | 学习率调度器的实际学习率变化 |
| 训练速度 | 每秒处理的样本数或训练步数 |
通过监控这些指标,您可以判断训练是否正常进行,及时发现过拟合、欠拟合或资源瓶颈等问题。
查看计费详情
在实例详情页切换到计费页签,可查看资源消耗明细:
| 字段 | 说明 |
|---|---|
| 计费开始时间 | 实例启动并开始占用算力的时间 |
| 计费结束时间 | 实例停止或释放资源的时间 |
| 资源规格 | 当前使用的 GPU/CPU/内存配置 |
| 累计费用 | 截至当前的总费用 |
警告
微调实例在运行期间持续计费,即使训练任务已完成,只要实例未停止就会继续产生费用。请在训练完成后及时停止实例以避免不必要的费用。