最新更新:

    使用微调与状态监控

    微调实例创建并进入 Running 状态后,您可以通过 Web UI 或 Notebook 两种方式进行模型微调训练。

    使用 Web UI(LlamaBoard)

    如果创建实例时选择了 LLaMA-Factory 框架,系统会提供 LlamaBoard 可视化训练界面,支持无代码操作完成模型微调。

    操作步骤

    1. 加载训练配置 在实例操作栏中点击打开 Web UI 按钮,进入 LlamaBoard 训练界面。在顶部选择基础模型和微调方法(如 LoRA、QLoRA、全参数微调)。

    2. 选择训练数据集 在数据集配置区域选择已上传到平台的训练数据集。支持自定义数据集和平台内置数据集。

    3. 调整超参数 根据实际需求调整训练超参数:

      参数 说明 推荐范围
      Batch Size 每批次训练样本数 根据显存大小调整,通常 4-16
      Learning Rate 学习率 1e-5 到 5e-4
      Epoch 训练轮次 通常 1-5 轮
      LoRA Rank LoRA 低秩矩阵的维度 8、16 或 32
      LoRA Alpha LoRA 缩放系数 通常为 Rank 的 2 倍
    4. 启动训练 配置完成后,点击开始微调按钮启动训练任务。训练过程中可在界面查看实时 Loss 曲线和训练进度。

    提示

    LlamaBoard 会自动保存训练配置。如果需要多次实验,可快速加载之前的配置进行参数调整。

    使用 Notebook

    在实例操作栏中点击启动 Notebook 按钮,系统将在浏览器中打开 JupyterLab 开发环境,您可以完全自定义训练代码和流程。

    Notebook 方式适用于以下场景:

    • 需要自定义训练脚本和数据预处理逻辑
    • 需要使用 MS-Swift 或其他框架的 CLI 命令
    • 需要对训练过程进行更精细的控制
    • 需要调试模型或数据集问题

    备注

    Notebook 环境已预装相应的微调框架和依赖库,可直接使用。如需额外依赖,可通过终端执行 pip install 安装。

    训练监控

    在实例列表中点击实例名称进入详情页,切换到分析页签,可查看实时训练状态和资源监控:

    资源监控

    监控指标 说明
    CPU 利用率 系统 CPU 的使用百分比
    GPU 利用率 GPU 计算核心的使用率
    内存使用量 系统内存的占用情况
    显存使用量 GPU 显存的分配和使用情况

    训练指标

    训练指标 说明
    Loss 曲线 训练损失随步数/轮次的变化趋势
    学习率变化 学习率调度器的实际学习率变化
    训练速度 每秒处理的样本数或训练步数

    通过监控这些指标,您可以判断训练是否正常进行,及时发现过拟合、欠拟合或资源瓶颈等问题。

    查看计费详情

    在实例详情页切换到计费页签,可查看资源消耗明细:

    字段 说明
    计费开始时间 实例启动并开始占用算力的时间
    计费结束时间 实例停止或释放资源的时间
    资源规格 当前使用的 GPU/CPU/内存配置
    累计费用 截至当前的总费用

    警告

    微调实例在运行期间持续计费,即使训练任务已完成,只要实例未停止就会继续产生费用。请在训练完成后及时停止实例以避免不必要的费用。