应用场景
- 异构算力管理
文档中心
- 行业大模型平台
- v3.4

简体中文
- English
- 简体中文
Star

最新更新:

模型微调常见问题

常见问题

微调按钮置灰，提示"微调框架暂未支持该模型"

原因：当前微调框架（LLaMA-Factory 或 MS-Swift）暂时不支持该模型架构。

解决方案：请联系平台管理员，告知需要支持的模型名称和相关信息，管理员将评估后尽快添加支持。

微调按钮置灰，提示"模型 metadata 未识别"

原因：模型文件不完整，或模型的配置信息（config.json 中的架构信息）暂不支持自动识别。

解决方案：

确认模型仓库中包含完整的 config.json 文件。
请联系平台管理员，在后台手动触发模型元数据扫描。

训练过程中 Loss 不下降

可能原因：

学习率设置过高或过低。
数据集格式不正确，导致样本被跳过。
训练数据量太少。

解决方案：

检查数据集格式是否符合所选框架的要求。
适当调整学习率（建议从 1e-4 开始尝试）。
确保训练集样本数量足够（建议至少数百条）。

训练显存不足（OOM）

解决方案：

切换到更大显存的算力配置。
在框架设置中启用量化微调（如 QLoRA，使用 4-bit 量化）。
减小批次大小（Batch Size）。
使用梯度累积来等效增大批次大小。