GPU 虚拟化模式(共享/切分策略)
概述
GPU 虚拟化模式(也称共享/切分策略)是在节点维度对该节点上所有 GPU 显卡进行虚拟化配置的功能。通过设置不同的虚拟化模式,可以将一张物理 GPU 卡切分为多个 vGPU,实现多任务共享同一张显卡,显著提升 GPU 利用率。
平台支持多种 GPU 厂商的虚拟化方案,针对不同厂商提供差异化的模式选项和配置参数。
支持的厂商与模式
NVIDIA GPU
| 模式 | 说明 |
|---|---|
| 默认模式(Default) | 不启用虚拟化,每个任务独占整张 GPU 卡 |
| MIG(Multi-Instance GPU) | 将一张 GPU 硬件级切分为多个独立实例,每个实例拥有独立的显存和算力,完全隔离。需要 A100/A30/H100 等支持 MIG 的型号 |
| HAMi-Core | 基于 HAMi 框架的软件级虚拟化,支持算力和显存的灵活共享与超配 |
HAMi-Core 模式参数:
| 参数 | 说明 |
|---|---|
| 设备切分数(Device Split Count) | 单张 GPU 允许的最大并发共享任务数 |
| 显存超配比例(Device Memory Scaling) | 显存的超配倍率,大于 1 表示超配 |
| 算力超配比例(Device Core Scaling) | 算力的超配倍率,大于 1 表示超配 |
寒武纪 GPU
| 模式 | 说明 |
|---|---|
| 默认模式(Default) | 不启用虚拟化 |
| Dynamic SMLU | 动态共享模式,支持按最小 SMLU 单元进行切分 |
| Env Share | 环境共享模式,通过虚拟化数量进行切分 |
Dynamic SMLU 参数:
| 参数 | 说明 |
|---|---|
| 最小 SMLU 单元(Min DSMLU Unit) | 单张 GPU 切分的最小单元数 |
Env Share 参数:
| 参数 | 说明 |
|---|---|
| 虚拟化数量(Virtualization Num) | 单张 GPU 虚拟化的数量 |
配置 GPU 虚拟化模式
从节点列表配置
- 在左侧导航栏,选择节点管理 → 集群节点。
- 找到需要配置的 GPU 节点,点击操作列中的设置 GPU 虚拟化模式。
- 在弹出的对话框中选择目标虚拟化模式。
- 根据所选模式填写相应的配置参数。
- 点击确定提交配置。
从节点详情配置
- 进入 GPU 节点的详情页面。
- 在节点属性区域找到 GPU 虚拟化模式字段。
- 点击旁边的设置按钮。
- 在弹出的对话框中完成模式选择和参数配置。
备注
- 切换虚拟化模式时,系统需要一段时间完成模式切换。切换期间页面会显示"切换中"状态,并自动刷新直到切换完成。
- 如果模式切换失败,页面会显示"切换失败"状态,请检查节点上的 GPU 驱动和设备插件是否正常。
- 并非所有 GPU 厂商都支持虚拟化模式设置,不支持的厂商会在对话框中显示提示信息。
查看虚拟化状态
配置完成后,可在以下位置查看虚拟化状态:
- 节点详情页:GPU 虚拟化模式字段显示当前模式,GPU 设备最大共享/切分数显示切分参数
- 显卡列表:虚拟化模式列显示每张卡的当前模式
- 显卡详情页:属性区域显示从节点继承的虚拟化模式和切分参数
模式选择建议
| 场景 | 推荐模式 | 原因 |
|---|---|---|
| 生产推理服务,需要严格资源隔离 | MIG(NVIDIA) | 硬件级隔离,性能可预测 |
| 开发测试,多人共享 GPU | HAMi-Core(NVIDIA)或 Env Share(寒武纪) | 灵活切分,提升利用率 |
| 训练任务,需要完整 GPU 性能 | 默认模式 | 无虚拟化开销,最大性能 |
| 算力紧张,需要超配 | HAMi-Core + 超配参数 | 允许显存/算力超配分配 |
页面内容