最新更新:

    GPU 虚拟化模式(共享/切分策略)

    概述

    GPU 虚拟化模式(也称共享/切分策略)是在节点维度对该节点上所有 GPU 显卡进行虚拟化配置的功能。通过设置不同的虚拟化模式,可以将一张物理 GPU 卡切分为多个 vGPU,实现多任务共享同一张显卡,显著提升 GPU 利用率。

    平台支持多种 GPU 厂商的虚拟化方案,针对不同厂商提供差异化的模式选项和配置参数。

    支持的厂商与模式

    NVIDIA GPU

    模式 说明
    默认模式(Default) 不启用虚拟化,每个任务独占整张 GPU 卡
    MIG(Multi-Instance GPU) 将一张 GPU 硬件级切分为多个独立实例,每个实例拥有独立的显存和算力,完全隔离。需要 A100/A30/H100 等支持 MIG 的型号
    HAMi-Core 基于 HAMi 框架的软件级虚拟化,支持算力和显存的灵活共享与超配

    HAMi-Core 模式参数:

    参数 说明
    设备切分数(Device Split Count) 单张 GPU 允许的最大并发共享任务数
    显存超配比例(Device Memory Scaling) 显存的超配倍率,大于 1 表示超配
    算力超配比例(Device Core Scaling) 算力的超配倍率,大于 1 表示超配

    寒武纪 GPU

    模式 说明
    默认模式(Default) 不启用虚拟化
    Dynamic SMLU 动态共享模式,支持按最小 SMLU 单元进行切分
    Env Share 环境共享模式,通过虚拟化数量进行切分

    Dynamic SMLU 参数:

    参数 说明
    最小 SMLU 单元(Min DSMLU Unit) 单张 GPU 切分的最小单元数

    Env Share 参数:

    参数 说明
    虚拟化数量(Virtualization Num) 单张 GPU 虚拟化的数量

    配置 GPU 虚拟化模式

    从节点列表配置

    1. 在左侧导航栏,选择节点管理 → 集群节点
    2. 找到需要配置的 GPU 节点,点击操作列中的设置 GPU 虚拟化模式
    3. 在弹出的对话框中选择目标虚拟化模式。
    4. 根据所选模式填写相应的配置参数。
    5. 点击确定提交配置。

    从节点详情配置

    1. 进入 GPU 节点的详情页面。
    2. 在节点属性区域找到 GPU 虚拟化模式字段。
    3. 点击旁边的设置按钮。
    4. 在弹出的对话框中完成模式选择和参数配置。

    备注

    • 切换虚拟化模式时,系统需要一段时间完成模式切换。切换期间页面会显示"切换中"状态,并自动刷新直到切换完成。
    • 如果模式切换失败,页面会显示"切换失败"状态,请检查节点上的 GPU 驱动和设备插件是否正常。
    • 并非所有 GPU 厂商都支持虚拟化模式设置,不支持的厂商会在对话框中显示提示信息。

    查看虚拟化状态

    配置完成后,可在以下位置查看虚拟化状态:

    • 节点详情页:GPU 虚拟化模式字段显示当前模式,GPU 设备最大共享/切分数显示切分参数
    • 显卡列表:虚拟化模式列显示每张卡的当前模式
    • 显卡详情页:属性区域显示从节点继承的虚拟化模式和切分参数

    模式选择建议

    场景 推荐模式 原因
    生产推理服务,需要严格资源隔离 MIG(NVIDIA) 硬件级隔离,性能可预测
    开发测试,多人共享 GPU HAMi-Core(NVIDIA)或 Env Share(寒武纪) 灵活切分,提升利用率
    训练任务,需要完整 GPU 性能 默认模式 无虚拟化开销,最大性能
    算力紧张,需要超配 HAMi-Core + 超配参数 允许显存/算力超配分配