最新更新:

    显卡管理

    概述

    显卡管理页面提供集群中所有物理 GPU 卡的统一视图,支持按节点、厂商、型号、状态等维度筛选和查看 GPU 资源的分配与使用情况。

    查看显卡列表

    在左侧导航栏,选择节点管理 → 显卡,进入集群显卡列表页面。

    概览面板

    页面顶部展示集群 GPU 资源的整体状态:

    • GPU 总数:集群中物理 GPU 卡总数
    • 健康状态分布:健康与异常 GPU 卡的占比饼图
    • 厂商/型号分布:按 GPU 厂商和型号统计各类显卡数量

    显卡列表

    列表展示每张 GPU 卡的详细信息:

    列名 说明
    节点 GPU 所在的计算节点名称,点击可跳转到节点详情
    显卡序号 GPU 在节点中的索引编号
    显卡 UUID GPU 的全局唯一标识,点击可跳转到显卡详情
    状态 健康(Healthy)或亚健康(Sub-healthy)
    型号 GPU 型号,如 A100、V100、910B 等
    NUMA GPU 所属的 NUMA 节点编号
    厂商 GPU 厂商,如 NVIDIA、华为昇腾、寒武纪等
    虚拟化模式 当前 GPU 的虚拟化运行模式
    vGPU vGPU 使用量 / 总量
    算力 GPU 算力使用量 / 总量
    显存 显存使用量 / 总量(GiB)

    筛选与搜索

    支持以下筛选条件:

    • 按节点筛选:通过节点下拉框选择特定节点
    • 按 UUID 搜索:输入显卡 UUID 精确定位
    • 按标签选择器:使用 Kubernetes 标签筛选
    • 按厂商筛选:选择 NVIDIA、华为昇腾、寒武纪等
    • 按型号筛选:输入 GPU 型号关键词
    • 按状态筛选:健康 / 亚健康

    查看显卡详情

    在显卡列表中点击某张显卡的 UUID,进入显卡详情页面。

    基本属性

    详情页展示以下信息:

    属性 说明
    状态 当前健康状态
    所属节点 GPU 安装的物理节点
    显卡 UUID 全局唯一标识
    显卡序号 节点内索引
    型号 GPU 型号
    厂商 GPU 厂商
    NUMA NUMA 节点编号
    虚拟化模式 从节点继承的虚拟化模式
    显存总量 物理显存大小(GiB)
    驱动版本 GPU 驱动版本(如有)
    设备最大共享/切分数 vGPU 切分后最大并发任务数(如已配置)

    资源摘要

    显示当前 GPU 卡的资源使用摘要:

    • 算力:已使用 / 总量
    • 显存:已使用 / 总量(GiB)
    • vGPU:已分配 / 总量

    详情标签页

    标签页 内容
    运行状态 GPU 利用率、显存使用率、分配率、功耗、温度的实时监控图表,以及 GPU 拓扑信息
    容器组 当前调度到该 GPU 上运行的所有 Pod 列表
    监控 历史监控指标图表,支持自定义时间范围
    事件 与该 GPU 相关的 Kubernetes 事件记录

    节点详情中的显卡

    节点管理 → 集群节点中,点击某个节点进入节点详情页。对于配备 GPU 的节点,运行状态页面会展示:

    • GPU 总量:节点上的 GPU 卡总数
    • 显存总量:节点上所有 GPU 的显存总和
    • vGPU 总量:节点上所有 vGPU 的总数
    • 显卡列表:节点上每张 GPU 卡的状态、型号、vGPU/算力/显存使用情况

    Pod 调度信息

    对于使用 GPU 资源的 Pod,在 Pod 详情页可查看调度至显卡信息,包括:

    • 分配的 GPU UUID 及物理显卡链接
    • 分配的厂商类型
    • 分配的显存大小
    • 分配的算力比例