显卡管理
概述
显卡管理页面提供集群中所有物理 GPU 卡的统一视图,支持按节点、厂商、型号、状态等维度筛选和查看 GPU 资源的分配与使用情况。
查看显卡列表
在左侧导航栏,选择节点管理 → 显卡,进入集群显卡列表页面。
概览面板
页面顶部展示集群 GPU 资源的整体状态:
- GPU 总数:集群中物理 GPU 卡总数
- 健康状态分布:健康与异常 GPU 卡的占比饼图
- 厂商/型号分布:按 GPU 厂商和型号统计各类显卡数量
显卡列表
列表展示每张 GPU 卡的详细信息:
| 列名 | 说明 |
|---|---|
| 节点 | GPU 所在的计算节点名称,点击可跳转到节点详情 |
| 显卡序号 | GPU 在节点中的索引编号 |
| 显卡 UUID | GPU 的全局唯一标识,点击可跳转到显卡详情 |
| 状态 | 健康(Healthy)或亚健康(Sub-healthy) |
| 型号 | GPU 型号,如 A100、V100、910B 等 |
| NUMA | GPU 所属的 NUMA 节点编号 |
| 厂商 | GPU 厂商,如 NVIDIA、华为昇腾、寒武纪等 |
| 虚拟化模式 | 当前 GPU 的虚拟化运行模式 |
| vGPU | vGPU 使用量 / 总量 |
| 算力 | GPU 算力使用量 / 总量 |
| 显存 | 显存使用量 / 总量(GiB) |
筛选与搜索
支持以下筛选条件:
- 按节点筛选:通过节点下拉框选择特定节点
- 按 UUID 搜索:输入显卡 UUID 精确定位
- 按标签选择器:使用 Kubernetes 标签筛选
- 按厂商筛选:选择 NVIDIA、华为昇腾、寒武纪等
- 按型号筛选:输入 GPU 型号关键词
- 按状态筛选:健康 / 亚健康
查看显卡详情
在显卡列表中点击某张显卡的 UUID,进入显卡详情页面。
基本属性
详情页展示以下信息:
| 属性 | 说明 |
|---|---|
| 状态 | 当前健康状态 |
| 所属节点 | GPU 安装的物理节点 |
| 显卡 UUID | 全局唯一标识 |
| 显卡序号 | 节点内索引 |
| 型号 | GPU 型号 |
| 厂商 | GPU 厂商 |
| NUMA | NUMA 节点编号 |
| 虚拟化模式 | 从节点继承的虚拟化模式 |
| 显存总量 | 物理显存大小(GiB) |
| 驱动版本 | GPU 驱动版本(如有) |
| 设备最大共享/切分数 | vGPU 切分后最大并发任务数(如已配置) |
资源摘要
显示当前 GPU 卡的资源使用摘要:
- 算力:已使用 / 总量
- 显存:已使用 / 总量(GiB)
- vGPU:已分配 / 总量
详情标签页
| 标签页 | 内容 |
|---|---|
| 运行状态 | GPU 利用率、显存使用率、分配率、功耗、温度的实时监控图表,以及 GPU 拓扑信息 |
| 容器组 | 当前调度到该 GPU 上运行的所有 Pod 列表 |
| 监控 | 历史监控指标图表,支持自定义时间范围 |
| 事件 | 与该 GPU 相关的 Kubernetes 事件记录 |
节点详情中的显卡
在节点管理 → 集群节点中,点击某个节点进入节点详情页。对于配备 GPU 的节点,运行状态页面会展示:
- GPU 总量:节点上的 GPU 卡总数
- 显存总量:节点上所有 GPU 的显存总和
- vGPU 总量:节点上所有 vGPU 的总数
- 显卡列表:节点上每张 GPU 卡的状态、型号、vGPU/算力/显存使用情况
Pod 调度信息
对于使用 GPU 资源的 Pod,在 Pod 详情页可查看调度至显卡信息,包括:
- 分配的 GPU UUID 及物理显卡链接
- 分配的厂商类型
- 分配的显存大小
- 分配的算力比例
页面内容