集群概览
集群概览页集中展示当前集群的关键信息、系统组件、资源用量、快捷工具以及节点排行。相比旧版本的监控入口,当前页面更偏向仪表盘形式,帮助集群管理员快速了解集群状态并进入相关管理页面。
准备工作
您需要一个被授予集群管理权限的用户。例如,您可以直接使用 admin 登录控制台,或创建一个包含集群管理权限的角色并将其授予某个用户。
打开集群概览
-
点击左上角的平台管理,然后选择集群管理。
-
如果您已启用多集群功能并导入了成员集群,请先选择目标集群。
-
在左侧导航栏选择概览,打开当前集群的概览页。
信息
platform-admin 角色的用户显示。页面组成
集群标题
页面顶部显示当前集群的名称、描述、提供商图标以及集群类型标签。主集群会显示对应标识,便于在多集群场景下快速识别。
基本信息
在启用多集群功能时,概览页会显示基本信息卡片,包含以下字段:
- 提供商
- Kubernetes 版本
- Kube AI Hub 版本
- 集群可见性
您可以点击集群可见性字段直接进入集群可见性和授权页面。
系统组件
系统组件卡片展示当前集群已启用的重要组件入口。默认会显示 Kube AI Hub 和 Kubernetes,如果集群启用了对应模块,还会显示 Istio、监控、日志 和 DevOps。
点击任一组件图标可跳转到对应的组件详情页面,查看组件状态和相关资源。
资源用量
资源用量卡片汇总显示当前集群的关键资源使用情况,包括:
- GPU 显存
- GPU
- CPU
- 内存
- Pod
- 磁盘
每一项资源都会显示当前使用比例,并提供已使用、已分配和总计等信息,帮助您快速判断资源是否紧张。
工具
对于被授予 platform-admin 角色的用户,概览页会显示工具卡片,其中包含:
kubectl:打开 Web Kubectl 终端窗口,用于直接管理当前集群kubeconfig:打开当前集群的 kubeconfig 页面
有关这两个入口的详细说明,请参见 Web Kubectl 和 获取 Kubeconfig。
Kubernetes 状态
右侧的Kubernetes 状态卡片展示与控制平面运行情况直接相关的关键指标,包括:
- 每秒 API 请求数
- API 请求延迟
- 调度次数
- 调度失败次数
这些指标可帮助您快速判断 API Server 和调度器是否存在异常波动。
节点资源用量 Top 5
节点区域当前重点展示资源用量 Top 5排行。您可以按不同指标对节点进行排序,快速发现高负载节点。支持的排序维度包括:
- GPU 显存用量
- GPU 用量
- GPU 分配量
- CPU 用量
- CPU 平均负载(1 分钟)
- 内存用量
- 磁盘用量
- Inode 用量
- Pod 用量
点击节点名称可进入节点详情页,点击查看更多可跳转到更完整的集群监控排行页面。
初始化状态
当集群尚未准备就绪时,访问概览页会显示初始化相关页面,而不是仪表盘内容。
等待集群加入
如果当前集群通过代理方式导入,概览页会显示三步式引导:
- 通过 SSH 登录成员集群并创建
agent.yaml - 将控制台生成的代理配置复制到
agent.yaml - 执行
kubectl create -f agent.yaml
相关操作说明请参见代理连接。
创建集群中
如果集群由 KubeKey 创建,概览页会显示集群创建进度、日志以及相关操作入口,例如编辑 YAML和重新运行。
初始化失败
如果集群初始化失败,概览页会直接显示失败状态及原因,便于您尽快排查问题。
后续操作
- 如果您需要查看节点、组件或更详细的监控信息,可以从概览页继续进入对应详情页面。
- 如果您需要调整当前集群对企业空间的授权范围,请打开基本信息中的集群可见性入口。
- 如果您需要直接执行集群命令或下载访问配置,请使用概览页中的工具卡片。