最新更新:

    集群概览

    集群概览页集中展示当前集群的关键信息、系统组件、资源用量、快捷工具以及节点排行。相比旧版本的监控入口,当前页面更偏向仪表盘形式,帮助集群管理员快速了解集群状态并进入相关管理页面。

    准备工作

    您需要一个被授予集群管理权限的用户。例如,您可以直接使用 admin 登录控制台,或创建一个包含集群管理权限的角色并将其授予某个用户。

    打开集群概览

    1. 点击左上角的平台管理,然后选择集群管理

    2. 如果您已启用多集群功能并导入了成员集群,请先选择目标集群。

    3. 在左侧导航栏选择概览,打开当前集群的概览页。

    信息

    集群概览页中的部分卡片会根据当前环境动态显示。例如,基本信息仅在多集群场景下显示,工具仅对被授予 platform-admin 角色的用户显示。

    页面组成

    集群标题

    页面顶部显示当前集群的名称、描述、提供商图标以及集群类型标签。主集群会显示对应标识,便于在多集群场景下快速识别。

    基本信息

    在启用多集群功能时,概览页会显示基本信息卡片,包含以下字段:

    • 提供商
    • Kubernetes 版本
    • Kube AI Hub 版本
    • 集群可见性

    您可以点击集群可见性字段直接进入集群可见性和授权页面。

    系统组件

    系统组件卡片展示当前集群已启用的重要组件入口。默认会显示 Kube AI HubKubernetes,如果集群启用了对应模块,还会显示 Istio监控日志DevOps

    点击任一组件图标可跳转到对应的组件详情页面,查看组件状态和相关资源。

    资源用量

    资源用量卡片汇总显示当前集群的关键资源使用情况,包括:

    • GPU 显存
    • GPU
    • CPU
    • 内存
    • Pod
    • 磁盘

    每一项资源都会显示当前使用比例,并提供已使用已分配总计等信息,帮助您快速判断资源是否紧张。

    工具

    对于被授予 platform-admin 角色的用户,概览页会显示工具卡片,其中包含:

    • kubectl:打开 Web Kubectl 终端窗口,用于直接管理当前集群
    • kubeconfig:打开当前集群的 kubeconfig 页面

    有关这两个入口的详细说明,请参见 Web Kubectl获取 Kubeconfig

    Kubernetes 状态

    右侧的Kubernetes 状态卡片展示与控制平面运行情况直接相关的关键指标,包括:

    • 每秒 API 请求数
    • API 请求延迟
    • 调度次数
    • 调度失败次数

    这些指标可帮助您快速判断 API Server 和调度器是否存在异常波动。

    节点资源用量 Top 5

    节点区域当前重点展示资源用量 Top 5排行。您可以按不同指标对节点进行排序,快速发现高负载节点。支持的排序维度包括:

    • GPU 显存用量
    • GPU 用量
    • GPU 分配量
    • CPU 用量
    • CPU 平均负载(1 分钟)
    • 内存用量
    • 磁盘用量
    • Inode 用量
    • Pod 用量

    点击节点名称可进入节点详情页,点击查看更多可跳转到更完整的集群监控排行页面。

    初始化状态

    当集群尚未准备就绪时,访问概览页会显示初始化相关页面,而不是仪表盘内容。

    等待集群加入

    如果当前集群通过代理方式导入,概览页会显示三步式引导:

    1. 通过 SSH 登录成员集群并创建 agent.yaml
    2. 将控制台生成的代理配置复制到 agent.yaml
    3. 执行 kubectl create -f agent.yaml

    相关操作说明请参见代理连接

    创建集群中

    如果集群由 KubeKey 创建,概览页会显示集群创建进度、日志以及相关操作入口,例如编辑 YAML重新运行

    初始化失败

    如果集群初始化失败,概览页会直接显示失败状态及原因,便于您尽快排查问题。

    后续操作

    • 如果您需要查看节点、组件或更详细的监控信息,可以从概览页继续进入对应详情页面。
    • 如果您需要调整当前集群对企业空间的授权范围,请打开基本信息中的集群可见性入口。
    • 如果您需要直接执行集群命令或下载访问配置,请使用概览页中的工具卡片。