平台功能
概览
Kube AI Hub 是面向 GPU/AI 算力场景的异构算力管理平台,提供从硬件接入到业务交付的完整管理链路。平台以 Kubernetes 为内核,通过统一的 Web 控制台提供可视化运维能力,涵盖算力平台、行业模型平台和系统管理三大产品模块。
算力平台
资源概览
集群所有算力的核心指标展示,包括算力/显存的分配/使用率、节点数量、显卡数量、CPU 总量、内存总量、显存总量、容器级别、资源用量、监控故障等信息。
节点管理
集群节点管理
理解和监控计算节点的状态。它可以启用或禁用节点上调度,查看节点上的物理 GPU 卡、GPU 卡连接拓扑、设置 GPU 虚拟化模式,以及监控节点上运行的所有任务。
共享/切分策略
共享/切分是从节点维度对该节点上所有显卡的 vGPU 数、算力和显存的共享/超配比例与策略。
显卡管理
显卡管理用于监控物理显卡的状态,它用于监控物理显卡的分配使用情况,以及查看物理显卡上运行的所有任务。
服务组件
展示 Kubernetes 核心服务组件(API Server、调度器、控制器、etcd 等)的健康状态与运行指标,帮助运维人员快速定位组件级故障。
项目(命名空间)管理
项目管理
将集群资源以项目为单位进行划分,查看项目上的资源、容器组,分配项目到租户。
资源配额
资源配额是一种限制用户使用 GPU 的机制,它可以确保资源的分配合理,避免过度使用 GPU 资源,支持设置 GPU、CPU、内存、容器组、任务等配额。
应用负载
工作负载
管理集群级别的工作负载,包括:
- 部署(Deployment):无状态应用管理,支持滚动升级、回滚与弹性伸缩(HPA)、有状态副本集
- 有状态副本集(StatefulSet):有状态服务管理,保障 Pod 的稳定标识与持久化存储
- 守护进程集(DaemonSet):确保每个节点运行指定 Pod,适用于节点监控和日志采集
任务与定时任务
- 任务(Job):管理一次性批处理任务,支持并行执行与完成策略配置
- 定时任务(CronJob):基于 Cron 表达式定期触发的批处理任务,适用于数据清洗、定期报告等场景
容器组(Pod)
在集群级别跨所有命名空间查看容器组,支持按节点、状态、标签等条件筛选,可直接进入容器终端执行命令。
服务(Service)
管理集群内的 ClusterIP、NodePort、LoadBalancer 等类型的 Kubernetes 服务,查看端口映射与后端 Endpoint 状态。
路由(Ingress)
管理集群级别的 Ingress 规则,支持基于域名和路径的 HTTP/HTTPS 路由配置。
配置管理
- 密钥(Secret):安全存储敏感信息(密码、证书、Token),通过 RBAC 控制访问权限
- 配置字典(ConfigMap):管理应用配置,支持键值对和文件两种格式
- 服务账户(ServiceAccount):管理 Pod 的 API 访问凭证
网络管理
- 网络策略(NetworkPolicy):定义 Pod 间通信规则,实现网络层隔离
- 容器组 IP 池(IPPool):管理 Pod IP 地址分配范围,支持与 Calico 集成
存储管理
- 持久卷声明(PVC):声明持久化存储需求,支持动态供给(StorageClass)
- 存储类(StorageClass):定义存储后端策略,支持 Ceph、NFS、LocalPV、JuiceFS 等多种存储方案
- 卷快照(Volume Snapshot):为持久卷创建时间点快照,支持快速恢复
- 快照类(VolumeSnapshotClass):定义快照驱动与删除策略
自定义资源(CRD)
面向平台管理员,提供集群内所有自定义资源定义(CRD)的可视化管理入口,支持查看自定义资源实例详情。
监控与告警
集群状态监控
提供秒级精度的集群级监控指标,包括 CPU 利用率、内存利用率、平均负载、磁盘使用量、I/O 吞吐、网络流量和 API Server 请求率等。
GPU 资源监控
专为 GPU 算力场景设计的监控视图,展示每个节点和每张 GPU 卡的实时指标:GPU 健康状态、GPU 利用率与显存占用率、GPU 分配,以及资源用量排行。
使用前应先在 ClusterConfiguration 中开启 spec.monitoring.gpu.enabled 并完成 ks-installer 协调;NVIDIA DCGM 等 GPU 指标 exporter 需在集群内单独部署。详见监控常见问题。
告警消息
实时展示集群内触发的告警信息,包括节点异常、Pod 崩溃、存储告警等,支持按严重级别(紧急、警告、提示)筛选,并记录告警历史。
告警策略
自定义告警规则,针对节点、工作负载、Pod 等资源设置指标阈值与触发条件,支持配置告警重复间隔和通知接收人,通知渠道支持邮件、企业微信、钉钉、Slack 等。
日志管理
日志接收器
集群级别配置统一的日志收集策略,支持对接以下日志存储后端:Elasticsearch、Kafka 和 Fluentd,支持多租户日志隔离,不同租户仅能查看属于自己的日志信息。
日志查询
从用户的角度为用户提供日志收集、查询和管理的功能。支持查看和搜索项目、应用和容器级别的日志。
事件与审计查询
事件查询
支持 Kubernetes 事件查询。可以按照消息、租户、项目、资源类型、资源名称、原因、类别的规则搜索事件。
审计日志查询
记录每个用户、管理员以及其他组件对系统产生影响的一系列活动,并生成事件,支持按级集群、项目、租户、资源类型、资源名称、操作行为等查询。操作用户和时间范围查看审计日志。
集群设置
- 基本信息:查看集群名称、Kubernetes 版本、节点数量等基本信息
- 可见性:控制集群对哪些企业空间开放访问
- 成员管理:管理集群级别的用户与角色授权
- 角色管理:自定义集群级别的访问角色与权限集合
- 日志接收器:在集群设置中配置日志收集后端
- 网关设置:管理集群或项目级入口网关
租户管理(企业空间)
租户(企业空间)列表
查看租户列表,编辑租户信息,添加和删除租户。
租户项目
管理租户下的项目,查看项目资源用量,创建和删除项目。
应用管理
提供基于 Helm 的应用程序管理。租户管理员可以上传或创建新的应用模板,并进行快速测试,再经过多次分测试的应用发布到应用商店,支持其他租户一键部署这些应用。
租户设置
设置租户资源配额,管理租户下成员、角色与部门,支持将平台用户通过邀请方式添加到租户中。
租户用户管理
用户管理
新增和管理组织内用户,配置相关权限和角色的管理,成员等操作权限。
平台角色
主要控制用户对平台资源的访问权限,如集群的管理、企业空间的管理、平台用户的管理等。
规格管理
创建和管理实例的规格,包括 CPU、内存、磁盘、GPU 规格等配置,用户在创建容器实例时可以选择已创建好的规格。
第三方登录
提供内置的 OAuth 服务,支持外部用户通过多种方式接入,包括 LDAP、OIDC、CAS、OAuth 2.0 等。
行业模型平台
模型库
模型创建
创建卡片式 UI 仓库。
模型卡片化管理
提供卡片式 UI 的模型列表进行管理,便于用户直观查看模型型信息,支持按多种条件快速搜索。
模型筛选
支持对模型卡片进行基于标签的筛选(正在进行创新版本的更新,目前有普通版本)。
模型文件下载
提供模型文件下载功能,可用于二次定制与部署。
模型文件上传
支持以下 4 种方式进行模型文件上传:克隆 repo 源文件,从已有文件中同步文件到 repo,从 Hugging Face 或 ModelScope 获取模型后同步到内部 repo。
模型接入
支持不同类型大/小模型的引入,包括 Qwen、DeepSeek、ChatGLM、Kimi、Llama 等国内外知名模型,并将持续开放更多模型平台。
模型推理管理
模型公共推理服务
支持部署和管理公共模型推理服务平台。
推理实例部署
支持部署模型推理实例,支持算力管控,支持服务上下线、删除。
调用服务详情
提供对话框进行对话、模型对话,展示 API/SDK 方式调用模型推理服务说明。
服务调用
支持一键部署模型服务,支持以 API/SDK 的方式调用已发布的模型推理服务。
模型训练评测
模型微调
平台提供高性能 GPU 加速的微调实例托管服务,支持主流微调框架(LLaMA-Factory、MS-Swift),用户只需选择算力和数据集,即可快速对大模型进行定制化训练,无需编写复杂的训练代码。
模型评测
支持可视化界面进行模型评测,提供三个主流评测框架供用户选择:lm-evaluation-harness、OpenCompass、EvalScope,支持自定义评测数据集。用户可以上传自己的数据集,然后使用这些数据集评测模型效果,以满足特定业务场景下的评估需求。
数据管理
提供数据集集合创建、创建、删除以及版本管理功能,支持通过 Git 或 SDK 方式上传或下载数据集。
开发工具
开发环境
开发环境直面板——一次创建 Notebook 类实例的创建与管理能力,用户可直接使用平台算力资源进行数据分析、模型训练和实验,无需自行配置环境。
用户空间
提供通过代码仓库快速部署用户服务的功能,支持算力配置,提供三种文互式开发支撑:JupyterLab、VS Code、Eclipse Theia。
系统管理
用户信息管理
个人信息
支持用户配置个人基础信息,查看个人入口模型、代码、用户空间等。
账号设置
配置用户的 Access Token 和 SSH Key。
管理后台
资源管理台
管理用户个人的平台资源,包括 Notebook、微调实例、推理实例、模型评测、Notebook 镜像等配置信息。
运行时框架与镜像管理
配置推理引擎与大模型微调训练、模型评测、Notebook 镜像等配置信息。
算力规格管理
支持系统管理员进行卡片化的算力规格管理,支持 Notebook 镜像等配置信息。