最新更新:

    Kube AI Hub 告警系统

    告警是可观测性的重要组成部分,与监控和日志密切相关。Kube AI Hub 中的告警系统与其主动式故障通知 (Proactive Failure Notification) 系统相结合,使用户可以基于告警策略了解感兴趣的活动。当达到某个指标的预定义阈值时,会向预先配置的收件人发出告警。因此,您需要预先配置通知方式,包括邮件、Slack、钉钉、企业微信和 Webhook。有了功能强大的告警和通知系统,您就可以迅速发现并提前解决潜在问题,避免您的业务受影响。

    在安装前启用告警系统

    在 Linux 上安装

    当您在 Linux 上安装多节点 Kube AI Hub 时,需要创建一个配置文件,该文件列出了所有 Kube AI Hub 组件。

    1. 在 Linux 上安装 Kube AI Hub 时,您需要创建一个默认文件 config-sample.yaml。通过执行以下命令修改该文件:

      vi config-sample.yaml
      

      备注

      如果您采用 All-in-One 安装,则不需要创建 config-sample.yaml 文件,因为可以直接创建集群。一般来说,All-in-One 模式针对那些刚接触 Kube AI Hub 并希望熟悉系统的用户。如果您想在该模式下启用告警系统(例如用于测试),请参考下面的部分,查看如何在安装后启用告警系统。
    2. 在该文件中,搜索 alerting 并将 enabledfalse 更改为 true。完成后保存文件。

      alerting:
        enabled: true # 将“false”更改为“true”。
      
    3. 执行以下命令使用该配置文件创建集群:

      ./kk create cluster -f config-sample.yaml
      

    在 Kubernetes 上安装

    当您在 Kubernetes 上安装 Kube AI Hub 时,需要先在 cluster-configuration.yaml 文件中启用告警系统。

    1. 下载 cluster-configuration.yaml 文件并进行编辑。

      vi cluster-configuration.yaml
      
    2. cluster-configuration.yaml 文件中,搜索 alerting,将 enabledfalse 更改为 true 以启用告警系统。完成后保存文件。

      alerting:
        enabled: true # 将“false”更改为“true”。
      
    3. 执行以下命令开始安装:

      kubectl apply -f https://github.com/kubesphere/ks-installer/releases/download/v3.4.1/kubesphere-installer.yaml
      
      kubectl apply -f cluster-configuration.yaml
      

    在安装后启用告警系统

    1. 使用 admin 用户登录控制台。点击左上角的平台管理,选择集群管理

    2. 点击定制资源定义,在搜索栏中输入 clusterconfiguration。点击结果查看其详细页面。

      信息

      定制资源定义 (CRD) 允许用户在不新增 API 服务器的情况下创建一种新的资源类型,用户可以像使用其他 Kubernetes 原生对象一样使用这些定制资源。
    3. 自定义资源中,点击 ks-installer 右侧的 ,选择编辑 YAML

    4. 在该 YAML 文件中,搜寻到 alerting,将 enabledfalse 更改为 true。完成后,点击右下角的确定,保存配置。

      alerting:
        enabled: true # 将“false”更改为“true”。
      
    5. 在 kubectl 中执行以下命令检查安装过程:

      kubectl logs -n kubesphere-system $(kubectl get pod -n kubesphere-system -l 'app in (ks-install, ks-installer)' -o jsonpath='{.items[0].metadata.name}') -f
      

      备注

      您可以通过点击控制台右下角的 找到 kubectl 工具。

    验证组件的安装

    如果您可以在集群管理页面看到告警消息告警策略,则说明安装成功。