最新更新:

    规则组(节点级别)

    Kube AI Hub 为节点提供告警规则,支持编组管理,允许用户将相似的规则归入同一规则组。一旦满足这些规则定义的条件,将会触发告警。本教程将演示如何为集群中的节点创建规则组及告警规则。

    Kube AI Hub 还具有内置规则组。在内置规则组选项卡,可以点击任一规则组查看该规则组中所有规则,点击任一规则查看其详情。请注意,内置规则不能直接在控制台上删除,但可以通过编辑调整规则参数。

    准备工作

    创建规则组及告警策略

    1. 使用 cluster-admin 用户登录控制台。点击左上角的平台管理,然后点击集群管理

    2. 前往监控告警下的规则组,然后点击创建

    3. 在出现的对话框中,填写以下基本信息,点击下一步继续。

      • 名称:使用简明名称作为其唯一标识符,例如 node-rules
      • 别名:帮助用户更好地识别规则组。
      • 检查间隔(时分秒):设置指标检查之间的时间间隔,默认值为 1 分钟。
      • 描述:对规则组的简要介绍。
    4. 告警规则选项卡中,点击添加告警规则,为规则组添加告警规则。

    5. 在告警规则的规则设置选项卡中,可使用规则模板或创建自定义规则。如需使用规则模板,请设置以下参数:

      • 规则名称:使用简明名称作为其唯一标识符,例如 node1-cpu-rule
      • 监控目标:选择至少一个集群节点进行监控。
      • 触发条件
        • 监控指标:点击下拉框,选择合适的监控指标。
        • 操作符:点击下拉框,选择合适的操作符(>>=<<=)。
        • 阈值:设置的指标达到该阈值后,告警规则将变为验证中状态。
        • 持续时间:告警规则中设置的情形达到阈值的持续时间后,告警规则将变为触发中状态。
        • 告警级别:可选值包括一般告警重要告警危险告警,代表告警的严重程度。

      备注

      您也可以在监控指标字段中直接输入 PromQL 表达式来创建自定义规则(支持自动补全)。有关更多信息,请参见 Prometheus 查询文档
    6. 在告警规则的消息设置选项卡中,可设置告警的通知消息。

      • 概要:该告警规则触发告警时,告警通知的概要信息。
      • 详情:自定义描述该告警通知的详细信息。
    7. 点击 ✔ 完成这一告警规则的设置(可为该规则组添加多个告警规则)。规则设置完毕后,点击创建完成规则组的创建。

    编辑规则组

    如需在创建后编辑规则组,在规则组页面找到目标规则组,点击其右侧的操作图标,选择以下操作:

    1. 编辑信息:按照创建时第 3 步的方式编辑规则组基本信息,点击确定保存更改。
    2. 删除:删除该规则组。
    3. 禁用:禁用该规则组,禁用后不再触发告警。
    4. 编辑告警规则:对该规则组中的告警规则进行增加、删除、修改以及单个规则的禁用操作。

    查看规则组

    规则组页面,点击一个规则组的名称查看其详情,包括告警规则列表和已触发的告警记录。

    在输入框中输入关键字,可搜索关联的告警规则。点击任一告警规则,还可以看到基于所使用模板生成的告警规则表达式。

    告警消息显示在消息设置中配置的自定义通知内容。