规则组(节点级别)
Kube AI Hub 为节点提供告警规则,支持编组管理,允许用户将相似的规则归入同一规则组。一旦满足这些规则定义的条件,将会触发告警。本教程将演示如何为集群中的节点创建规则组及告警规则。
Kube AI Hub 还具有内置规则组。在内置规则组选项卡,可以点击任一规则组查看该规则组中所有规则,点击任一规则查看其详情。请注意,内置规则不能直接在控制台上删除,但可以通过编辑调整规则参数。
准备工作
- 需先启用 Kube AI Hub 告警系统。
- 如需接收告警通知,需预先配置通知渠道。
- 需要创建一个用户(cluster-admin)并授予其 clusters-admin 角色。有关更多信息,请参见创建企业空间、项目、用户和角色。
创建规则组及告警策略
-
使用 cluster-admin 用户登录控制台。点击左上角的平台管理,然后点击集群管理。
-
前往监控告警下的规则组,然后点击创建。
-
在出现的对话框中,填写以下基本信息,点击下一步继续。
- 名称:使用简明名称作为其唯一标识符,例如
node-rules。 - 别名:帮助用户更好地识别规则组。
- 检查间隔(时分秒):设置指标检查之间的时间间隔,默认值为 1 分钟。
- 描述:对规则组的简要介绍。
- 名称:使用简明名称作为其唯一标识符,例如
-
在告警规则选项卡中,点击添加告警规则,为规则组添加告警规则。
-
在告警规则的规则设置选项卡中,可使用规则模板或创建自定义规则。如需使用规则模板,请设置以下参数:
- 规则名称:使用简明名称作为其唯一标识符,例如
node1-cpu-rule。 - 监控目标:选择至少一个集群节点进行监控。
- 触发条件:
- 监控指标:点击下拉框,选择合适的监控指标。
- 操作符:点击下拉框,选择合适的操作符(
>、>=、<、<=)。 - 阈值:设置的指标达到该阈值后,告警规则将变为验证中状态。
- 持续时间:告警规则中设置的情形达到阈值的持续时间后,告警规则将变为触发中状态。
- 告警级别:可选值包括一般告警、重要告警和危险告警,代表告警的严重程度。
备注
您也可以在监控指标字段中直接输入 PromQL 表达式来创建自定义规则(支持自动补全)。有关更多信息,请参见 Prometheus 查询文档。 - 规则名称:使用简明名称作为其唯一标识符,例如
-
在告警规则的消息设置选项卡中,可设置告警的通知消息。
- 概要:该告警规则触发告警时,告警通知的概要信息。
- 详情:自定义描述该告警通知的详细信息。
-
点击 ✔ 完成这一告警规则的设置(可为该规则组添加多个告警规则)。规则设置完毕后,点击创建完成规则组的创建。
编辑规则组
如需在创建后编辑规则组,在规则组页面找到目标规则组,点击其右侧的操作图标,选择以下操作:
- 编辑信息:按照创建时第 3 步的方式编辑规则组基本信息,点击确定保存更改。
- 删除:删除该规则组。
- 禁用:禁用该规则组,禁用后不再触发告警。
- 编辑告警规则:对该规则组中的告警规则进行增加、删除、修改以及单个规则的禁用操作。
查看规则组
在规则组页面,点击一个规则组的名称查看其详情,包括告警规则列表和已触发的告警记录。
在输入框中输入关键字,可搜索关联的告警规则。点击任一告警规则,还可以看到基于所使用模板生成的告警规则表达式。
告警消息显示在消息设置中配置的自定义通知内容。
页面内容