您的位置:

Prometheus钉钉告警详解

Prometheus是一个开源监控系统,可使用钉钉作为其中的告警渠道。本文将从选取3~5个与prometheus钉钉告警相关的方面,进行详细的阐述。

一、告警配置

在Prometheus配置文件中可以定义告警规则,在告警规则中对告警进行设置,配置如下:

groups:
  - name: alert.rules
    rules:
      - alert:InstanceDown
        expr: up == 0
        for: 1m
        labels:
          severity: warning
        annotations:
          summary: "Instance {{ $labels.instance }} is down"
          description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 1 minute."

其中,groups为告警组名,可以自定义,rules为告警规则内容,其中包含了告警的expr,如果expr判断为true,则触发告警。for为持续时间,如果在for的时间内,expr仍为true,则持续触发告警。labels包含了告警的标签信息,而annotations则包含了告警的更多文字描述。在prometheus.yml文件中进行配置即可。

二、告警消息

在Prometheus配置文件中可以定义告警消息,这些消息将被钉钉发送。告警消息模板可以是静态的,也可以包含变量,如下所示:

templates:
- name: dingding
  text: '{{ range .Alerts }}故障类型: {{ .Annotations.summary }}\n故障详情: {{ .Annotations.description }}\n告警级别: {{ .Labels.severity }}\n告警状态: {{ .Status }}\n告警时间: {{ .StartsAt }}\n告警实例: {{ .Labels.instance }}\n告警作业: {{ .Labels.job }}\n{{ end }}'

其中templates为模板名,可以自定义,text则为消息模板内容。Prometheus在告警触发后,将解析消息模板,将告警信息填充至模板中,然后使用钉钉机器人将消息发送出去。

三、钉钉机器人设置

要将prometheus告警发送至钉钉,需要设置一个钉钉机器人,将其配置写入消息模板中。

url: https://oapi.dingtalk.com/robot/send?access_token=your_access_token

其中your_access_token为自定义的access_token,可以通过钉钉管理后台获取。在消息模板中填充此url即可实现告警发送至钉钉机器人。具体设置方法可以参考钉钉的官方文档。

四、告警通道配置

Prometheus支持多种消息通道,包括邮件通道、Slack通道、Webhook通道、PagerDuty通道和钉钉通道等。在prometheus.yml文件中在每个告警规则配置中指定需要的告警通道即可。以钉钉告警为例:

- name: alertmanager
  email_configs:
  - to: 'test@example.com'
    from: 'test@example.com'
    smarthost: smtp.example.com:587
    auth_username: 'test@example.com'
    auth_identity: 'test@example.com'
    auth_password: 'password'
    send_resolved: true
    text: '{{ range .Alerts }}{{ .Annotations.summary }}\n{{ .Annotations.description }}{{ end }}'
  webhook_configs:
  - url: 'http://localhost:5001/webhook/dingtalk'
    send_resolved: true

其中webhook_configs为告警通道配置,url为通道地址,可以自定义,send_resolved为是否发送解决消息。

五、告警测试

在配置完Prometheus告警规则、消息模板、钉钉机器人和告警通道后,可以进行告警测试,测试方法如下:

curl -X POST http://localhost:9093/api/v1/alerts \
     -H 'Content-Type: application/json' \
     -d '[{
            "labels": {
              "alertname": "InstanceDown",
              "instance": "localhost:9090",
              "job": "prometheus"
            },
            "annotations": {
              "description": "Prometheus instance localhost:9090 is down.",
              "summary": "Prometheus instance down"
            },
            "generatorURL": "http://localhost:9090/graph?g0.expr=up+%3D%3D+0&g0.tab=1"
          }]'

其中 curl命令中的json数据为模拟的告警内容,alertname为告警名,labels包含告警标签信息,annotations包含告警说明信息,generatorURL为告警来源的URL。触发后即可在钉钉中查看到相应的告警消息。