基于Prometheus和Grafana的监控平台之运维告警

[[360999]]

本文转载自微信公众号「JAVA日知录」,作者单一色调 。转载本文请联系JAVA日知录公众号。  

通过前面的文章我们搭建好了监控环境并且监控了服务器、数据库、应用,运维人员可以实时了解当前被监控对象的运行情况,但是他们不可能通过坐在电脑边上盯着DashBoard来发现服务器或应用异常。

这就要求我们需要一个告警功能,当服务器或应用指标异常时发送告警,通过邮件或者短信的形式告诉运维人员及时处理。

今天我们就来聊聊 基于Prometheus和Grafana的监控平台的异常告警功能。

告警方式Grafana

新版本的Grafana已经提供了告警配置,直接在dashboard监控panel中设置告警即可,但是我用过后发现其实并不灵活,不支持变量,而且好多下载的图表无法使用告警,所以我们不选择使用Grafana告警,而使用Alertmanager。

Alertmanager

相比于Grafana的图形化界面,Alertmanager需要依靠配置文件实现,配置稍显繁琐,但是胜在功能强大灵活。接下来我们就一步一步实现告警通知。

告警类型

Alertmanager告警主要使用以下两种:

  • 邮件接收器 email_config
  • Webhook接收器 webhook_config,会用post形式向配置的url地址发送如下格式的参数。
  1. "version""2"
  2. "status""<resolved|firing>"
  3. "alerts": [{ 
  4.   "labels":  < object > , 
  5.   "annotations":  < object > , 
  6.   "startsAt""<rfc3339>"
  7.   "endsAt""<rfc3339>" 
  8.   }] 

「这次主要使用邮件的方式进行告警。」

实现步骤

  • 下载

从GitHub上下载最新版本的Alertmanager,将其上传解压到服务器上。tar -zxvf alertmanager-0.19.0.linux-amd64.tar.gz

  • 配置Alertmanager
  1. vi alertmanager.yml 
  2. global
  3.   resolve_timeout: 5m 
  4.   smtp_smarthost: 'mail.163.com:25' #邮箱发送端口 
  5.   smtp_from: '[email protected]' 
  6.   smtp_auth_username: '[email protected]' #邮箱账号 
  7.   smtp_auth_password: 'xxxxxx' #邮箱密码 
  8.   smtp_require_tls: false 
  9. route: 
  10.   group_by: ['alertname'
  11.   group_wait: 10s  # 最初即第一次等待多久时间发送一组警报的通知 
  12.   group_interval: 10s # 在发送新警报前的等待时间 
  13.   repeat_interval: 1h # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝 
  14.   receiver: 'email' 
  15. receivers: 
  16.   - name'email' 
  17.     email_configs: 
  18.     - to'[email protected]' 

修改完成后可以使用 ./amtool check-config alertmanager.yml校验文件是否正确。

校验正确后启动alertmanager。nohup ./alertmanager &。(第一次启动可以不使用nohup静默启动,方便后面查看日志)

我们只定义了一个路由,那就意味着所有由Prometheus产生的告警在发送到Alertmanager之后都会通过名为 email的receiver接收。实际上,对于不同级别的告警,会有不同的处理方式,因此在route中,我们还可以定义更多的子Route。具体配置规则大家可以去百度进一步了解。

配置Prometheus

  • 在Prometheus安装目录下建立rules文件夹,放置所有的告警规则文件。
  1. alerting: 
  2.   alertmanagers: 
  3.   - static_configs: 
  4.     - targets: ['192.168.249.131:9093'
  5.  
  6. rule_files: 
  7.   - rules/*.yml 

在rules文件夹下建立告警规则文件 service_down.yml,当服务器下线时发送邮件。

  1. groups: 
  2.  - name: ServiceStatus 
  3.    rules: 
  4.      - alert: ServiceStatusAlert 
  5.        expr: up == 0   
  6.        for: 2m  
  7.        labels: 
  8.          team: node 
  9.        annotations: 
  10.          summary: "Instance {{ $labels.instance }} has bean down" 
  11.          description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes." 
  12.          value: "{{ $value }}" 

「配置详解」

alert:告警规则的名称。

expr:基于PromQL表达式告警触发条件,用于计算是否有时间序列满足该条件。

for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为PENDING,等待期后为FIRING。

labels:自定义标签,允许用户指定要附加到告警上的一组附加标签。

annotations:用于指定一组附加信息,比如用于描述告警详细信息的文字等,annotations的内容在告警产生时会一同作为参数发送到Alertmanager。

配置完成后重启Prometheus,访问Prometheus查看告警配置。

  • 测试

关闭node_exporter,过2分钟就可以收到告警邮件啦,截图如下:Alertmanager的告警内容支持使用模板配置,可以使用好看的模板进行渲染,感兴趣的可以试试!

The More

node exporter的一些计算语句

  • CPU使用率(单位为percent)
  1. (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) 
  • 内存已使用(单位为bytes)
  1. node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes 
  • 内存使用量(单位为bytes/sec)
  1. node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes 
  • 内存使用率(单位为percent)
  1. ((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes)/node_memory_MemTotal_bytes) * 100 
  • server1的内存使用率(单位为percent)
  1. ((node_memory_MemTotal_bytes{instance="server1"} - node_memory_MemAvailable_bytes{instance="server1"})/node_memory_MemTotal_bytes{instance="server1"}) * 100 
  • server2的磁盘使用率(单位为percent)

 

  1. ((node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"} - node_filesystem_free_bytes{fstype=~"xfs|ext4",instance="server2"}) / node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"}) * 100 
  • uptime时间(单位为seconds)
  1. time() - node_boot_time 
  • server1的uptime时间(单位为seconds)
  1. time() - node_boot_time_seconds{instance="server1"
  • 网络流出量(单位为bytes/sec)
  1. irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0 
  • server1的网络流出量(单位为bytes/sec)
  1. irate(node_network_transmit_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0 
  • 网络流入量(单位为bytes/sec)
  1. irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0 
  • server1的网络流入量(单位为bytes/sec)
  1. irate(node_network_receive_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0 
  • 磁盘读取速度(单位为bytes/sec)
  1. irate(node_disk_read_bytes_total{device=~"sd.*"}[5m]) 

 

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/126250.html<

(0)
运维的头像运维
上一篇2025-02-24 03:11
下一篇 2025-02-24 03:13

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注