当前位置: 首页 > news >正文

Prometheus 配置主机宕机告警

一、序言

判断主机是否宕机,就算判断node_exporter 导出器是否运行,prometheus 使用表达式up获取node_exporter是否存活,如下:
在这里插入图片描述

返回数据1 即代表导出器活动,0即未活动,来判断主机是否宕机

二、配置告警

1. 创建告警规则

groups:
- name: node_alertsrules:- alert: NodeDownexpr: up{instance="192.168.25.221:9100"} == 0for: 30s            # 持续30s触发告警labels:severity: criticalalertstype: serverenv: prodannotations:summary: "主机 {{ $labels.instance }} 宕机"description: "主机 {{ $labels.instance }} 已宕机超过30秒(Node Exporter 无响应),请立即排查!"

重启prometheus服务

在prometheus的web ui界面查看告警规则:
在这里插入图片描述

2. 配置告警路由

global:# 全局 SMTP 配置(所有邮件接收器可共用)smtp_from: "sample@qq.com"  # 发件人邮箱smtp_smarthost: "smtp.qq.com:465"  # QQ邮箱SMTP服务器地址及端口smtp_hello: "qq.com"               # 向SMTP服务器标识的主机名smtp_auth_username: "sample@qq.com"  # 发件人邮箱账号smtp_auth_password: "yuhjzmwanwkaddge"  # QQ邮箱SMTP授权码smtp_require_tls: false   # QQ邮箱465端口使用SSL而非STARTTLS,需设为falsetemplates:
- "/etc/alertmanager/templates/*.tmpl"		# 告警模板
#根路由
route:group_by: ['instance','target_type','env']  # 按告警名称分组group_wait: 30s          # 首次分组等待时间group_interval: 5m       # 同组告警更新间隔repeat_interval: 1h      # 未恢复告警的重复通知间隔receiver: 'IT负责人'  # 告警接收对象
# 告警对象配置
receivers:
- name: 'IT负责人'email_configs:- to: "object@163.com"send_resolved: trueheaders:Subject: '{{ template "email.subject" . }}'		# 引用告警模板中的主题html: '{{ template "email.html" . }}'				# 引用告警模板tls_config:insecure_skip_verify: false  # 生产环境建议保持false,验证证书
# 告警抑制配置
inhibit_rules:`在这里插入代码片`
- source_match:severity: 'critical'target_match:severity: 'warning'equal: ['instance','target_type','env']  # 相同标签的告警才会被抑制

告警模板内容:
/etc/alertmanager/templates/email_to_html.tmpl :

# 定义告警主题
{{ define "email.subject" }}
'【{{ .Status | toUpper }}】{{ .CommonLabels.alertname }}({{ .CommonLabels.severity }})'
{{ end }}# 定义此告警名称用于引用
{{ define "email.html" }}
{{ range .Alerts }}
=========start==========<br>
告警程序: prometheus_alert<br>
告警环境: {{ .Labels.env }}<br>
告警级别: {{ .Labels.severity }} 级<br>
告警类型: {{ .Labels.alertname }}<br>
故障主机: {{ .Labels.instance }}<br>
告警主题: {{ .Annotations.summary }}<br>
告警内容: {{ .Annotations.description }} <br>
触发时间(北京时间): {{ (.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }} <br>
=========end==========<br>
{{ end }}
{{ end }}

3. 告警测试

停掉一台主机的node_exporter 导出器,观察告警:
在这里插入图片描述

http://www.xdnf.cn/news/1440919.html

相关文章:

  • 同城跑腿系统 跑腿小程序app java源码 跑腿软件项目运营
  • 存算一体:重构AI计算的革命性技术(2)
  • “互联网 +”时代商业生态变革:以开源 AI 智能名片链动 2+1 模式 S2B2C 商城小程序为例
  • 小程序点击之数据绑定
  • 深度学习三大框架对比评测:PaddlePaddle、PyTorch 与 TensorFlow
  • 从零开始的python学习——列表
  • OpenCV的阈值处理
  • 华为云Stack Deploy安装(VMware workstation物理部署)
  • LabVIEW信号频谱分析与限测系统
  • 190页经典PPT | 某科技集团数字化转型SAP解决方案
  • 开源 + 免费!谷歌推出 Gemini CLI,Claude Code 的强劲对手
  • Java设计模式之结构型—代理模式
  • leetcode算法刷题的第二十五天
  • Python:AI开发第一语言的全面剖析
  • Springboot3+SpringSecurity6Oauth2+vue3前后端分离认证授权-客户端
  • 【机器学习入门】5.4 线性回归模型的应用——从CO₂浓度预测学透实战全流程
  • 远程的 develop 比你本地的 develop 更新,Git 拒绝直接覆盖
  • 【55页PPT】旧QC七大手法培训精选讲义(附下载方式)
  • 深入解析Flowable工作流引擎:从原理到实践
  • 2 XSS
  • 深入掌握sed:Linux文本处理的流式编辑器利器
  • PHP如何解决使用国密SM4解密Base64数据错误问题?(基于lpilp/guomi)
  • 协议分析基础
  • 以技术共享点燃全球能源变革新引擎的智慧能源开源了
  • 低代码革命遇瓶颈?这个“套娃神技“才是破局关键!
  • 在Excel和WPS表格中隔多行插入一个空白行
  • 多场景对练数据的 Excel 横向导出方案(EasyExcel 动态表头实践)
  • 【XR硬件系列】Vivo Vision 与 Apple VisionPro 深度技术对比:MR 时代的轻量化革命与生态霸权
  • 单元测试数据库回滚问题
  • Android音频学习(十六)——CreateTrack