当前位置：首页 > news >正文

基于Prometheus Pushgateway与Alertmanager的自定义指标监控与告警实践指南

news 2025/8/28 20:36:17

业务场景描述

在大型分布式系统中，核心服务无法通过传统拉取（scrape）方式收集所有业务指标，尤其是短命批处理任务、异步消息消费等场景。我们需要将这些自定义指标主动推送到监控系统，并对关键指标设置告警策略，确保在异常时能够及时发现并响应。本文结合生产环境经验，介绍如何基于Prometheus Pushgateway与Alertmanager搭建可靠的自定义指标监控与告警体系。

技术选型过程

Prometheus：开源度高，生态完善，支持多种Exporter和Alertmanager集成。
Pushgateway：适用于短生命周期或不易被Prometheus直接抓取的应用，用于临时保存推送的指标。
Alertmanager：Prometheus官方告警组件，支持多种告警方式（邮件、钉钉、企业微信、Slack等）。
Micrometer：Java生态常用指标采集库，可无缝集成Spring Boot项目，支持Pushgateway后端。

综合考虑，选用Prometheus + Pushgateway + Alertmanager，并在Java微服务中使用Micrometer进行指标推送。

实现方案详解

系统架构

各微服务（批处理、异步消费者）通过Micrometer将指标推送至Pushgateway
Prometheus定时（如30s）从Pushgateway抓取自定义指标
Alertmanager根据Prometheus告警规则进行告警分发

+------------+       +---------------+       +-------------+       +--------------+
|  Service A | ----> | Pushgateway   | <---- | Service B   |       | Batch Jobs   |
+------------+       +---------------+       +-------------+       +--------------+|                    |                     |                     |v                    v                     v                     v
+--------------------------------------------------------------------------+
|                                Prometheus                                 |
+--------------------------------------------------------------------------+|v+-----------------+|  Alertmanager   |+-----------------+

部署方式（Docker Compose示例）

version: '3.7'
services:prometheus:image: prom/prometheus:v2.31.1volumes:- ./prometheus.yml:/etc/prometheus/prometheus.ymlports:- '9090:9090'pushgateway:image: prom/pushgateway:v1.4.1ports:- '9091:9091'alertmanager:image: prom/alertmanager:v0.23.0volumes:- ./alertmanager.yml:/etc/alertmanager/alertmanager.ymlports:- '9093:9093'

prometheus.yml

global:scrape_interval: 30sscrape_configs:- job_name: 'pushgateway'honor_labels: truestatic_configs:- targets: ['pushgateway:9091']

alertmanager.yml

route:receiver: 'team_email'
receivers:- name: 'team_email'email_configs:- to: 'oncall@example.com'from: 'alertmanager@example.com'smarthost: 'smtp.example.com:587'auth_username: 'alertmanager@example.com'auth_identity: 'alertmanager@example.com'auth_password: 'password'

代码示例（Spring Boot + Micrometer）

引入依赖（pom.xml）

<dependency><groupId>io.micrometer</groupId><artifactId>micrometer-registry-prometheus</artifactId>
</dependency>
<dependency><groupId>io.micrometer</groupId><artifactId>micrometer-registry-prometheus-pushgateway</artifactId>
</dependency>

配置Pushgateway客户端（application.yml）

management:metrics:export:prometheus:enabled: false   # 禁用默认拉取接口pushgateway:enabled: truebase-url: http://pushgateway:9091push-rate: 30sjob: my-service

自定义指标推送示例

@RestController
public class JobController {private final PushGateway pushGateway;private final CollectorRegistry registry;@Autowiredpublic JobController() throws MalformedURLException {this.registry = CollectorRegistry.defaultRegistry;this.pushGateway = new PushGateway(new URL("http://pushgateway:9091"));}@PostMapping("/runJob")public String runJob() throws IOException {// 业务逻辑long start = System.currentTimeMillis();// ... 模拟执行任务long duration = System.currentTimeMillis() - start;// 构建自定义HistogramHistogram histogram = Histogram.build().name("job_execution_duration_seconds").help("Job execution time in seconds").register(registry);histogram.observe(duration / 1000.0);// 推送到PushgatewaypushGateway.pushAdd(registry, "my-service");return "Job completed in " + duration + " ms";}
}

踩过的坑与解决方案

指标重复推送导致Pushgateway堆积指标
解决：使用pushAdd替换push，并定期清理过期job或配置--persistence.file和--persistence.interval。
Alertmanager无法发送邮件
解决：检查SMTP配置、SSL/TLS设置，确认防火墙及网络可达性。
Prometheus抓取Pushgateway标签不对齐
解决：开启honor_labels: true，保证推送标签在Prometheus侧保留。