当前位置：首页 > news >正文

如何使用Prometheus + Grafana + Loki构建一个现代化的云原生监控系统

news 2025/8/22 6:58:54

如何使用 Prometheus + Grafana + Loki 构建一个现代化的云原生监控系统。这套组合被誉为监控领域的“瑞士军刀”，功能强大且生态极佳。

在搭建之前，深刻理解每个组件的角色和职责至关重要。

角色：系统的“仪表盘”和“可视化UI”。
核心概念：
- 数据源（Data Source）：Grafana 本身不存储数据，它专注于展示。它支持从 Prometheus、Loki、MySQL、Elasticsearch 等数十种数据源中查询数据。
- 仪表盘（Dashboard）：由多个面板（Panel）组成的视图，每个面板可以配置一个独立的查询和可视化方式（如图表、表格、状态值、热图等）。
- 面板（Panel）：可视化基本单元，通过编写查询语句（如 PromQL）从数据源获取数据，并以图形化方式展示。
- 告警（Alerting）：Grafana 可以根据面板的查询结果配置告警规则，并通过钉钉、Slack、Webhook 等多种渠道发送通知。
职责：从各种数据源（主要是 Prometheus）查询数据，并绘制成美观、直观的仪表盘，用于监控和告警。

角色：系统的“日志收集器”，但更轻量、更经济。
核心概念：
- 索引与数据分离：Loki 的核心设计理念。它只对日志的元数据（标签，如 filename, job, level） 进行索引，而对日志内容本身不索引。这使其存储效率极高，成本远低于 Elasticsearch。
- LogQL：类似于 PromQL 的查询语言，用于通过标签和内容关键词来查询日志。
- 与 Prometheus 生态协同：鼓励使用与 Prometheus 相同的标签（如 job, instance），从而可以无缝地在指标（Prometheus）和日志（Loki）之间切换上下文。例如，看到某个应用实例 CPU 异常，可以直接用相同的标签查询它当时的日志。
- 客户端（Promtail）：负责收集日志、添加标签，并将日志推送给 Loki。它通常以 DaemonSet 形式运行在每个节点上，采集节点上的容器日志。
职责：高效、低成本地收集、存储和查询日志，并与指标监控联动。

构建这套系统的核心思路是：“通过指标发现问题，通过日志定位问题”。

在这里插入图片描述

工作流程解读：

数据采集：
- 指标：所有需要监控的应用、服务、节点（如 ShenYu、Redis、MySQL、Node Exporter）都暴露一个 /metrics 接口。Prometheus 根据配置，定期（如 15s）主动去这些目标拉取数据。
- 日志：每个节点上部署的 Promtail 代理会实时监控（tail）指定的日志文件（如 /var/log/*.log 或容器日志目录），它为日志流添加标签（如 job="shenyu-gateway", instance="host1"），然后批量压缩并推送给 Loki。
数据存储与查询：
- 采集到的指标数据被存储在 Prometheus 的时序数据库中，可以通过 PromQL 查询。
- 采集到的日志数据被存储在 Loki 中，可以通过 LogQL 查询。
可视化与告警：
- Grafana 配置两个数据源：一个是 Prometheus 的地址，另一个是 Loki 的地址。
- 运维和开发人员通过在 Grafana 中创建仪表盘，编写 PromQL/LogQL 来查询和展示他们关心的指标和日志。
- 在 Grafana 中配置告警规则（例如，PromQL 查询结果持续 5 分钟 > 阈值），并设置通知渠道。

统一标签（Labels）：这是打通指标和日志的关键。确保 Prometheus 抓取目标时设置的标签（job, instance, env 等）与 Promtail 向 Loki 推送日志时使用的标签保持一致。这样，在 Grafana 中从一个有异常指标的面板，可以直接跳转到对应标签的日志查询结果。
选择合适的部署模式：
- 学习/测试环境：可以使用 Docker Compose 快速在单机部署所有组件。
- 生产环境：推荐使用 Kubernetes 部署，充分利用其高可用、弹性扩展和服务发现的能力。
  - Prometheus 可以配置 serviceMonitor 或 podMonitor 来自动发现 Kubernetes 中的服务。
  - Promtail 以 DaemonSet 形式部署，确保每个节点都有日志收集器。
资源规划与持久化：
- Prometheus：数据默认保留 15 天。对于大规模环境，需要考虑磁盘空间和 IOPS。可以通过设置远程写入（Remote Write）到更专业的时序数据库（如 Thanos、Cortex、VictoriaMetrics）来实现长期存储和水平扩展。
- Loki：配置不同的存储后端（如 AWS S3、MinIO、本地盘），并根据日志重要性设置不同的保留策略（如核心应用日志保留 30 天，调试日志保留 7 天）。