当前位置: 首页 > backend >正文

架构思维:通用架构模式_系统监控的设计

文章目录

  • 引言
  • 什么是监控
  • 三大常见监控类型
    • 1. 次数监控
    • 2. 性能监控
    • 3. 可用率监控
  • 落地监控
    • 1. 服务入口
    • 2. 服务内部
    • 3. 服务依赖
  • 监控时间间隔的取舍
  • 小结

在这里插入图片描述


引言

架构思维:通用架构模式_从设计到代码构建稳如磐石的系统
架构思维:通用架构模式_稳如老狗的SDK设计最佳实践

架构思维:通用架构模式_怀疑下游的设计思路与最佳实践

我们以“防备上游、做好自己、怀疑下游”的准则,分别从系统设计、部署和代码层面,介绍了如何构建高可用后台系统。但再完善的防护也难保万无一失,真正的挑战在于在用户感知之前,第一时间发现问题。

接下来我们将从监控的角度出发,教你如何设计微服务监控,帮助快速、自动地暴露故障,保障系统稳定运行。

什么是监控

监控是指对系统运行状态数据持续审查,并设定阈值,对超出阈值的指标发出告警的机制。如下所示,监控数据通常以 时间(X 轴)指标值(Y 轴) 的曲线图形式展示:

在这里插入图片描述

X 轴:时间间隔(秒或分钟)
Y 轴:该间隔内汇聚的指标(数量、平均值、最大值等)


三大常见监控类型

1. 次数监控

用于统计某个事件或方法的调用次数,比如接口被调用次数、某段逻辑执行次数。

在这里插入图片描述

图 2:次数监控示例
Y 轴:指定间隔内总调用次数

2. 性能监控

关注接口或依赖调用的延迟,常用指标有:

  • 平均耗时(AVG) = 总耗时 / 调用次数
  • 最大耗时(Max) = 区间内单次最长耗时
  • TPn(如 TP999)= 排序后第 n‰ 位置的耗时值

通常将 Avg、Max、TP99X 三者合并展示:

> **图 3:性能监控示例**

3. 可用率监控

计算指定区间内业务执行成功的比例。

在这里插入图片描述

在可用率判断中,要区分:

  • 业务异常(如参数校验失败):不算失败,不降可用率
  • 非业务异常(如网络超时、空指针):算失败,需降可用率并报警

阈值设置需结合接口级别和 SLA,核心接口可设 100%,其他接口可适当放宽。


落地监控

业务

在这里插入图片描述

1. 服务入口

  • 次数监控

    1. 基于压测瓶颈设阈值告警,并配合限流
    2. 按调用方维度统计,快速定位流量异常来源
    3. 同环比监控,自动识别突增
  • 性能监控

    1. 必要时只告警 Avg、Max、TP999(或 TP9999)
    2. 按调用方分层监控,排查使用差异
    3. 基于入参(如批量大小)分段监控,辅助优化策略
  • 可用率监控

    1. 接口级与调用方级双重告警
    2. 按业务/非业务异常判定成功与否
    3. 阈值分级:重要接口近乎 100%,普通接口可降至 95%

2. 服务内部

  • 聚焦核心可疑方法,避免监控点过多导致告警疲劳
  • 监控 JVM(Young/Full GC、堆内存使用)、RPC 线程池剩余数、进程存活状态
  • 机器层面:CPU、内存使用率与负载(Load)监控

3. 服务依赖

在这里插入图片描述

  • 对每个下游依赖统一埋点监控(可用率、性能、次数)
  • 注意解析 RPCResult 等包装返回,防止“隐性”失败漏报
  • Java 应用可通过 AOP 或框架拦截(如 MyBatis Interceptor)统一实现

监控时间间隔的取舍

  • 秒级监控最优,能最快暴露故障
  • 但存储成本高(1s 数据量是 1min 的 60 倍)
  • 若系统同时支持秒级和分钟级,生产环境推荐秒级,测试或存储受限时可降至分钟级

小结

  • 三大基础指标:次数、性能、可用率
  • 三层架构落地:入口、内部、依赖
  • 补充监控:JVM、线程池、进程、机器资源
  • 阈值与时序:结合 SLA、接口重要度,优先秒级

在这里插入图片描述

http://www.xdnf.cn/news/5672.html

相关文章:

  • OpenCV 的 CUDA 模块中用于将多个单通道的 GpuMat 图像合并成一个多通道的图像 函数cv::cuda::merge
  • Go语言多线程爬虫与代理IP反爬
  • 集成指南:如何采用融云 Flutter IMKit 实现双端丝滑社交体验
  • 交易流水表的分库分表设计
  • Home Assistant 米家集成:开启智能家居新体验
  • mac M2下的centos8:java和jenkins版本匹配,插件安装问题
  • # 07_Elastic Stack 从入门到实践(七)---1
  • linux小主机搭建自己的nas(三)docker安装nextcloud
  • AI日报 - 2024年05月13日
  • WinRAR技巧:巧用整理密码,简化加密流程
  • .NET 在鸿蒙系统上的适配现状
  • Python, FastAPI 与 RESTful API:构建高效 Web 服务的指南
  • Spring的异步
  • 《Python星球日记》 第58天:Transformer 与 BERT
  • find--命令基础
  • 企业级常用的 CentOS版本
  • 智能手表 MCU 任务调度图
  • 用postman的时候如何区分服务器还是自己的问题?
  • java基础-注解和反射
  • 9.0 C# 调用solidworks介绍1
  • 分词器工作流程和Ik分词器详解
  • SMT贴片加工技术解析与应用要点
  • 荣耀手机,系统MagicOS 9.0 USB配置没有音频来源后无法被adb检测到,无法真机调试的解决办法
  • vite项目使用i18n-ally未读取到文件
  • MongoDB 操作可能抛出哪些异常? 如何优雅的处理?
  • 精品可编辑PPT | 全面风险管理信息系统项目建设风控一体化标准方案
  • kotlin-协程(什么是一个协程)
  • 智能SQL优化工具集成:从概念到实践
  • 面试篇:Spring MVC
  • C++多态讲解