当前位置: 首页 > news >正文

运维日常工作100条

这是一份非常详细和实用的“运维日常工作100条”清单。它涵盖了从日常巡检、变更管理、故障处理到安全、优化和文档等运维工作的方方面面,可以作为运维工程师的日常工作指南和检查清单。


运维日常工作100条

一、日常巡检与监控 (20条)
  1. 检查核心监控大盘:查看整体业务健康状态,包括流量、错误率、响应时间等。
  2. 检查服务器资源水位:CPU使用率、内存使用率、磁盘使用率、磁盘Inode使用率。
  3. 检查网络流量:入向/出向带宽是否异常,连接数是否过高。
  4. 检查应用/服务状态:确认所有关键服务的进程是否存活,端口是否监听。
  5. 检查日志监控:查看Error、Exception、Warning等关键错误日志是否有突增。
  6. 检查数据库状态:主从复制是否正常,慢查询数量,连接池使用情况。
  7. 检查中间件状态:消息队列堆积情况,缓存命中率,缓存服务连接数。
  8. 检查证书状态:确保即将到期(如60天内)的SSL证书被及时识别。
  9. 检查备份状态:确认每日备份任务是否成功完成,备份文件大小是否正常。
  10. 检查安全告警:查看SIEM、WAF、HIDS等安全设备的告警信息。
  11. 检查域名解析:对核心域名进行dig/nslookup,确认解析正常。
  12. 检查CDN状态:查看CDN带宽、缓存命中率、回源状态是否正常。
  13. 检查负载均衡器:后端服务器健康检查状态,会话保持等配置。
  14. 检查云服务配额:云账号的ECS、EIP、磁盘等配额是否充足。
  15. 检查费用消耗:查看云资源每日费用消耗是否有异常激增。
  16. 检查定时任务(Cron):查看历史执行记录,确认无失败或长时间运行。
  17. 检查核心业务链路:通过自动化脚本或拨测,模拟用户关键操作(如登录、下单)。
  18. 检查依赖的第三方服务状态:关注其官方状态页(Status Page)。
  19. 整理巡检报告:将巡检结果记
http://www.xdnf.cn/news/1333675.html

相关文章:

  • linux内核源码下载
  • Redisson3.14.1及之后连接阿里云redis代理模式,使用分布式锁:ERR unknown command ‘WAIT‘
  • 双模式 RTMP H.265 播放器解析:从国内扩展到 Enhanced RTMP 标准的演进
  • 猫头虎开源AI分享|基于大模型和RAG的一款智能text2sql问答系统:SQLBot(SQL-RAG-QABot),可以帮你用自然语言查询数据库
  • PowerShell脚本检查业务健康状态
  • Web3:重构互联网秩序的下一代范式革命
  • OceanBase DBA实战营2期--SQL 关键字限流学习笔记
  • CAT1+mqtt
  • Bigemap APP 详细使用教程,入门学习PPT
  • KDD 2025 | CMA:一次训练,预测任意过去与未来!元学习+扩散模型颠覆时序预测!
  • 【嵌入式电机控制#33】FOC:意法电控驱动层源码解析——整体框架篇(了解,常查阅)
  • 【Day 31】Linux-LNMP
  • 0基础安卓逆向原理与实践:第3章:逆向工程理论基础
  • 8 webUI中-Controlnet(控制与约束)的应用分类与使用方法
  • C++高频知识点(三十一)
  • 【ElasticSearch】ElasticSearch Overview
  • k8sday12数据存储(1/2)
  • AI 效应: GPT-6,“用户真正想要的是记忆”
  • 凸问题-非凸问题-非凸模型
  • JavaScript 性能优化实战(易懂版)
  • 【电气工程学习】
  • (nice!!!)(LeetCode 每日一题) 1277. 统计全为 1 的正方形子矩阵 (动态规划)
  • Qt5.9.9 + Windows API 开发系统监控工具 - 教学级项目实战
  • 项目各功能介绍
  • linux下MySQL安装与卸载
  • Tomcat 性能优化终极指南
  • 餐饮灶头:后厨效率与菜品稳定的核心载体
  • Linux《进程间通信(下)》
  • 海量数据测试指南与实战
  • 【PostgreSQL内核学习:WindowAgg 节点对 Tuplestore 的复用机制】