当前位置: 首页 > ai >正文

Linux操作系统故障应急场景及对应排查方法

001:系统CPU负载高并触发监控报警

005

查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响

006

定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。

014

查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。

005

通过监控或者系统查看CPU使用高的时间

011

确认其他资源信息情况,IO/内存/内核

002:系统内存使用率高并触发监控报警

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统内存使用情况

定位占用内存资源较多的进程

判断是否有僵尸进程

查看系统主要日志

003:使用率高并长时间持续

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统I/O使用情况

定位占用I/O资源较多的进程

查看系统主要日志

应急处置结束。

004:Agent心跳超时

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

网卡配置参数是否正确

系统日志是否有明显报错

005:主机路由表丢失

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

系统日志是否有明显报错

​​​​​​​006:通讯异常并报网卡故障

场景描述:主机通讯中断或有延迟、丢包现象,系统日志中有关于网卡的报错信息。

启动条件:系统日志中有网卡报错信息

现场保护:ifconfig、messages、dmesg日志

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

系统日志是否有明显报错

网卡驱动是否正常加载

网卡配置信息是否正确

bond主备网卡切换

搜集系统信息

​​​​​​​007:与相关连业务系统通讯异常

现场保护:ifconfig、route、messages、dmesg

015

判断主机通讯状况

016

主机网卡是否存在丢包现象

014

系统日志是否有明显报错

019

网卡驱动是否正常加载

020

网卡配置信息是否正确

​​​​​​​008:群集系统服务异常

现场保护:使用sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

系统日志是否有明显报错

result of stop operation for VIP on

024

尝试将集群服务切换到备机

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

027

收集系统信息

​​​​​​​009:群集双机发生切换

启动条件: 当群集双机发生切换期间,会造成服务中断,以及Server IP无响应,通常会触发集中监控报警。

现场保护:执行sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

查看系统日志信息

024

如果群集切换后系统服务异常,则尝试将集群服务切换到指定节点

​​​​​​​009:群集双机切换失败

022

查看双机状态及共享资源

014

系统日志是否有明显报错

024

尝试将集群服务切换到指定节点

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

​​​​​​​010:主机挂起

现场保护:这种情况下,通常日志系统(syslog)已经不再记录信息,只能对主机执行重启操作;对于配置了kdump的主机,可以手工触发vmcore(echo c > /proc/sysrq-trigger)。

grep crashkernel /proc/cmdline

systemctl status kdump

/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore

014

查看系统日志信息

002

手工重启主机

004

若手工重启主机失败,可强制重启主机。

014

主机启动后,检查系统日志是否有报错信息。

027

搜集系统信息

​​​​​​​011:主机自动重启

现场保护:收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​012:主机宕机

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​013:主机宕机并自动重启失败

现场保护:查看主机硬件是否有报错信息;得到授权后之后启动主机,并在控制台观察启动过程中是否有报错信息;如果主机无法正常启动,则根据主机启动报错信息进行修复。待主机启动完毕后,使用root用户收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

028

根据主机控制台信息,得到行员授权后尝试进入单用户模式进行修复

029

如果系统在单用户模式下无法修复,则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

​​​​​​​014: swap交换分区使用率

现场保护:使用sosreport命令收集系统信息

使用top命令调整查看(使用热键f,根据方向键移动到SWAP行,选中按d, ESC退出编辑,即可查看)

定位占用swap资源较多的进程

判断是否有僵尸进程

查看系统主要日志

​​​​​​​015:NTP服务状态异常

检查NTP同步状态:ntpq -p 或者 chronyc sources -v

检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files

检查NTP配置文件:cat /etc/ntp.conf 或者 cat /etc/chrony.conf

查看NTP的offset详细信息:ntptime或者chronyc tracking -v

查看系统主要日志

重启NTP服务:service ntpd restart 或者 systemctl restart chronyd

016:文件系统监控告警

现场保护:使用sosreport命令收集系统信息

012

检查文件系统状态:

#df -h

#df -ih

#mount

#cat /etc/fstab

014

查看系统主要日志

http://www.xdnf.cn/news/12688.html

相关文章:

  • VBA进度条ProgressForm1
  • 7.2.2_折半查找
  • 字符串字典序最大后缀问题详解
  • 总结html标签之button标签
  • 日志收集工具-Filebeat
  • 《汇编语言》第16章 直接定址表
  • 100. 2017年蓝桥杯省赛 - 九宫幻方(困难)- 暴力搜索
  • 数据库学习(二)——MySQL语句
  • 基于python的酒水零食商城系统
  • 数论总结,(模版与题解)
  • 【Overleaf Latex模板】厦门大学课程论文Overleaf Latex模板 中文版
  • 1.认识Spring
  • 如何区分 “通信网络安全防护” 与 “信息安全” 的考核重点?
  • 在命令行直接执行可以执行成功,加入crontab定时任务执行shell脚本不成功失败的问题解决方法
  • 摩尔信使MThings V0.8.0更新要点
  • 楼宇自控通过智慧节能管理,为建筑碳中和按下加速键
  • 《经济学原理》第9版第5章弹性及其应用
  • Mybatis-Plus的Iservice接口
  • 基于Java Swing的电子通讯录设计与实现:附系统托盘功能代码详解
  • pygame开发的坦克大战
  • 【HTTP三个基础问题】
  • python调用其它程序 os.system os.subprocess
  • ICPC nanchang 2025 M
  • Codeforces Round 509 (Div. 2) C. Coffee Break
  • 关于GitHub action云编译openwrt
  • 【Python】屏幕像素颜色值的获取
  • uniapp 对接腾讯云IM群组成员管理(增删改查)
  • 14.MySQL使用C语言连接
  • 20、typedef和typename
  • 什么是异步 I/O?深入解析从基础到实践