当前位置: 首页 > news >正文

linux 故障处置通用流程-36计+1计

  1. 通用标准处置快速索引

编号

通 用 标 准 处 置

索 引

001

Linux操作系统标准关闭

002

Linux操作系统标准重启

003

Linux操作系统强行关闭

004

Linux操作系统强行重启

005

检查Linux操作系统CPU负载

006

查询占用CPU资源最多的进程

007

检查Linux操作系统内存使用率

008

查询占用内存资源最多的进程

009

判断是否有僵尸进程

010

检查Linux操作系统磁盘I/O负载

011

查询消耗I/O资源最多的进程

012

文件系统信息

013

物理卷、卷组和逻辑卷

014

查看系统主要日志

015

主机通讯是否有延迟

016

主机通讯延迟或丢包

017

主机路由设置是否正确

018

到相连业务系统的通讯是否正常

019

网卡驱动是否正常加载

020

网卡配置信息检测

021

网卡配置参数

022

查看双机状态

023

重启群集服务

024

群及服务切换到备机

025

关闭主机群集服务

026

手工恢复群集服务

027

搜集系统信息

028

进入单用户模式

029

进入紧急救援模式

030

查看服务器端口是否正常开启

031

网络连接数统计

032

交换区使用情况检查

033

文件句柄数调整

034

主机启动时fstab中有错误配置

035

bond主备网卡切换

036

查看内核slab内存占用

037

清理系统内存中的cache和buffer

001:Linux操作系统标准关闭
  1. 通过堡垒机以root用户登录;
  2. 根据需求首先关闭应用程序/数据库(该步骤可选,需要的系统请明示步骤)
  3. 执行shutdown -h now

002:Linux操作系统标准重启

shutdown -r now

003:Linux操作系统强行关闭

  1. 通过堡垒机以root用户登录;
  2. 执行 poweoff

虚拟化平台(VM和华为云):

登录VM Vcenter-通过搜索查询到所需操作的虚拟机-右键虚拟机-启动-关闭电源

登录华为云 ManagerOne-左侧服务列表-弹性云服务器-更多-实例状态-关机

物理机带外:通过带外IP登录网页-电源-关机

004:Linux操作系统强行重启

  1. 通过堡垒机以root用户登录;
  2. 执行echo b > /proc/sysrq-trigger 或者执行 reboot -nf

虚拟化平台(VM和华为云):

登录VM Vcenter-通过搜索查询到所需操作的虚拟机-右键虚拟机-启动-重新启动客户机操作系统

登录华为云 ManagerOne-左侧服务列表-弹性云服务器-更多-实例状态-重启

物理机带外:通过带外IP登录网页-电源-重启

005:检查Linux操作系统CPU负载

  1. 通过堡垒机以root或普通权限用户登录
  2. 执行top命令;

  1. 执行sar -u 2 30命令; 2秒采样一次 采样30次
  2. 执行 sar -u -f /var/log/sa/sa+日期
  3. 执行vmstat 2 30命令;
  4. 执行mpstat 2 30命令;

006:定位占用CPU资源最多的进程

  1. 执行top命令;
  2. 在top命令执行窗口,使用热键“P”,按照CPU使用率对进程进行排序。

007:检查Linux操作系统内存使用率

  1. 执行命令:top;
  2. 执行命令:free;
  3. 执行命令:cat /proc/meminfo
  4. top--在程序界面中,查看MEM、Swap、Buffer、Cache数值;
  5. free:查看+/-buffers/cache后的内存使用率;
  6. cat /proc/meminfo:查看内存详细使用情况

008:查询占用内存资源最多的进程

  1. 执行top;
  2. 在top界面中按热键“M”,按照内存使用率对进程进行排序。
  3. 验证步骤:根据top命令输出排序结果,定位占用内存资源最多的进程。

​​​​​​​009:判断是否有僵尸进程

  1. 执行top命令;
  2. 执行ps aux|grep defunct命令
  3. 执行top:查看top输出中是否提示有僵尸进程及其数量;

  4. 使用ps命令查找并定位僵尸进程。

​​​​​​​010:检查Linux操作系统磁盘I/O负载

        执行:vmstat 1

        iostat 1

        sar -d命令

  1. vmstat反映了进程的虚拟内存,虚拟内存,磁盘,trap和cpu的活动情况,在多cpu系统中,vmstat在输出结果中平均了cpu数量
  2. iostat:如果想看每个设备的io情况,可使用iostat命令。

​​​​​​​011:查询消耗I/O资源最多的进程

操作步骤:

  1. 运行iotop工具进行系统I/O性能监控
  2. 运行iostat 命令查看 语法:【选项】【间隔时间】【次数】

常用参数:

-c:显示CPU利用率

-d:显示设备利用率

-t:显示时间戳

-x:显示详细磁盘指标

-y:跳过第一条数据

-k:显示单位为KB

-m:显示单位为MB

-p:指定主设备,显示主设备下所有磁盘信息

示例:

iostat -c 1 3 #输出3次 每次间隔一秒

iostat 1 2 #1秒刷新一次 统计2次

验证步骤:根据iotop输出结果验证

常用参数:

-o:只显示有io操作的进程

-b:批量显示,无交互,主要用作记录到文件。

-n NUM:显示NUM次,主要用于非交互式模式。

-d SEC:间隔SEC秒显示一次。

-p PID:监控的进程pid。

-u USER:监控的进程用户。

示例

iotop

​​​​​​​

​​​​​​​012:文件系统信息

  1. 执行以下命令查看文件系统挂载情况:

#df -h 查看文件系统使用率

#df -i 查看文件系统inode使用率

#mount 查看文件系统mount属性

#cat /etc/fstab 确认是否有未挂载文件系统

  1. 查看日志中是否有关于文件系统的报错信息

#tail -2000 /var/log/messages

        验证步骤:

  1. 文件系统正常挂载,读/写属性正常,日志无报错;
  2. 可手工创建临时文件,以验证文件系统的可读/写性。

​​​​​​​013:物理卷、卷组和逻辑卷

  1. 执行以下命令查看PV、VG、LV信息:

#pvs ;#pvdisplay 查看物理卷信息

#vgs ;#vgdisplay 查看卷组信息

#lvs ;#lvdisplay 查看逻辑卷信息

  1. 查看日志中是否有关于文件系统的报错信息

#tail -2000 /var/log/messages

#cat /var/log/messages |grep -i fs

验证步骤:

  1. 物理卷、卷组、逻辑卷状态正常,读/写属性正常,日志无报错;
  2. 如果要查看PV、VG和LV的详细扫描信息,可以使用命令pvdisplay、vgdisplay、lvdisplay并搭配 “-vvvv”参数使用。

http://www.xdnf.cn/news/864937.html

相关文章:

  • 传输层协议 UDP 介绍 -- UDP 协议格式,UDP 的特点,UDP 的缓冲区
  • OPENCV的AT函数
  • 验证负载均衡与弹性伸缩
  • Nginx+Tomcat负载均衡与动静分离架构
  • 保险丝选型
  • Java基础原理与面试高频考点
  • 沉金PCB电路板制造有哪些操作要点需要注意?
  • 论文导读 | 区间数据管理
  • C#由于获取WPF窗口名称造成的异常报错问题
  • SQL 中 NOT IN 的陷阱?
  • 如何确定微服务的粒度与边界
  • 09.MySQL内外连接
  • 4. 数据类型
  • linux 安装 canal 的详细步骤
  • Linux I2C 子系统全解:结构、机制与工程实战
  • Hive开窗函数的进阶SQL案例
  • stm32使用hal库模拟spi模式3
  • git cherry-pick (28)
  • Redis初识
  • 华为ICT和AI智能应用
  • 深入理解系统:UML类图
  • YOLO12 改进|融入 Mamba 架构:插入视觉状态空间模块 VSS Block 的硬核升级
  • OpenCV C++ 学习笔记(六):绘制文本、几何绘图、查找/绘制轮廓
  • [蓝桥杯]取球博弈
  • 【发布实录】云原生+AI,助力企业全球化业务创新
  • Odoo17 技巧 | 如何获取Selection字段的显示值五种方法
  • Cisco IOS XE WLC 任意文件上传漏洞复现(CVE-2025-20188)
  • powershell 安装 .netframework3.5
  • CentOS7 + JDK8 虚拟机安装与 Hadoop + Spark 集群搭建实践
  • .Net Framework 4/C# 集合和索引器