当前位置: 首页 > news >正文

linux 故障处置通用流程-36计-14-27

014:查看系统主要日志

查看以下日志:

主要查以下关键字 error/NIC/fs /"link down"/Oout of memory"

/var/log/messages

/var/log/dmesg

015:主机通讯是否延迟

执行命令:

#ping 网关_IP

#ping 关联主机_IP

​​​​​​​016:主机通讯是否丢包

执行:

#/sbin/ifconfig

#ping -c 次数 IP地址

​​​​​​​017:主机路由设置是否正确

  1. 执行以下命令:

#route

#cat /proc/net/route

  1. 查看路由是否正确添加;
  2. 当前路由所对应物理网卡是否正确;
  3. 最多只有一条缺省路由。

​​​​​​​018:到相连业务系统的通讯是否正常

  1. 执行命令:

#ping 关联系统_IP网关_IP

#telnet 关联系统_IP PORT_NUMBER

#route

#traceroute 关联系统_IP

#ifconfig

  1. 检测与目标主机的连通性;
  2. 检测路由正确性;
  3. 检测网卡状况是否正常。
019:网卡驱动是否正常加载
  1. 执行命令:

#cat /var/log/mesages | grep -Ei "system boot|Err|Warn| Fatal|fail|Killsingal" 查看日志信息

#ifconfig 查看网卡工作状态

#lspci |grep -i eth(linux7)、

dmesg | grep -i eth(linux6) 查看物理网卡

#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序

#cat /proc/modules 查看已加载驱动

#lsmod 查看当前网卡驱动是否已经正确加载

#modinfo 驱动_名称 查看驱动信息

  1. 查看messages日志文件中是否有报错;
  2. 根据ifconfig查看网卡工作状态;
  3. 根据lspci判断物理网卡型号;
  4. 使用ethtool查看指定网卡所使用的驱动程序;
  5. 根据/proc/modules、lsmod判断网卡驱动是否已经正常加载;
  6. 使用modinfo查看驱动程序详细信息。
020:网卡配置信息检测

#ping _IP

#ping 关联主机_IP

#ifconfig 查看网卡信息

#tail -2000 /var/log/messages 查看日志信息

#cat /etc/sysconfig/network- scripts/ifcfg-eth?,

查看IP,掩码,网关等设置信息;

修改配置文件后,执行 #service network restart(linux6)、systemctl restart network(linux7) ,重启网络服务。

  1. 检测主机与网及关联主机通讯是否正常;
  2. 主机网卡状态是否正常;
  3. 系统日志中是否有明显报错;
  4. 主机缺省路由是否配置正确;
  5. 网卡配置文件是否正确:如果配置文件中含有MAC地址,应使用dmesg命令,验证MAC地址是否填写正确;
  6. 调整配置并重启网络服务

021:网卡配置参数

执行命令:

#ethtool 网卡_名称

使用ethtool命令,查看网卡配置是否正常,主要关注网卡连接模式(10/100/1000baseT)及工作模式(Half/Full)。

022:查看群集状态及共享资源

执行:clustat(redhat6)

pcs status (redhat7)

  1. 集群资源状态为Online
  2. 集群资源状态为Started
023:重启群集服务

redhat6

#clusvcadm –r test_svc (test_svc 资源组名字)

重新启动test_svc这个服务;

redhat7

pcs resource unmanager <resource_name>

pcs cluster disunmanagerable

pcs cluster enable

pcs resource unmanager <resource_name>

  1. 查看日志:tail -f /var/log/messages
  2. 使用clustat(redhat6)/pcs stauts(redhat7)查看双机节点及服务状态。
  1. 命令执行成功,服务重新运行于当前节点;
  2. 切换过程中,messages日志文件中报错信息;
  3. clustat命令显示双机节点及服务状态正常。

024:群集服务切换到备机
  1. 如果主机服务异常,且通过重启主机服务进程亦无法恢复,那么可以将服务切换到备机:

redhat 6

#clusvcadm –r test_svc -m host2

将服务test_svc切换到主机host2上运行

redhat7

pcs cluster standby node1

将node1上的资源切换到主机node2上运行

pcs cluster unstandby node1

  1. 查看日志:tail -f /var/log/messages
  2. clustat/pcs status命令显示双机节点及服务状态正常。​​​​​​​
  3. 命令执行成功,双机节点正常切换;
  4. 切换过程中,messages日志文件中报错信息;
  5. clustat/pcs status命令显示双机节点及服务状态正常
025:关闭主机群集服务
  1. 如果RHCS集群环境中,主、备机均无法正常提供服务,那么可以手工启动或是冷备机的方式恢复服务,但在这之前需要先关闭集群中的服务进程:

#clusvcadm –s test_svc –m host2

redhat6

在两个节点执行同时进行操作

service rgmanager stop

service clvmd stop

service cman stop

redhat7

pcs cluster disable --all

  1. 执行clustat命令查看服务关闭情况;clustat 命令不存在
  2. 使用df、ping、”ip addr list”命令,确认群集共享资源已释放;
  3. 查看日志:tail -f /var/log/messages;
    1. 群集Service正常关闭;
    2. 群集共享资源已释放;
    3. 系统日志无报错;
    4. 群集各节点Cluster服务关闭;

 

026:手工恢复群集服务
  1. 在停止RHCS服务后,可按照以下步骤手工挂载资源,并启动服务:

网络IP地址:使用ifconfig命令,修改服务地址;

存储空间:

vgscan 扫描可用卷组;

vgdisplay 查看卷组信息;

importvg VG_NAME 导入卷组信息;

vgchange -ay VG_NAME 激活卷组;

lvscan 识别lv;

如果上述操作中,卷组无法在单机激活,则有可能是在/etc/lvm/lvm.conf中配置了volume_list和locking_type限制,只有带有相应TAG标签的卷组才能在相应主机激活,可按如下操作验证并调整:

#vgs -o +vg_tags 查看卷组标签信息

#vgchange -addtag `hostname` 共享_VG_NAME

#vgs -o +vg_tags 验证卷组标签是否已经添加】

文件系统:根据lvscan信息,mount相关文件系统;

配置文件:检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;

检测数据库配置信息完备,尝试启动数据库(其间注意观察数据库日志信息);

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。

 

027:群集服务冻结和解冻

redhat6

clusvcadm -Z 资源名字

redhat7

pcs status

pcs cluster standby node1(没有资源的节点)

pcs resource unmanager service (如果两个节点都有资源)

2) 解冻

redhat6

clusvcadm -U 资源名字

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。
http://www.xdnf.cn/news/879769.html

相关文章:

  • JVM 核心概念深度解析
  • CB/T 3361-2019 甲板敷料检测
  • 中小企业IT运维痛点与OMS主动运维体系解析
  • 装一台水冷主机
  • uniappx插件nutpi-idcard 开发与使用指南(适配鸿蒙)
  • Linux C学习路线全概及知识点笔记2(仅供个人参考)
  • uniapp实现的简约美观的星级评分组件
  • uniapp图片文档预览
  • PHP 8.5 即将发布:管道操作符、强力调试
  • springboot mysql/mariadb迁移成oceanbase
  • 基于Java(SpringBoot、Mybatis、SpringMvc)+MySQL实现(Web)小二结账系统
  • 【图片识别改名】如何批量将图片按图片上文字重命名?自动批量识别图片文字并命名,基于图片文字内容改名,WPF和京东ocr识别的解决方案
  • 【SSM】SpringMVC学习笔记7:前后端数据传输协议和异常处理
  • 阿里云事件总线 EventBridge 正式商业化,构建智能化时代的企业级云上事件枢纽
  • 【Spark征服之路-2.2-安装部署Spark(二)】
  • 力扣LeetBook数组和字符串--二维数组
  • 【无标题】路径着色问题的革命性重构:拓扑色动力学模型下的超越与升华
  • 网络测试实战:金融数据传输的生死时速
  • C++学习-入门到精通【14】标准库算法
  • C++11实现TCP网络通讯服务端处理逻辑简化版
  • ARM处理器工作模式
  • MCP通信方式之Streamable HTTP
  • ZooKeeper 安装教程(Windows + Linux 双平台)
  • Redis 安装配置和性能优化
  • 【bug】Error: /undefinedfilename in (/tmp/ocrmypdf.io.9xfn1e3b/origin.pdf)
  • 仓库拉下ssm项目配置启动
  • Java 高频面试题场景(四):社区老年大学在线学习平台系统
  • Android四大组件通讯指南:Kotlin版组件茶话会
  • 新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案
  • 6.5本日总结