当前位置: 首页 > java >正文

ODA服务器计算节点本地硬盘状态异常的处理

近期,在系统巡检过程中发现一个客户的ODA服务器本地硬盘节点出现告警,ODAX8 X9等,本地硬盘是使用的240GB M.2接口的SSD盘(卡式)的,这个没有外置的指示灯可以从服务器前面板查看,打开服务器机箱盖子倒是可以看到M.2盘上面有绿色指示灯,但是一般巡检不会看这个。

因此这个问题很有隐蔽性,2块M.2接口的SSD盘做的RAID1,系统层面巡检一般也不会注意到该问题,需要通过特定的命令 cat /proc/mdstat、odaadmcli show localdisk来查看,同时通过ILOM查看时候STORAGE菜单里面显示的盘状态是正常,系统日志里可能会有日志显示盘INSERT/REMOTE,可以参考。

本次通过插拔硬盘和重启主机后,告警恢复了。

如下是本次的处理过程:

状态检查:

[root@hisdb2 ~]# odaadmcli show localdisk
        NAME            PATH            TYPE            STATUS                 STATE_IN_ILOM
 
        lpd_0           sda             SSD             GOOD                   GOOD           
        lpd_1           N/A             SSD             MISSING                GOOD    ====这个盘损坏了       

[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sda[0]
      234425344 blocks super external:/md127/0 [2/1] [U_]  ==正常是UU,这里是U_
      
md127 : inactive sda[0](S)
      5201 blocks super external:imsm
       
unused devices: <none>

ILOM里面的日志:可以看到有盘INSERT/REMOVED,类似盘不稳定,

重启和插拔硬盘后,系统恢复:

需要注意,ODA的服务需要开启集群软件,所以不能吧CRS开机启动关闭:

May  8 17:41:46 hisdb2 su: (to grid) root on none
May  8 17:41:46 hisdb2 su: (to root) root on none
May  8 17:41:46 hisdb2 su: (to root) root on none
May  8 17:43:14 hisdb2 init.oak: 2025-05-08 17:43:14.460969204:[init.oak]:[Waiting for Cluster Ready Services. Diagnostics in /tmp/crsctl.4142]
May  8 17:45:45 hisdb2 init.oak: 2025-05-08 17:45:45.619750299:[init.oak]:[Waiting for Cluster Ready Services. Diagnostics in /tmp/crsctl.4142]

重启后识别到2块M2硬盘,系统会自动同步数据修复RAID,日志如下:

[root@hisdb2 ~]# odaadmcli show localdisk
        NAME            PATH            TYPE            STATUS                  STATE_IN_ILOM
 
        lpd_0           sda             SSD             GOOD                    GOOD           
        lpd_1           sdb             SSD             GOOD                    GOOD           
[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sdb[1] sda[0]
      234425344 blocks super external:/md127/0 [2/1] [U_]
      [=====>...............]  recovery = 25.8% (60691392/234425344) finish=14.3min speed=202388K/sec
      
md127 : inactive sda[1](S) sdb[0](S)
      10402 blocks super external:imsm
       
unused devices: <none>
[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sdb[1] sda[0]
      234425344 blocks super external:/md127/0 [2/1] [U_]
      [======>..............]  recovery = 32.2% (75616576/234425344) finish=13.2min speed=199081K/sec
      
md127 : inactive sda[1](S) sdb[0](S)
      10402 blocks super external:imsm
       
unused devices: <none>

最终状态:

[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sdb[1] sda[0]
      234425344 blocks super external:/md127/0 [2/2] [UU]
      
md127 : inactive sda[1](S) sdb[0](S)
      10402 blocks super external:imsm
       
unused devices: <none>
[root@hisdb2 ~]#  odaadmcli show localdisk
        NAME            PATH            TYPE            STATUS                  STATE_IN_ILOM
 
        lpd_0           sda             SSD             GOOD                    GOOD           
        lpd_1           sdb             SSD             GOOD                    GOOD 
 

可以参考的MESSAGE日志

May  8 18:16:20 hisdb2 kernel: md/raid1:md126: active with 1 out of 2 mirrors
May  8 18:16:20 hisdb2 kernel: md126: detected capacity change from 0 to 240051552256
May  8 18:16:20 hisdb2 kernel: md126: p1 p2 p3
May  8 18:16:20 hisdb2 systemd: Starting MD Metadata Monitor on /dev/md127...
May  8 18:16:20 hisdb2 systemd: Started MD Metadata Monitor on /dev/md127.
May  8 18:16:20 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: EXT4-fs (md126p2): mounted filesystem with ordered data mode. Opts: (null)
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:22 hisdb2 systemd: Stopped MD Metadata Monitor on /dev/md127.
May  8 18:16:24 hisdb2 systemd: Starting MD Metadata Monitor on /dev/md127...
May  8 18:16:24 hisdb2 systemd: Started MD Metadata Monitor on /dev/md127.
May  8 18:16:24 hisdb2 systemd-fsck: /dev/md126p2: clean, 67/128016 files, 148390/512000 blocks
May  8 18:16:24 hisdb2 kernel: EXT4-fs (md126p2): mounted filesystem with ordered data mode. Opts: (null)
May  8 18:16:24 hisdb2 kernel: FAT-fs (md126p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
May  8 18:17:21 hisdb2 systemd: rc-local.service: control process exited, code=exited status=127
May  8 18:31:12 hisdb2 systemd: Starting Cleanup of Temporary Directories...
May  8 18:31:12 hisdb2 systemd: Started Cleanup of Temporary Directories.
May  8 18:36:11 hisdb2 kernel: md: md126: recovery done.


t同时,linux   lsblk命令也可以看到2块盘对应了系统的分区:

[root@hisdb2 ~]# lsblk
NAME                         MAJ:MIN   RM   SIZE RO TYPE  MOUNTPOINT

sdb                            8:16     0 223.6G  0 disk  
└─md126                        9:126    0 223.6G  0 raid1 
  ├─md126p2                  259:1      0   500M  0 md    /boot
  ├─md126p3                  259:2      0 222.6G  0 md    
  │ ├─VolGroupSys-LogVolOpt  252:20     0    30G  0 lvm   /opt
  │ ├─VolGroupSys-LogVolSwap 252:1      0    24G  0 lvm   [SWAP]
  │ ├─VolGroupSys-LogVolU01  252:21     0    40G  0 lvm   /u01
  │ └─VolGroupSys-LogVolRoot 252:0      0    30G  0 lvm   /
  └─md126p1                  259:0      0   500M  0 md    /boot/efi
sda                            8:0      0 223.6G  0 disk  
└─md126                        9:126    0 223.6G  0 raid1 
  ├─md126p2                  259:1      0   500M  0 md    /boot
  ├─md126p3                  259:2      0 222.6G  0 md    
  │ ├─VolGroupSys-LogVolOpt  252:20     0    30G  0 lvm   /opt
  │ ├─VolGroupSys-LogVolSwap 252:1      0    24G  0 lvm   [SWAP]
  │ ├─VolGroupSys-LogVolU01  252:21     0    40G  0 lvm   /u01
  │ └─VolGroupSys-LogVolRoot 252:0      0    30G  0 lvm   /
  └─md126p1                  259:0      0   500M  0 md    /boot/efi

http://www.xdnf.cn/news/5203.html

相关文章:

  • 【金仓数据库征文】国产数据库KingbaseES安装与使用详解
  • 202535| Kafka架构与重要概念+幂等性+事务
  • [架构之美]Spring Boot多环境5种方案实现Dev/Test/Prod环境隔离
  • kafka的安装及简单使用
  • 【并发编程】基于 Redis 手写分布式锁
  • 【源码+文档+调试讲解】高校创新创业课程124
  • Metasploit 4.22.7:企业级渗透测试新突破
  • 深入了解 ArkTS:HarmonyOS 开发的关键语言与应用实践
  • 装机容量与额定容量区别解析
  • 记录 ubuntu 安装中文语言出现 software database is broken
  • Kubernetes排错(十)-常见网络故障排查
  • OSPF综合性实验
  • 解决 SQL Server 2008 导入 Excel 表卡在“正在初始化数据流”问题
  • 基于DAMA框架的企业文件与内容管理深度解析
  • PyTorch API 5 - 全分片数据并行、流水线并行、概率分布
  • 泛型加持的策略模式:打造高扩展的通用策略工具类
  • 5.1 神经网络: 层和块
  • TWAS / FUSION
  • HTML属性
  • AI Coding的发展之路:从概念到改变世界的旅程
  • spring boot lunar 农历的三方库引用,获取日期的农历值
  • Linux 内核链表宏的详细解释
  • Scala与Go的异同教程
  • MySQL事务和JDBC中的事务操作
  • 深入解析:如何基于开源p-net快速开发Profinet从站服务
  • 2025年“深圳杯”数学建模挑战赛C题国奖大佬万字思路助攻
  • Java虚拟机的基本结构
  • Web3 初学者学习路线图
  • 各种音频产品及场景总结
  • 5.Redission