当前位置：首页 > ops >正文

MinIO集群故障，其中一块driver-4异常

ops 2025/8/16 10:55:45

现象

driver-4 Offline,驱动状态为未知。
在这里插入图片描述

处理过程

建议每个驱动下面新建个文件，便于根据目录里面的drive-x文件区分驱动

root@pve:/mnt/drive-4# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sdb              3.7T  695G  3.0T  19% /mnt/drive-2
/dev/sda              3.7T  695G  3.0T  19% /mnt/drive-1
/dev/sde              3.7T  695G  3.0T  19% /mnt/drive-5
/dev/sdc              3.7T  695G  3.0T  19% /mnt/drive-3
/dev/sdd              3.7T  694G  3.0T  19% /mnt/drive-4

cd /mnt/drive-1
touch drive-1 
ls
# drive-1  minio

备份fatab文件

/dev/disk/by-uuid/15299c84-011c-4309-bb4a-c372733add7b /mnt/drive-1 xfs defaults 0 0
/dev/disk/by-uuid/74e6a198-9a2c-4939-aaa1-bb91879e917e /mnt/drive-2 xfs defaults 0 0
/dev/disk/by-uuid/c165edcd-9fae-4e7e-a912-8ce59d494409 /mnt/drive-3 xfs defaults 0 0
/dev/disk/by-uuid/d76e4c0c-3a62-4c45-8acf-4ac12f6ed67b /mnt/drive-4 xfs defaults 0 0
/dev/disk/by-uuid/5d369a0c-0bdf-478a-9146-8b2cad7f6e96 /mnt/drive-5 xfs defaults 0 0

使用CrystalDiskInfo查看
使用DiskGenius检测
https://www.diskgenius.cn/download.php
发现有55个坏道，好家伙！
联系京东换货
没想到直接给拿了个新的

最终恢复

硬盘插上后，会自动恢复，最好别让集群跑业务，让它自己慢慢的静静恢复吧
在这里插入图片描述

根因处理

kubesphere中安装了WhizardTelemetry 监控即kube-prometheus-stack，prometheus里面retention默认为7d，超过七天的数据会删除，导致minio负载非常高（读写删同时进行），retention改为了3650d后，minio集群稳定了，并且怕数据存不下将storage之前的20Gi改为2000Gi。
后期要删除的话，统一集中删除，防止每个节点主动去淘汰缓存!

    prometheusSpec:image:registry: quay.iorepository: prometheus/prometheustag: v2.51.2replicas: 1retention: 3650dresources:limits:cpu: "4"memory: 16Girequests:cpu: 200mmemory: 400MistorageSpec:volumeClaimTemplate:spec:resources:requests:storage: 2000Gi