MinIO集群故障,其中一块driver-4异常
现象
driver-4 Offline,驱动状态为未知。
处理过程
- 建议每个驱动下面新建个文件,便于根据目录里面的drive-x文件区分驱动
root@pve:/mnt/drive-4# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sdb 3.7T 695G 3.0T 19% /mnt/drive-2
/dev/sda 3.7T 695G 3.0T 19% /mnt/drive-1
/dev/sde 3.7T 695G 3.0T 19% /mnt/drive-5
/dev/sdc 3.7T 695G 3.0T 19% /mnt/drive-3
/dev/sdd 3.7T 694G 3.0T 19% /mnt/drive-4
cd /mnt/drive-1
touch drive-1
ls
# drive-1 minio
- 备份fatab文件
/dev/disk/by-uuid/15299c84-011c-4309-bb4a-c372733add7b /mnt/drive-1 xfs defaults 0 0
/dev/disk/by-uuid/74e6a198-9a2c-4939-aaa1-bb91879e917e /mnt/drive-2 xfs defaults 0 0
/dev/disk/by-uuid/c165edcd-9fae-4e7e-a912-8ce59d494409 /mnt/drive-3 xfs defaults 0 0
/dev/disk/by-uuid/d76e4c0c-3a62-4c45-8acf-4ac12f6ed67b /mnt/drive-4 xfs defaults 0 0
/dev/disk/by-uuid/5d369a0c-0bdf-478a-9146-8b2cad7f6e96 /mnt/drive-5 xfs defaults 0 0
- 使用CrystalDiskInfo查看
- 使用DiskGenius检测
https://www.diskgenius.cn/download.php
发现有55个坏道,好家伙!
- 联系京东换货
没想到直接给拿了个新的
最终恢复
硬盘插上后,会自动恢复,最好别让集群跑业务,让它自己慢慢的静静恢复吧
根因处理
kubesphere中安装了WhizardTelemetry 监控
即kube-prometheus-stack,prometheus里面retention默认为7d,超过七天的数据会删除,导致minio负载非常高(读写删同时进行),retention改为了3650d后,minio集群稳定了,并且怕数据存不下将storage之前的20Gi改为2000Gi。
后期要删除的话,统一集中删除,防止每个节点主动去淘汰缓存!
prometheusSpec:image:registry: quay.iorepository: prometheus/prometheustag: v2.51.2replicas: 1retention: 3650dresources:limits:cpu: "4"memory: 16Girequests:cpu: 200mmemory: 400MistorageSpec:volumeClaimTemplate:spec:resources:requests:storage: 2000Gi