当前位置: 首页 > ops >正文

MinIO集群故障,其中一块driver-4异常

现象

driver-4 Offline,驱动状态为未知。
在这里插入图片描述

处理过程

  1. 建议每个驱动下面新建个文件,便于根据目录里面的drive-x文件区分驱动
root@pve:/mnt/drive-4# df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sdb              3.7T  695G  3.0T  19% /mnt/drive-2
/dev/sda              3.7T  695G  3.0T  19% /mnt/drive-1
/dev/sde              3.7T  695G  3.0T  19% /mnt/drive-5
/dev/sdc              3.7T  695G  3.0T  19% /mnt/drive-3
/dev/sdd              3.7T  694G  3.0T  19% /mnt/drive-4
cd /mnt/drive-1
touch drive-1 
ls
# drive-1  minio
  1. 备份fatab文件
/dev/disk/by-uuid/15299c84-011c-4309-bb4a-c372733add7b /mnt/drive-1 xfs defaults 0 0
/dev/disk/by-uuid/74e6a198-9a2c-4939-aaa1-bb91879e917e /mnt/drive-2 xfs defaults 0 0
/dev/disk/by-uuid/c165edcd-9fae-4e7e-a912-8ce59d494409 /mnt/drive-3 xfs defaults 0 0
/dev/disk/by-uuid/d76e4c0c-3a62-4c45-8acf-4ac12f6ed67b /mnt/drive-4 xfs defaults 0 0
/dev/disk/by-uuid/5d369a0c-0bdf-478a-9146-8b2cad7f6e96 /mnt/drive-5 xfs defaults 0 0
  1. 使用CrystalDiskInfo查看
    在这里插入图片描述
  2. 使用DiskGenius检测
    https://www.diskgenius.cn/download.php
    发现有55个坏道,好家伙!
    在这里插入图片描述
  3. 联系京东换货
    没想到直接给拿了个新的

最终恢复

硬盘插上后,会自动恢复,最好别让集群跑业务,让它自己慢慢的静静恢复吧
在这里插入图片描述

根因处理

kubesphere中安装了WhizardTelemetry 监控即kube-prometheus-stack,prometheus里面retention默认为7d,超过七天的数据会删除,导致minio负载非常高(读写删同时进行),retention改为了3650d后,minio集群稳定了,并且怕数据存不下将storage之前的20Gi改为2000Gi。
后期要删除的话,统一集中删除,防止每个节点主动去淘汰缓存!

    prometheusSpec:image:registry: quay.iorepository: prometheus/prometheustag: v2.51.2replicas: 1retention: 3650dresources:limits:cpu: "4"memory: 16Girequests:cpu: 200mmemory: 400MistorageSpec:volumeClaimTemplate:spec:resources:requests:storage: 2000Gi
http://www.xdnf.cn/news/7642.html

相关文章:

  • 网络安全之带正常数字签名的后门样本分析
  • 软件测试之环境搭建及测试流程
  • 见多识广10:大模型的一些基础概念
  • Python训练营打卡——DAY31(2025.5.20)
  • 类和对象------2
  • Leetcode百题斩-字典树
  • MySQL 安全更新大量数据
  • MySQL高可用之ProxySQL + MGR 实现读写分离实战
  • 面向AI研究的模块化即插即用架构综述与资源整理全覆盖
  • 数据库实验——备份与恢复
  • 【普及−】洛谷P1862 ——输油管道问题
  • 【latex】文本颜色修改
  • 【QT】QTableWidget获取width为100,与真实值不符问题解决
  • C++ 网络编程(9)字节序处理和消息队列的控制
  • 缺乏进度跟踪机制,如何掌握项目状态?
  • MyBatis常用方法
  • 零售EDI:Belk Stores EDI需求分析
  • 阅读笔记---城市计算中用于预测学习的时空图神经网络研究综述
  • 《从零开始构建高可用MySQL架构:全流程实战指南》
  • 无人机避障——深蓝学院浙大Fast-planner学习部分(轨迹生成B-Spline部分)
  • Spring是如何实现scope作用域支持
  • 家用和类似用途电器的安全 第1部分:通用要求 与2005版差异(6)
  • pmap中的mode列,脏页,写时复制
  • 公路水运安全员C证用途及重要性
  • 测试工程师要如何开展单元测试
  • JavaSenderMail发送邮件(QQ及OFFICE365)
  • 如何使用通义灵码玩转Python - AI编程助手提升效率
  • 【工具变量】地级市健康城市试点政策数据集(2007-2024年)
  • 香港科技大学广州香港科技大学硕博士研究生学位项目宣讲会(智能制造硕博士物理学硕士)—深圳大学专场
  • 大模型从基础到入门 记录