当前位置: 首页 > web >正文

《Ceph集群数据同步异常的根因突破与恢复实践》

分布式存储是支撑业务数据流转的核心底座,其稳定性直接决定了整个系统的抗风险能力。某政务云平台采用Ceph作为统一存储解决方案,为电子政务、民生服务等核心系统提供块存储与对象存储服务,却在一次常规集群扩容后遭遇了严重的数据同步异常——部分存储池的PG(Placement Group)状态持续处于“degraded”,数据副本同步停滞,触发了平台最高级别的灾备预警。这起故障并非简单的硬件或配置问题,而是Ceph底层CRUSH算法、OSD(Object Storage Daemon)调度机制与云原生环境弹性特征碰撞产生的复杂问题,其排查与恢复过程,为理解分布式存储在云原生场景下的运维难点提供了关键参考。

该政务云平台的Ceph集群采用“3主3从”的混合部署架构,包含6个存储节点(每个节点配置24核CPU、128GB内存、10块10TB SATA硬盘),运行Ceph Quincy版本,部署模式为容器化(基于Kubernetes的StatefulSet管理OSD与MON组件),存储池采用“3副本+EC(Erasure Code)”混合策略—核心业务数据使用3副本确保低延迟,非核心归档数据使用EC模式节省空间。集群总容量1.2PB,承载着200余个政务应用的数据存储需求,其中电子证照、社保缴费等系统要求数据RTO(恢复时间目标)不超过15分钟,RPO(恢复点目标)接近0。故障发生于运维团队为扩容存储容量,新增2个存储节点并加入集群之后,初期仅表现为新节点的OSD上线缓慢,2小时后多个核心存储池出现PG状态异常。值得注意的是,此次扩容正值月末政务业务高峰期,电子证照系统需处理大量企业资质审核文件存储请求,社保缴费系统也面临市民医保参保登记的数据写入压力,这为故障的恶化埋下了业务层面的隐患。

故障初期的现象呈现出“渐进式恶化”特征。通过Ceph Dashboard监控发现,新增节点的8个OSD中,有5个始终处于“up但inactive”状态,无法参与数据均衡;同时,“user-data”“gov-cert”两个核心存储池的PG健康状态从“active+clean”变为“active+degraded”, degraded PG数量从0逐渐增至42个,占总PG数的18%。查看Ceph日志发现,OSD之间的心跳检测正常,但数据副本同步时频繁出现“p

http://www.xdnf.cn/news/20337.html

相关文章:

  • 深入剖析RocketMQ分布式消息架构:从入门到精通的技术全景解析
  • Ubuntu 文件权限管理
  • 【正则表达式】选择(Alternation)和分支 (Branching)在正则表达式中的使用
  • MySQL InnoDB 的锁机制
  • Chrome 插件开发入门:打造个性化浏览器扩展
  • 神经网络|(十八)概率论基础知识-伽马函数·下
  • Follow 幂如何刷屏?拆解淘宝闪购×杨幂的情绪共振品牌营销
  • Doris 消费kafka消息
  • 通过PXE的方式实现Ubuntu 24.04 自动安装
  • 版本管理系统与平台(权威资料核对、深入解析、行业选型与国产平台补充)
  • 50.4k Star!我用这个神器,在五分钟内搭建了一个私有 Git 服务器!
  • 小程序的project.private.config.json是无依赖文件,那可以删除吗?
  • Aspose.Words for .NET 25.7:支持自建大语言模型(LLM),实现更安全灵活的AI文档处理功能
  • 《LangChain从入门到精通》系统学习教材大纲
  • java基础学习(四):类 - 了解什么是类,类中都有什么?
  • 25年下载chromedriver.140
  • 项目必备流程图,类图,E-R图实例速通
  • 面试 TOP101 贪心专题题解汇总Java版(BM95 —— BM96)
  • 实力登榜!美创科技荣膺数说安全《2025中国网络安全企业100强》
  • IDEA中Transaction翻译插件无法使用,重新配置Transaction插件方法
  • 基于飞算JavaAI的在线图书借阅平台设计实现
  • Process Explorer 学习笔记(第三章 3.2.2):定制可显示的列与数据保存
  • Linux 入门到精通,真的不用背命令!零基础小白靠「场景化学习法」,3 个月拿下运维 offer,第二十七天
  • Bug排查日记:从崩溃到修复的实战记录
  • Nginx +Tomcat架构的必要性与应用示例
  • Kafka 消息队列:揭秘海量数据流动的技术心脏
  • 具身智能多模态感知与场景理解:融合语言模型的多模态大模型
  • 【关系型数据库SQL】MySql数据库基础学习(一)
  • 高级RAG策略学习(五)——llama_index实现上下文窗口增强检索RAG
  • 在本地使用Node.js和Express框架来连接和操作远程数据库