当前位置：首页 > news >正文

智能运维实战｜数据库卡慢处置的一次关键事件

news 2025/7/1 20:51:45

位于西南部地区的某线缆生产制造龙头企业，正基于深信服超融合承载其Oracle RAC数据库。目前，用户处于业务扩展期，但IT部门当前的运维人力紧张、预算有限，且缺乏专业的数据库管理员，难以应对庞大业务体系下的运维难题。在这样的困境下，用户开始寻找能够有效适配的解决方案。

一、用户本地数据中心概览及业务挑战

该生产制造企业目前已基于深信服超融合平台构建其核心数据中心设施环境，总计部署超过400核CPU、6TB内存资源，并运行120+台虚拟机，承载用户关键业务系统，包括OA、财务、生产管理、ERP以及数据库等核心应用，为用户的日常运营和生产活动提供了稳定可靠的技术支撑。
在这里插入图片描述

然而，随着用户的业务不断扩展，IT部门原有的人力资源及能力都不足以支撑快速增长的需求，尤其在面临数据库卡慢、卡死的相关问题时，因缺乏专业DBA，很难进行有效处理，具体问题如下：

主动监控手段不足，经常被动响应：核心数据库由于缺乏有效的监控手段，经常在收到业务部门的问题反馈及投诉之后才开始介入到问题的排查阶段，问题处置滞后，对业务部门影响较大。
缺乏专业DBA，数据库问题排查异常困难：针对业务部门频繁反馈的ERP业务系统卡慢、卡死等问题，IT部门对数据库性能的分析能力比较欠缺，软件厂商和系统运维工程师都难以定位问题根因。

在用户庞大的IT规模和有限的资源条件下，深信服基于一朵云为用户规划智能运维服务方案，将传统线下运维工作进行在线化、智能化转型，助力用户以更简便、高效的路径实现7*24h在线监测值守和主动式运维服务，提升运维效率，保障业务稳定运行。

下面，我们通过对一次数据库诊断场景的关键事件详解，呈现智能运维服务的价值。

2024-11-15 16:33:09：用户反馈运行在HCI上的Oracle RAC数据库相关的业务系统卡慢，几乎无法使用。在这里插入图片描述

2024-11-15 16:45:27：通过试用智能运维服务，将Oracle数据库接入至云端智能大脑，并联系深信服DBA专家接入分析Oracle数据库卡慢问题。

深信服DBA专家通过智能运维中的数据库智能诊断功能，先获取到用户业务卡慢时刻附近的AWR报告。
在这里插入图片描述

通过超融合平台，登录到用户的Oracle主机上进行检查。

经过检查，发现系统大量使用Swap，说明系统内存不足。（cached占用代表数据库使用到了操作系统对文件系统的缓存，可能会因缓存文件导致内存过度消耗。）

在这里插入图片描述
通过查看从云端智能大脑上导出的AWR报告，通过分析得知SGA的缓存命中率低（约为67%），而TP环境中不应低于90%。

在这里插入图片描述
除此之外，还发现PGA的内存消耗达到配置的上限，导致内存分配等待。

Swap是磁盘上一块存储空间。当系统内存使用超过一定值的时候，操作系统就会启动内核进程kswapd，kswapd将部分内存数据置换到Swap(swap out)，从而释放一部分内存出来，当进程需要读取被置换到Swap的页的时候，内核再将数据从Swap读到内存(swap in)。

由于Swap in和Swap out是内核层自动执行的，所以进程不知道自己的内存是否被置换到Swap上了。swap让进程可以使用超过物理内存大小的内存空间。但是由于Swap是磁盘上的一块空间，所以其读写性能和内存差了1000~10000倍。

当内核开始使用Swap，会大大降低系统的响应速度，表现到业务层面为卡慢，甚至操作失败。

当系统使用了Swap时，若存在频繁换入换出即会导致kswapd进程活跃、CPU使用率上升、大量磁盘IO请求，进而导致业务系统整体卡慢，无响应。

在定位到故障原因之后，我们为用户提供以下处置方案：

2024-11-15 23:45:27~2024-11-16 24:00：经过调整后，用户数据库性能大幅提升。

问题精准定位
基于智能运维全栈监控体系和数据库线上服务，接入并监控Oracle数据库核心性能指标，充分利用平台提供的数据库诊断功能，方便核心数据库问题现象定位。
疑难问题闭环
依托于智能运维服务提供的DBA专家服务，快速协助用户排查数据库层面的性能问题，获取资深DBA的处置建议，指导数据库问题端到端处置闭环，缩短MTTR（平均故障修复时间）50%以上，运维效率提升60%以上。
全栈丰富的监控能力，7*24小时持续的守护
智能运维服务通过硬件、平台软件、操作系统、数据库、应用的全栈信息，进行关联分析，根因溯源，深入分析问题本质、溯源前因后果等多维度揪出根本原因，同时配备专属服务经理进行7*24h值守与主动响应，帮助用户提前规避潜在风险。

深信服围绕用户在业务扩展时遇到的运维难题，提供智能运维服务，通过线上线下结合，让用户突破传统运维工作的困境，在简化工作的同时获得更好的运维效果，大幅降低运维成本，可满足用户在各个业务发展阶段的运维需求，保障业务稳定运行，提升业务连续性。