当前位置: 首页 > web >正文

软死锁的检测--看门狗

软死锁(Soft Lockup)检测中,看门狗(Watchdog)的核心原理是 通过周期性检查 CPU 调度是否正常,判断是否因任务长时间霸占 CPU 导致无法调度其他任务,以下展开说明:

1. 基础机制:定时器 + 内核线程

  • 定时器触发:系统为每个 CPU 启动高精度定时器(hrtimer) ,周期性执行 watchdog_timer_fn 函数(类似 “定时检查” 逻辑),默认间隔由 watchdog_thresh 控制(通常初始 10 秒,可通过 sysctl 调整 )。
  • 内核线程辅助:同时,为每个 CPU 创建优先级最高的内核线程(如 watchdog/XX 为 CPU 编号 ),线程运行时会调用 __touch_watchdog() 更新时间戳(watchdog_touch_ts) ,标记 “CPU 调度正常”。

2. 检测逻辑:对比时间戳判断 “僵死”

定时器到期后,watchdog_timer_fn 会执行关键检查:

  • 读取当前时间 now,并获取上一次 “喂狗” 的时间戳 touch_ts(即线程更新的 watchdog_touch_ts )。
  • 计算时间差 now - touch_ts,若差值 超过 watchdog_thresh 阈值(比如默认 10 秒),则认为:
    CPU 上的任务长期霸占资源,导致内核线程无法正常调度(连优先级最高的看门狗线程都无法更新时间戳),判定发生 软死锁 。

简单说:若 “定时检查” 发现 “喂狗” 超时,说明 CPU 调度被长时间阻塞,触发软死锁告警。

3. 响应动作:告警与故障处理

  • 基础告警:检测到软死锁时,内核会打印堆栈跟踪(dmesg 日志能看到进程调用链 ),方便定位是哪个任务 / 函数长期占用 CPU。
  • 进阶配置:可通过 kernel.softlockup_panic 等参数,设置触发软死锁时直接让系统 panic(内核崩溃),或结合 panic_timeout 自动重启,避免系统长期僵死。

4. 典型场景与原理适配

比如某 CPU 上有个无限循环的内核任务(如驱动 bug 导致死循环 ),会持续霸占 CPU,使看门狗线程无法获得调度权 → 时间戳无法更新 → 定时器检查超时 → 触发软死锁告警。这也体现了看门狗的核心价值:用 “定时喂狗 - 超时检测” 机制,暴露 CPU 调度异常,让运维 / 开发能快速定位系统 “僵死” 根源。

 

总结来说,软死锁看门狗是通过定时检查 CPU 调度心跳(时间戳) 的机制,发现并告警 “任务长期阻塞 CPU 导致无法调度” 的问题,本质是用 “周期性验证” 确保系统调度的活性 。

http://www.xdnf.cn/news/14235.html

相关文章:

  • JavaSE超详细笔记-网络编程篇-基于黑马
  • 数据库连接池深度研究分析报告
  • rt-thread的红外遥控开源库使用(裸机版本)记录.
  • 暑期车辆违停治理:视觉算法的实践路径
  • 【C语言】图书管理系统(文件存储版)丨源码+详解
  • 提的缺陷开发不改,测试该怎么办?
  • 《Gulp与SCSS:解构前端样式开发的底层逻辑与实战智慧》
  • QT集成Boost库
  • PyCharm 中更改缓存和插件目录
  • 【华为开发者学堂】HarmonyOS
  • 以MNIST数据集为例进行单机多卡训练(DP和DDP)
  • 每日算法刷题Day31 6.14:leetcode二分答案2道题,结束二分答案,开始枚举技巧,用时1h10min
  • 【生活系列】金刚经
  • 使用 FastMCP 实现 Word 文档与 JSON 数据互转的 Python 服务
  • PHP、Apache环境中部署sqli-labs
  • 【构建】C++包管理器介绍
  • 从0开始学习语言模型--Day01--亲自构筑语言模型的重要性
  • python中的异常处理try-except - else - finally与自定义异常处理
  • R语言文本探索与预处理:入门指南
  • PH热榜 | 2025-06-14
  • C++开源协程库async_simple有栈协程源码分析
  • SQL Server 窗口函数详解:窗口行数控制的原理、关键字与应用场景
  • 计算机网络-自顶向下—第五章数据链路层重点复习笔记
  • Thread的join方法
  • python+django/flask+uniapp宠物中心信息管理系统app
  • Java开发中避免NullPointerException的全面指南
  • 【三维重建】无位姿图像的大场景On-the-fly重建
  • 【Linux】初见,进程概念
  • 创客匠人解析:美团护城河战略对 IP 可持续变现的启示
  • TCP 协议