当前位置: 首页 > ds >正文

排查解决 nvidia-suspend 导致的 linux 系统无响应/死机问题

文章目录

    • 发现问题
    • 排查问题
    • 解决问题
    • 参考链接

发现问题

ubuntu 系统一天内死机了 5 次, 物理表现为电源与风扇仍在运行, 但屏幕黑屏, 键鼠无响应, ssh 无法连上, 只能强制关机后重启

系统信息如下

Linux 5.8.0-59-generic #66~20.04.1-Ubuntu SMP Thu Jun 17 11:14:10 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
NVIDIA-SMI 570.172.08

排查问题

使用 last reboot 命令确定各次死机后重启的时间, 间接获取大概的死机时间

reboot   system boot  5.8.0-59-generic Fri Aug  1 17:19   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 15:55   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 14:23   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 13:44   still running
reboot   system boot  5.8.0-59-generic Fri Aug  1 11:43   still running

查看系统日志文件 /var/log/syslog /var/log/syslog.1 中死机时间前后的日志, 观察到规律, 每次死机前最后一段日志都是 nvidia-suspend.service 相关如下:

在这里插入图片描述

已知 systemd-suspend.service (可用 sudo systemctl suspend 命令手动触发) 会导致系统挂起, 表现为电源与风扇均在运转, 但键鼠无反应, 可通过按一下电源按钮唤醒

现在相信 “死机” 现象为 nvidia-suspend.service 触发的系统挂起现象, 搜索 linux nvidia suspend, 发现多个网页反馈 nvidia-suspend.service 引起的系统无响应问题, 至此问题基本确定

解决问题

# 禁用 nvidia suspend 相关服务
# 注意每次装新的 nvidia driver 后需重新禁用
sudo systemctl disable nvidia-suspend
sudo systemctl disable nvidia-hibernate
sudo systemctl disable nvidia-suspend-then-hibernate
reboot

查看相关服务是否已被禁用: systemctl list-unit-files | grep nvidia, 输出结果如下, 可见已成功禁用

nvidia-hibernate.service                                                  disabled        enabled
nvidia-powerd.service                                                     disabled        enabled
nvidia-resume.service                                                     enabled         enabled
nvidia-suspend-then-hibernate.service                                     disabled        enabled
nvidia-suspend.service                                                    disabled        enabled

后续持续观察是否还会出现系统无响应现象

参考链接

Tip for anyone having trouble with suspend/resume with NVIDIA: disable the NVIDIA systemd power management services, then reboot.
https://www.reddit.com/r/pop_os/comments/1hp90yy/tip_for_anyone_having_trouble_with_suspendresume/

在这里插入图片描述

http://www.xdnf.cn/news/16991.html

相关文章:

  • ICCV2025 | 对抗样本智能安全方向论文汇总 | 持续更新中~
  • 6-EP4CE10F17C8-锁相环
  • [Windows] 微软.Net运行库离线合集包 Microsoft .Net Packages AIO v13.05.25
  • Flutter开发 初识目录结构
  • 【07】VisionMaster入门到精通——Blob分折
  • 2 安装 Docker 和 Jenkins:持续构建环境起步
  • 第三章 用户和权限
  • 基于落霞归雁思维框架的软件需求管理实践指南
  • MyBatis与MySQL
  • 深入理解C++中的Lazy Evaluation:延迟计算的艺术
  • PostGIS面试题及详细答案120道之 (081-090 )
  • uniapp倒计时计算
  • 称重传感器的价格迷局:定制化与规模化的博弈之道
  • C++11 -- 智能指针
  • PHP面向对象编程与数据库操作完全指南-上
  • pve 删除集群
  • 优化算法专栏——阅读导引
  • 损失函数和调度器相关类代码回顾理解 |nn.CrossEntropyLoss\CosineAnnealingLR
  • 1 前言:什么是 CICD 为什么要学 CICD
  • Java试题-选择题(3)
  • (28)运动目标检测之随机曲线上的离散点进行插值
  • 利用CompletableFuture优化查询效率
  • Android Material Components 全面解析:打造现代化 Material Design 应用
  • Prim算法
  • javascript中call、apply 和 bind 的区别详解
  • 2025新征程杯全国54校园足球锦标赛在北京世园公园隆重开幕
  • qt贝塞尔曲线演示工具
  • Nestjs框架: 请求生命周期与应用生命周期
  • Java向量化
  • python列表推导式