当前位置: 首页 > ai >正文

Docker容器运行一段时间后GPU无法使用报错Failed to initialize NVML: Unknown Error

现象为使用GPU的容器(创建时加上了–gpus all)运行一段时间后,GPU就出现无法使用的问题。

原文见:https://ecloud.10086.cn/op-help-center/doc/article/79263
由于太难找到这个解决方案了,所以我抄录了一份。

解决方法:
1、首先查看显卡是否未开启持久模式。
宿主机运行nvidia-smi,比如下面的结果就是未开启持久模式,注意标题Persistence-M的内容往下看到双线段再往下看到Off文字。
在这里插入图片描述
2、编写服务启动脚本nvidia-persistenced.service内容如下:
[Unit]
Description=NVIDIA Persistence Daemon
Wants=syslog.target

[Service]
Type=forking
PIDFile=/var/run/nvidia-persistenced/nvidia-persistenced.pid
Restart=always
ExecStart=/usr/bin/nvidia-persistenced --persistence-mode --verbose
ExecStopPost=/bin/rm -rf /var/run/nvidia-persistenced

[Install]
WantedBy=multi-user.target

3、执行如下命令,将脚本拷贝并添加到服务中,并启动服务:
sudo cp nvidia-persistenced.service /etc/systemd/system/
sudo systemctl daemon-reload
sudo systemctl enable nvidia-persistenced.service
sudo systemctl start nvidia-persistenced.service
这里我遇到过如下错误:
Failed to enable unit: Unit file /etc/systemd/system/nvidia-persistenced.service is masked.
这是说被systemctl屏蔽了,执行如下命令解除屏蔽:
sudo systemctl unmask nvidia-persistenced
再执行:sudo systemctl disable nvidia-persistenced.service
再重新执行上述4行命令即可。

4、再次执行nvidia-smi,可以看到Persistence-M的内容为On了。
在这里插入图片描述
5、最好reboot,看看服务器重启后,显卡是否自动启用了持久模式。

http://www.xdnf.cn/news/12446.html

相关文章:

  • AFNetworking `setSecurityPolicy:` 方法源码解析及最佳实践
  • 以太网原理图设计和PCB设计deepseek
  • 三十三、面向对象底层逻辑-SpringMVC九大组件之HandlerExceptionResolver接口设计
  • 张量的理解
  • Python如何去除图片干扰
  • pp-ocrv5的关键改进PPHGNetV2_B4
  • java 异步
  • 2025-适用于Windows11Version 24H2的05累积更新,适合基于x64的系统(KB5058411) 安装错误-0x800f0831
  • 第四章 信息系统管理-4.1 管理方法
  • 正式上线!在 Sui 主网上使用 Nautilus 构建防篡改预言机
  • MCP是什么
  • STM32实战:数字音频播放器开发指南
  • DFT测试之TAP/SIB/TDR
  • 29.【新型数据架构】-边缘计算数据架构
  • Linux top 命令 的使用总结
  • Leetcode 1645. Hopper 公司查询 II
  • python字符串方法
  • NY118NY120美光固态闪存NY124NY129
  • 掌握子网划分:优化IP分配与管理
  • Java建造者模式(Builder Pattern)详解与实践
  • 【PhysUnits】16.1 完善Var 结构体及其运算(variable.rs)
  • Lrc歌词分析
  • 〈软件安装管家软件目录〉▷Windows系统版
  • JAVA理论-JAVA基础知识
  • 结构体和指针1
  • 一文学会《使用Auto CAD2020绘制Allegro PCB板框》
  • 配置URDF模型,调整模型中部件的形状/尺寸,以及在ROS2的Rviz2中进行可视化。
  • 智能化弱电工程项目管理培训
  • 【iSAQB软件架构】构建块、接口
  • 【python深度学习】Day 46 通道注意力(SE注意力)