当前位置: 首页 > ops >正文

ubuntu 系统风扇控制软件 CoolerControl

背景

A6000显卡的温度一直都是86度左右,GPU的风扇转速不够大。
我首先把 nvidia的驱动更新了,但是发现风扇依然依然保持在较低的转速。
后面无意间搜到了CoolerControl 这个linux平台的风扇控制软件。设置之后,增加了风扇的转速,现在可以把GPU的温度控制在80度以下。

具体操作

参考教程:https://cn.linux-terminal.com/?p=8335

支持风扇固定转速与按照曲线设置转速。

下述图片是按照这个曲线控制风扇的转速,达到不同的温度,风扇保持不同的转速。不仅可以控制CPU的风扇还可以控制GPU的风扇。

CoolerControl 视频教程:https://www.bilibili.com/video/BV1oF9yYFEvc/
我发现B站和youtube关于CoolerControl软件的教程,其中主要也就是设置下面的曲线。

在这里插入图片描述

题外话

A6000显卡温度在85度以上,我早就注意到了,不想折腾,一直都懒得管。我发现在训练模型的时候,windows把GPU的温度压的比较好,一直都70度以下。Windows训练大模型不方便,还是得使用 linux 训练大模型。

我很多次使用 llamafactory 微调大模型的时候,模型训练一半linux系统就崩溃了,必须得按关机键重启。
首先,我便怀疑是不是显卡温度过高触发了硬件的保护机制,导致系统崩溃。后面我发现把GPU的温度压下来后,训练大模型依然会崩溃。
因为nvidia的驱动已经更新过了,不是驱动的问题。于是我把python环境从3.11升级到3.12,再把 llamafactory 的包重新安装了一遍,在装包的过程中,我发现安装了很多与nvidia相关的包。然后再训练大模型就不崩溃了。

http://www.xdnf.cn/news/16810.html

相关文章:

  • AI驱动SEO关键词智能进化
  • Ubuntu18网络连接不上也ping不通网络配置问题排查与解决方法
  • Python 第一阶段测试题 答案及解析
  • 【正点原子K210连载】第二十四章 按键输入实验 摘自【正点原子】DNK210使用指南-CanMV版指南
  • Linux iptables防火墙操作
  • SQL 四大语言分类详解:DDL、DML、DCL、DQL
  • 【Go语言-Day 29】从time.Now()到Ticker:Go语言time包实战指南
  • C#开发入门指南_学习笔记
  • 【DL学习笔记】DL入门指南
  • 从数据丢失到动画流畅:React状态同步与远程数据加载全解析
  • 谈谈WebAssembly、PWA、Web Workers的作用和场景
  • 记一次Windwos非常离谱的系统错误,IPF错误,程序构建卡顿,程序启动卡顿。。。
  • 携程PMO资深经理、携程技术委员会人工智能委员会秘书陈强受邀为PMO大会主持人
  • ai项目多智能体
  • 【0基础PS】PS工具详解--仿制图章工具
  • 如何最简单、通俗地理解线性回归算法? 线性回归模型在非线性数据上拟合效果不佳,如何在保持模型简单性的同时改进拟合能力?
  • 详解K8s集群搭建:从环境准备到成功运行
  • 《文明5》错误代码0xc0000142修复方法
  • JavaWeb--Student2025项目:增删改查
  • MySQL——视图
  • 工程化(二):为什么你的下一个项目应该使用Monorepo?(pnpm / Lerna实战)
  • LeetCode 刷题【24. 两两交换链表中的节点、25. K 个一组翻转链表】
  • 特征工程 --- 特征提取
  • 嵌入式——C语言:俄罗斯方块
  • Spring Boot Actuator 保姆级教程
  • 【数据结构】-----排序的艺术画卷
  • Linux9 root密码修改
  • EXE加密软件(EXE一机一码加密大师) 最新版1.6.0更新 (附2025最新版本CSDN下载地址)
  • 日志归档存储策略在海外云服务器环境的容量规划方法
  • java的冒泡排序算法