当前位置: 首页 > ds >正文

模型训练速度慢排查

一、nvidia-smi

查看 GPU 的利用率与显存。若 GPU 利用率低或波动,说明 CPU 处理数据的速度跟不上 GPU 计算的速度,需要检查数据传输并调整 num_workers;若 GPU 显存充足,可以逐步增加 batch_size_per_card 直至显存占满(如 90%),避免浪费。

二、检查日志

avg_reader_cost: 7.05323 s, avg_batch_cost: 7.72311 s, avg_samples: 32.0, ips: 4.14341 samples/s, eta: 18:09:25, max_mem_reserved: 22226 MB, max_mem_allocated: 21161 MB

三、发现问题

L20-24Q 服务器的 avg_reader_cost 明显过长,检查后发现该服务器的磁盘虚拟化策略是 HDD,需要调整

http://www.xdnf.cn/news/16882.html

相关文章:

  • 蚂蚁财富招Java高级研发
  • C语言指针(三):数组传参本质、冒泡排序与二级指针详解
  • 熵感知金字塔生成理论(Entropy-Aware Pyramid Generation, EAPG)
  • 机器学习03——数据与算法初步2
  • vue 开发总结:从安装到第一个交互页面-与数据库API
  • 【普中STM32精灵开发攻略】--第 2 章 开发板功能及使用介绍
  • 渗透RCE
  • IACheck助力办公环境装修检测报告的合规性
  • docker运行时目录/var/lib/docker 学习
  • 1 - 视频处理IP核之Video In to AXI4-Stream
  • 汽车线束行业AI智能化MES解决方案:推动智能制造与质量升级
  • 编程语言Java——核心技术篇(六)解剖反射:性能的代价还是灵活性的福音?
  • JVM面试通关指南:内存区域、类加载器、双亲委派与GC算法全解析
  • kafka使用kraft
  • Java设计模式之《命令模式》
  • LeetCode 刷题【23. 合并 K 个升序链表】
  • MongoDB用户认证authSource
  • 17-C语言:第18天笔记
  • AI 类型的 IDE
  • Cesium 快速入门(六)实体类型介绍
  • 【运维基础】Linux 文件系统基本管理
  • 【Leetcode】2683. 相邻值的按位异或
  • 前缀和-1314.矩阵区域和-力扣(LeetCode)
  • C# 枚举器和迭代器(常见迭代器模式)
  • VBA代码解决方案第二十七讲:禁用EXCEL工作簿右上角的关闭按钮
  • ubuntu22.04系统入门 linux入门 简单命令基础复习 实现以及实践
  • 经典屏保问题 - 华为OD机试真题(Java 题解)
  • pytorch程序语句固定开销分析
  • dubbo源码之消费端启动的高性能优化方案
  • 28. 找出字符串中第一个匹配项的下标