当前位置: 首页 > news >正文

论文略读:Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling

2024 Neurips

1 结论

  • 使用 SGD 风格的优化器时,最佳学习率为:
  • 使用 SGD 风格的优化器时,最佳学习率为
  • ε_max,最大学习率
    • 模型在训练过程中,仍能保持稳定收敛而不会发散的最大学习率值
    • 通常是指在小 batch size 下实验测出来的最大学习率
    • 也可以理解为最优学习率的上限值
  • B_noise
    • 模型在该 batch size 下,训练稳定性发生显著变化的临界点
    • B ≪ B_noise 时,增大 batch size 会显著降低梯度噪声,训练稳定性和效率会显著提升
    • B ≫ B_noise 时,梯度噪声已经很小了,再增大 batch size 其实不会带来显著提升,而是资源浪费
  • ε_maxB_noise一般都是通过实验测出来的

2 延申结论

  • 学习率不应盲目线性放大,需遵循噪声主导 scaling 规律
    • 对于 SGD 风格优化器
      • 小 batch 时梯度噪声大,最大学习率必须小
      • 当 B≫Bnoise 时,学习率逐渐逼近 ϵmax,也就是说你不能无限增大学习率
      • 但是<Bnoise时,近似于“batch size ×10,学习率 ×10”
      • 这是对之前“batch size ×10,学习率 ×10”的 naive scaling 法则的修正
    • 对于 Adam 风格优化器
      • 是一个更平滑的双向平衡形式;

      • 当 B=Bnoise时,分母最小,得到最大有效学习率

  • 存在最优 batch size,即 Bnoise

    • 无论是哪个优化器,batch size 太小或太大都不是最优的
    • 最优学习率和训练效率在 B≈Bnoise时达到最优;
    • 超过这个点时,直接线性放大学习率可能会不稳定或低效;

http://www.xdnf.cn/news/724195.html

相关文章:

  • 实验分享|基于sCMOS相机科学成像技术的耐高温航空涂层材料损伤检测实验
  • 相机--RGB相机
  • 大厂前端研发岗位PWA面试题及解析
  • 【仿生机器人软件架构】通过整合认知系统实现自主精神性——认知系统非常具有可执行性
  • 同元软控、核动力研究院与华北电力大学产学研联合实训室正式揭牌
  • 设备远程调试新利器:御控网关开启PLC高效运维新时代
  • 【JavaWeb】Maven、Servlet、cookie/session
  • Hive的GROUP BY操作如何优化?
  • 每个路由器接口,都必须分配所属网络内的 IP 地址,用于转发数据包
  • 历年四川大学计算机保研上机真题
  • 【动手学深度学习】2.5. 自动微分
  • VUE中created() 和 mounted()俩种生命周期钩子函数的区别
  • 【Doris基础】Doris中的Tablet详解:核心存储单元的设计与实现
  • Warm-Flow发布1.7.3 端午节(设计器流和流程图大升级)
  • [FreeRTOS- 野火] - - - 临界段
  • docker环境添加安装包持久性更新
  • plotbunni开源程序是具有 AI 辅助的 FOSS 小说写作套件
  • npm、pnpm、yarn使用以及区别
  • 使用Haproxy搭建web群集
  • ONLYOFFICE文档API:更强的安全功能
  • USB Network Gate的中国挑战者:软硬协同USB Server
  • Docker 笔记 -- 借助AI工具强势辅助
  • 【Android】如何抓取 Android 设备的 UDP/TCP 数据包?
  • ass字幕嵌入mp4带偏移
  • ubuntu系统安装Pyside6报错解决
  • Flask与PostgreSQL交互教程
  • K8s工作流程与YAML实用指南
  • 企业信息化集成方案:聚水潭·奇门数据对接金蝶云星空
  • 历年中国科学技术大学计算机保研上机真题
  • 无人机桥梁3D建模、巡检、检测的航线规划