当前位置: 首页 > news >正文

机器学习-06(Optimization-自动调整学习率)

临界点其实不一定是在训练神经网络过程中遇到的最大阻碍。

随着对参数的不断更新,Loss值会不断下降,直至几乎没有变化,不再下降。当参数更新到临界点时,意味着gradient非常小,所以要认定参数是否到达临界点应当确认gradient值是否很小。当Loss不再下降时,且gradient没有很小,则说明此时参数并未到达临界点。

训练停滞\neq小的梯度

Loss几乎不再变化,但gradient却还在变化,可以发生了锯齿现象。

梯度下降法的锯齿现象是指在优化过程中参数更新呈现来回震荡的趋势,导致迭代路径形成类似锯齿的形状。这种现象通常发生在目标函数具有高频振荡特性或学习率设置过高时,参数更新可能超过最优解并反复震荡。 ‌

学习率也可以理解为步长,如果太大会产生震荡的效果,但是如果太小则很难靠近真正的Loss值最小的点。 

学习率应当为每一个参数量身定做。

如果在某一个方向上变化十分平坦(坡度很小),则我们希望学习率可以变大一些,如果在某一个方向上非常陡峭(坡度很大),我们希望学习率可以变小一些。

原先的式子:

可以自动调整学习率的式子:

i表示第i个参数(某一个参数),t代表的是参数的迭代次数,\eta是学习率。

Root Mean Square

当在一条坡度较小的曲线上时,算出的均方根较小所以学习率(红框)就大,步伐大;反之在一条坡度较大的曲线上时,算出的出的均方根较小所以学习率(红框)就小,步伐小。

以上所考虑的是同一个参数,其梯度的大小(变化率)是固定差不多的值。

RMSProp

但是实际上,情况会十分复杂,就算是同一个参数、同一个方向,也想要学习率可以动态调整。

第一步,与均方根的方法相同。第二步 ,均方根中每一个gradient都有同等的重要性,但在RMSProp中,可以自己调整现在的这个gradient的权重。

学习率调整机制(Learning Rate Scheduling)

为防止出现大幅波动的情况,引入学习率调整机制。

此时的\eta与时间有关。

Learning Rate Decay

随着时间的不断进行,随着参数不断的更新,\eta让其越来越小,因为一开始距离终点很远,随着参数的不断更新,距离终点你越来越近,所以把学习率减小,让参数的更新慢下来。

Warm Up 

Warm Up的思想是让\eta先变大再变小。

总结

Momentum和\sigma都是考虑到过去所以的gradient,它们会不会相互抵消呢,其实他们在使用过去所有gradient的方式不同。Momentum是直接将所有的gradient通通加起来,所有它有考虑方向,也有考虑gradient的正负号。但是均方根就不考虑gradient方向了,它只考虑的是gradient的大小。所有它们不会互相抵消掉。

http://www.xdnf.cn/news/1102987.html

相关文章:

  • FS820R08A6P2LB——英飞凌高性能IGBT模块,驱动高效能源未来!
  • 线程通信与进程通信的区别笔记
  • Java教程:JavaWeb ---MySQL高级
  • 从语音识别到智能助手:Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记
  • Matlab裁剪降水数据:1km掩膜制作实战
  • 从Markdown到PPT:用Python打造专业演示文稿转换器
  • axios 与 fetch 的区别
  • Android 开发中插桩
  • 微服务引擎 MSE 及云原生 API 网关 2025 年 6 月产品动态
  • Java 方法重载与类的构造器(一)
  • PDXP、UDP与HDLC协议技术解析:架构、应用与对比研究
  • NodeJs后端常用三方库汇总
  • UDP服务器的优缺点都包含哪些?
  • 森马服饰从 Elasticsearch 到阿里云 SelectDB 的架构演进之路
  • 静态路由综合配置实验报告
  • 政安晨【零基础玩转开源AI项目】ACE-Step —— 迈向音乐生成基础模型的重要一步:AI自动谱曲与自动演唱的免费开源框架部署实践
  • 林吉特危机下的技术革命:马来西亚金融系统升维作战手册
  • 2025人形机器动作捕捉技术研讨会于7月31日在京开启
  • 进制转换小题
  • 编码技术: PRBS, 8B/10B
  • 无锁队列:从零构建生产者-消费者数据结构
  • 数据结构 之 【链式二叉树】(C语言实现二叉树的前序中序后序层序遍历,节点个数、树的高度、第K层的节点个数、查找、完全二叉树的判别、销毁创建二叉树)
  • Redis5.0.5 漏洞
  • uni-app获取手机当前连接的WIFI名称
  • GIC控制器 (三)
  • 飞算JavaAI进阶:重塑Java开发范式的AI革命
  • 语音对话秒译 + 视频悬浮字 + 相机即拍即译:ViiTor 如何破局跨语言场景?
  • 上位机知识篇---Docker
  • SpringCloud之Ribbon
  • 从延迟测试误区谈起:SmartPlayer为何更注重真实可控的低延迟?