当前位置: 首页 > news >正文

深度学习训练之optimizer优化器(BGD、SGD、MBGD、SGDM、NAG、AdaGrad、AdaDelta、Adam)的最全系统详解

文章目录

      • 1、BGD(批量梯度下降)
      • 2、SGD(随机梯度下降)
        • 2.1、SGD导致的Zigzag现象
      • 3、MBGD(小批量梯度下降)
        • 3.1 BGD、SGD、MBGD的比较
      • 4、SGDM
      • 5、NAG
      • 6、AdaGrad(Adaptive Gradient)
      • 7、AdaDelta/RMSProp
      • 8、Adam(Adaptive Moments Estimation)
      • 9、总结

1、BGD(批量梯度下降)

定义:批量梯度下降法(Batch Gradient Descent,BGD)是最原始的形式,它是指在每一次
迭代时使用所有样本来进行梯度的更新。
优点:一次迭代是对所有样本进行计算,此时利用矩阵进行操作,实现了并行。由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD一定能够得到全局最优。
缺点:当样本数目 m 很大时,每迭代一步都需要对所有样本计算,训练过程会很慢。

在这里插入图片描述

2、SGD(随机梯度下降)

定义:一次只对一个样本进行梯度下降,进行参数更新;
优点:由于不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快;
缺点:准确度下降。由于即使在目标函数为强凸函数的情况下,SGD仍旧无法做到线性收敛;可能会收敛到局部最优,由于单个样本并不能代表全体样本的趋势;不易于并行实现;

2.1、SGD导致的Zigzag现象

由于是随机梯度下降,下图左上角的同心圆是单样本的loss等值线图,右下角也是和左上角一样都是单样本的等值线图,可以看到如果是SGD的话,梯度下降的方向会出现不稳定,不能线性收敛,即Zigzag现象。

在这里插入图片描述

3、MBGD(小批量梯度下降)

定义:小批量梯度下降(Mini-Batch Gradient Descent, MBGD)是对批量梯度下降以及随
机梯度下降的一个折中办法。其思想是:每次迭代 使用指定个(batch_size)样本来对
参数进行更新。
优点:通过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多。每次使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降的效果。
缺点:batch_size的不当选择可能会带来一些问题。

3.1 BGD、SGD、MBGD的比较

在这里插入图片描述

4、SGDM

全称是: Stochastic Gradient Descent with Momentum,动量随机梯度下降。

为什么提出?

因为使用SGD容易出现Zigzag现象,为了避免出现Zigzag现象,所以有了SGDM方法。

过程:
函数: f ( ω t ) f(\omega_t) f(ωt)
ω t + 1 = ω t − η t \omega_{t+1}=\omega_{t}-\eta_t ωt+1=ωtηt
η t = α ⋅ m t \eta_t=\alpha \cdot m_t ηt=αmt,其中 α \alpha α是学习率
m t = β 1 ⋅ m t − 1 + ( 1 − β 1 ) ⋅ g t m_t=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t mt=β1mt1+(1β1)gt
其中:
β 1 \beta_1 β1是动量参数, m t m_t mt是累计梯度, g t g_t gt是当前梯度
g t = ∇ f ( ω t ) g_t=\nabla f(\omega_t) gt=f(ωt)

先对 m t m_t mt的前三项进行展开,
在这里插入图片描述
每一项的 m t m_t mt都包含前面的所有的 g i g_i gi,使梯度下降的方向的趋于BGD的方向,从而也趋近于我们优化的方向。
下面是关于SGDM为什么是趋近于BGD优化方向的图解,希望能看得懂,
在这里插入图片描述

5、NAG

全称为:Nesterov Accelerated Gradient (SGD with Nesterov Acceleration)

这个方法用的比较少,我也没有看懂,就贴一下这个方法的过程吧;

在这里插入图片描述

6、AdaGrad(Adaptive Gradient)

定义:自适应梯度下降,每次梯度下降时会除以前面梯度计算总和的平方再开方;每个参数都有自己独有的学习率
优点:避免前期梯度下降的梯度爆炸和弥散;
缺点:后期有可能会停止训练

V t = ∑ τ = 1 t g τ 2 V_t=\sum_{\tau=1}^{t}g_\tau^2 Vt=τ=1tgτ2

η t = α ⋅ g t / V t \eta_t=\alpha\cdot g_t / \sqrt{V_t} ηt=αgt/Vt

ω t + 1 = ω t − η t \omega_{t+1}=\omega_t-\eta_t ωt+1=ωtηt

在这里插入图片描述

7、AdaDelta/RMSProp

全称:Root Mean Square Propogation / Adaptive Delta
目的:解决AdaGrad过早收敛的问题;

在这里插入图片描述

8、Adam(Adaptive Moments Estimation)

结合了SGDM和AdaDelta

在这里插入图片描述


在这里插入图片描述

9、总结

在这里插入图片描述

参考:
1、哔站视频

http://www.xdnf.cn/news/830755.html

相关文章:

  • 原生 js 实现轮播图
  • Activity的任务栈Task以及启动模式与Intent的Flag详解(经典博文,值得收藏!)(1)
  • Linux执行文件为什么出现no such file啊
  • 想将有色彩的视频进行去色处理就这样做
  • spss modeler出现使用错误提…
  • 哈希算法(哈希函数)基本
  • 简单vlan配置
  • CSS clearfix 清除浮动 用法详解
  • [CTF夺旗赛] BUUCTF N1BOOK 第二章 web进阶
  • Talos实验室深入我国DDoS黑市DuTe 揭露各种DDoS团伙、平台、工具及攻击
  • 传说中的神器--磁力链接
  • 因特网上的英语学习资源 [转自 www.chinadaily.com.cn]
  • 【RAR技巧】rar压缩包如何进行加密、解密?
  • Fastjson漏洞
  • 【RDMA】3. RDMA基本元素和编程基础
  • Linux系统之安装java开发环境
  • 3DFX
  • 程序员:推荐六个国外高质量的技术网站,大神必备!
  • STM32-Flash做为存储器储存数据
  • [转载]Eziriz .NET Reactor 4.7.0.0 官方原版+破解补丁(强大的代码保护和软件防盗版工具)...
  • 最大同性恋交友网站 github 被微软收购,我不服!
  • SWOT分析模型
  • 9篇前沿文章 | 一览肿瘤基因组及多组学思路
  • C基础学习(认真看就能学会C语言)
  • 【分布式事务----LCN】LCN原理及使用方式
  • IPMSG(飞鸽传书)协议翻译
  • ipvsadm命令详解
  • Canvas学习:绘制箭头
  • 初识EMC元器件(九)——气体放电管的参数解读及选型应用
  • 【2024版】最新6款漏洞扫描工具来了!(附下载)看完这一篇就够了