当前位置：首页 > news >正文

深度学习训练之optimizer优化器（BGD、SGD、MBGD、SGDM、NAG、AdaGrad、AdaDelta、Adam）的最全系统详解

news 2025/6/6 9:28:12

文章目录

- - 1、BGD（批量梯度下降）
  - 2、SGD（随机梯度下降）
  - - 2.1、SGD导致的Zigzag现象
  - 3、MBGD（小批量梯度下降）
  - - 3.1 BGD、SGD、MBGD的比较
  - 4、SGDM
  - 5、NAG
  - 6、AdaGrad（Adaptive Gradient）
  - 7、AdaDelta/RMSProp
  - 8、Adam（Adaptive Moments Estimation）
  - 9、总结

1、BGD（批量梯度下降）

定义：批量梯度下降法（Batch Gradient Descent，BGD）是最原始的形式，它是指在每一次
迭代时使用所有样本来进行梯度的更新。
优点：一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。
缺点：当样本数目 m 很大时，每迭代一步都需要对所有样本计算，训练过程会很慢。

在这里插入图片描述

2、SGD（随机梯度下降）

定义：一次只对一个样本进行梯度下降，进行参数更新；
优点：由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快；
缺点：准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛；可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势；不易于并行实现；

2.1、SGD导致的Zigzag现象

由于是随机梯度下降，下图左上角的同心圆是单样本的loss等值线图，右下角也是和左上角一样都是单样本的等值线图，可以看到如果是SGD的话，梯度下降的方向会出现不稳定，不能线性收敛，即Zigzag现象。

在这里插入图片描述

3、MBGD（小批量梯度下降）

定义：小批量梯度下降（Mini-Batch Gradient Descent, MBGD）是对批量梯度下降以及随
机梯度下降的一个折中办法。其思想是：每次迭代使用指定个（batch_size）样本来对
参数进行更新。
优点：通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。
缺点：batch_size的不当选择可能会带来一些问题。

3.1 BGD、SGD、MBGD的比较

在这里插入图片描述

4、SGDM

全称是： Stochastic Gradient Descent with Momentum，动量随机梯度下降。

为什么提出？

因为使用SGD容易出现Zigzag现象，为了避免出现Zigzag现象，所以有了SGDM方法。

过程：
函数： $f(\omega_t)$
$\omega_{t+1}=\omega_{t}-\eta_t$
$\eta_t=\alpha \cdot m_t$ ，其中 $\alpha$ 是学习率
$m_t=\beta_1\cdot m_{t-1}+(1-\beta_1)\cdot g_t$
其中：
$\beta_1$ 是动量参数， $m_t$ 是累计梯度， $g_t$ 是当前梯度
$g_t=\nabla f(\omega_t)$