当前位置：首页 > ai >正文

大模型算法面试笔记——常用优化器SGD，Momentum，Adagrad，RMSProp，Adam

ai 2025/7/28 6:16:08

常用参数： $t$ -步数， $α\alpha$ -学习率， $θ\theta$ -参数， $f(θ)f(\theta)$ -目标函数， $g_t$ -梯度， $β1\beta_1$ -一阶矩衰减系数，通常取0.9， $β2\beta_2$ -二阶矩， $m_t$ -均值， $v_t$ -方差， $m^t\hat{m}_t$ - $m_t$ 偏置矫正， $v^t\hat{v}_t$ - $v_t$ 偏置矫正。

梯度下降（BGD）：最简单的迭代求解算法，选取开始点 $θ0\theta_0$ ，对 $t = 1, ..., T$ ， $θt=θt−1−ηgt−1\theta_t=\theta_{t-1}-\eta g_{t-1}$ ，其中 $η\eta$ 是学习率。
随机梯度下降（SGD）：由于有 $n$ 个样本时，为了减少计算量，所以SGD在时间 $t$ 随机选取一个样本 $t_i$ 来近似 $f (x)$ ，SGD的下降方向是对真实梯度方向的无偏估计。
批量梯度下降（MBGD）：为了充分利用GPU多核，计算批量的梯度，也是一个无偏的近似，但降低了方差。
动量法（Momentum）：为增加收敛的稳定性，并缓解陷入局部最优，动量法使用平滑过的梯度对权重更新： $θt=θt−1−ηvt\theta_t=\theta_{t-1}-\eta v_t$ ，它用一个动量 $v_t$ 累加了过去的梯度，其中 $g_t$ 为当前梯度：
$vt=βvt−1+(1−β)⋅gtv_t=\beta v_{t-1}+(1-\beta)·g_t$
Adagrad：对于不同的参数，有时需要更新的幅度相差较大，此时不同参数就需要不同的学习率，Adagrad采用的方法是，将历史梯度的平方和累加起来，为学习率添加一个分母项 $Gt+ϵ\sqrt{G_t+\epsilon}$ ，其中 $G_t = G_{t-1}+g_t^2$ ，因此，参数更新公式就变成：
$θt=θt−1−ηGt+ϵ⋅gt\theta_t=\theta_{t-1}-\frac{\eta}{\sqrt{G_t+\epsilon}}·g_t$
如此可见，对于梯度一直很大的参数，其对应的学习率就会变小，而如果参数的梯度很大，学习率相对就更大一点，实现了一定程度上的自动调整。此方法比较适合处理悉数数据，因为稀疏特征的参数更新少，学习率会较大，实现更快收敛，而缺点是累积梯度会随时间增大，导致学习率越来越小甚至接近0，可能导致后期收敛太慢。
RMSProp：和Adagrad类似，对累积平方梯度上做改进： $Gt=λGt−1+(1−λ)⋅gt2G_t=\lambda G_{t-1}+(1-\lambda)·g_t^2$ ，参数更新公式相同。
Adam：结合了动量法和Adagrad，动态调整每个参数的学习率，同时利用梯度的一阶矩（动量）和二阶矩（自适应学习率，也可以理解为转动惯量）加速收敛。具体分为四步：
计算梯度的一阶距估计：
$mt=β1⋅mt−1+(1−β1)⋅gtm_t=\beta_1·m_{t-1}+(1-\beta_1)·g_t$
计算梯度的二阶矩估计：
$vt=β2⋅vt−1+(1−β2)⋅gt2v_t=\beta_2·v_{t-1}+(1-\beta_2)·g_t^2$
这样设计的原因是，展开式中，当t为无穷大时，历史梯度项权重系数和为1，此为数学依据：
$mt=(1−β1)(gt+β1gt−1+β12gt−2+β13gt−3+...)m_t=(1-\beta_1)(g_t+\beta_1g_{t-1}+\beta_1^2g_{t-2}+\beta_1^3g_{t-3}+...)$
$∑i=0∞β1i=11−β1\sum_{i=0}^{\infin}\beta^i_1=\frac{1}{1-\beta_1}$
由于初始项受初始值为0的影响较大，所以进行偏差修正，同理，这样设计的原因是有限项等比数列和公式 $∑i=0tβ1i=1−β1t1−β1\sum_{i=0}^{t}\beta^i_1=\frac{1-\beta_1^t}{1-\beta_1}$ ：
$mt^=mt1−β1t,vt^=vt1−β2t\hat{m_t}=\frac{m_t}{1-\beta_1^t},\hat{v_t}=\frac{v_t}{1-\beta_2^t}$ 例如，当 $t = 1$ 时： $m^1=m11−β11=(1−β1)g11−β1=g1\hat{m}_1=\frac{m_1}{1-\beta_1^1}=\frac{(1-\beta_1)g_1}{1-\beta_1}=g_1$
最后进行参数更新：
$θ=θt−1−ηv^t+ϵ⋅m^t\theta=\theta_{t-1}-\frac{\eta}{\sqrt{\hat{v}_t}+\epsilon}·\hat{m}_t$ 最后贴一个论文原文算法部分：