当前位置：首页 > web >正文

Relooking：损失权重λ 、梯度权重α、学习率η

web 2025/7/19 12:40:57

一般多任务，大家都喜欢叠加很多损失，由此产生很多损失权重系数。此外，有的学者直接对梯度进行操作。咋一看，上面三个系数貌似重复多余，直接用其中一个系数代替不行吗？为此，回顾了下神经网络的前向传播和反向求导公式，感觉有点拉大旗作虎皮的意味。标题本来是“Rethinking”，想着会有一些新发现，但随后就改成了“Relooking”蒜鸟。

形式化

直观来说，损失权重 $λ$ 、梯度权重 $α$ 、学习率 $η$ 可以看做是三个标量系数，即trade-off parameter 或 weighting coefficient。
$\begin{aligned} L &=\lambda_1 L_1+\lambda_2 L_2\\ \nabla_\theta L &=\alpha_1 \nabla L_1+\alpha_2 \nabla L_2\\ \theta :&= \theta-\eta \cdot \nabla_\theta L \end{aligned}$

作用：

损失权重 $λ$ ：对相应任务的损失值进行缩放。 $λ$ 越大，表明该项贡献越大（越重要），则要放大其损失值，促使模型对该项的优化。反之，越小，则是该项损失趋近0，贡献被忽略。
梯度权重 $α$ ：在反向传播中，直接对梯度值进行缩放。
学习率 $η$ ：对所有梯度统一缩放，以控制模型参数的更新步长。 $η$ 越大，则模型参数的步长越大。

案例讲解

下面以一个神经网络的为例，从底层原理来看它们的作用。

1. 网络结构定义

考虑一个双层网络：

输入： $x$
参数： $W_1, b_1, W_2, b_2$
激活函数： $g(\cdot)$ (如ReLU)
输出层未激活

2. 前向传播

流程：Fc1 --> Activation --> Fc2。
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ z_1 &= W_1 x +…$

3. 多任务损失计算

为了方便展示损失任务的权重系数，这里假设两个损失函数。其中，主任务交叉熵损失，辅助任务均方误差损失。
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ L &= \lambda_1…$

4. 反向传播梯度计算

$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\partial…$

5. 参数更新

$W_1 \leftarrow W_1 - \eta \cdot \frac{\partial L}{\partial W_1}$

即：

$\Delta W_1 = -\eta \left[ \overbrace{\alpha_1}^{\text{梯度权重}} \left( \overbrace{\lambda_1}^{\text{损失权重}} \frac{\partial loss_1}{\partial W_1} \right) + \overbrace{\alpha_2}^{\text{梯度权重}} \left( \overbrace{\lambda_2}^{\text{损失权重}} \frac{\partial loss_2}{\partial W_1} \right) \right]$