当前位置：首页 > news >正文

通用优势估计函数（GAE，Generalized Advantage Estimation）详解

news 2025/6/4 18:37:52

强化学习中用于估计优势函数的核心技术，由Schulman等人于2016年提出。核心作用是在强化学习中，用单一可调参数（λ）平衡偏差与方差，为策略梯度算法（如PPO、TRPO、A2C）提供稳定、高效的优势函数估计。

一核心概念

1.1优势函数

$A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$

表示在状态 $s_t$ 选择动作 $a_t$ 比平均策略好多少

$Q$ ：动作价值函数（期望累计奖励）

$V$ ：状态价值函数（期望累计奖励的均值）

1.2策略梯度定理

原始策略梯度可表示为：

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q(s_t, a_t) \right]$

直接使用 Q 值会导致：

（1）高方差：Q 值波动大（受后续状态影响）

（2）基准缺失：无法判断动作的相对好坏

策略梯度更新依赖优势函数：

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot A(s_t, a_t) \right]$

$\nabla_\theta \log \pi_\theta(a_t|s_t)$ 是一个策略梯度向量，描述了改变动作概率的方向。该向量指向参数空间中最大化动作 $a_t$ 在状态 $s_t$ 下出现概率的方向。

准确估计 A 对算法收敛至关重要。

二优势估计

2.1 TD残差（单步优势）

$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$

符号	含义	数学性质
$r_t$	即时奖励	环境直接反馈的标量值
$\gamma$	折扣因子	$\gamma \in [0,1]$ ，通常取0.99
$V(s_{t+1})$	下一状态价值	状态价值函数的估计值
$V(s_t)$	当前状态价值	基线（baseline）
$\delta_t$	TD残差	优势函数的无偏估计

是优势函数的无偏估计，但是拥有高方差。

2.2蒙特卡洛估计（多步）

$\delta_t^{(k)} = \sum_{l=0}^{k-1} \gamma^l r_{t+l} + \gamma^k V(s_{t+k}) - V(s_t)$
当 k=1 时 → 单步TD残差

当 k→∞ 时 → 蒙特卡洛回报

估计更准确但高偏差（依赖 V 的准确性）。

通过调节k值可在TD估计（低方差高偏差）和MC估计（高方差低偏差）间连续过渡

三 GAE原理

GAE通过指数加权平均结合不同步数的优势估计：

参数：

$\gamma$ ：折扣因子（平衡未来奖励重要性，接近1时考虑长期回报）

$\lambda$ ：权衡因子（控制偏差与方差， $\lambda \in [0,1]$ ，增加可减小方差但增大偏差）

公式推导：

定义 k 步优势估计：

$A_t^{(k)} = \delta_t + \gamma \lambda \delta_{t+1} + \cdots + (\gamma \lambda)^{k-1} \delta_{t+k-1}$

当 $k \to \infty$ 时，GAE的闭合形式：

$A_t^{\text{GAE}} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}$

实际计算截断到轨迹终点。

四 GAE的解析解

GAE的解析解 是强化学习中一项关键的技术创新，它通过数学推导将多步优势函数的加权和转化为一种可高效并行计算的封闭形式。它的核心价值在于解决了传统实现中的计算效率问题。

4.1递归计算：

$A_t^{\text{GAE}} = \delta_t + \gamma \lambda A_{t+1}^{\text{GAE}}$

因依赖未来时刻，需从后往前计算。

4.2矩阵形式：

$\mathbf{A}^{\text{GAE}} = (\mathbf{I} - \gamma \lambda \mathbf{P})^{-1} \mathbf{\delta}$

其中 P 为状态转移矩阵。

$\lambda$ 取值	估计特性	特点
$\lambda = 0$	$A_t^{\text{GAE}} = \delta_t$	低偏差，高方差（TD学习）
$\lambda = 1$	$A_t^{\text{GAE}} = \sum_{l=0}^\infty \gamma^l \delta_{t+l}$	等价蒙特卡洛，高偏差低方差

参数选择：

$\lambda \approx 0.95$ ：PPO等算法的常用值

$\gamma \approx 0.99$ ：标准折扣因子

def compute_gae(rewards, values, dones, gamma=0.99, lambda_=0.95):"""rewards: 各时刻奖励 [r0, r1, ..., r_{T-1}]values: 各时刻状态价值 [V(s0), V(s1), ..., V(sT)]dones: 各时刻是否终止 [d0, d1, ..., d_{T-1}]"""T = len(rewards)deltas = np.zeros(T)advantages = np.zeros(T)# 计算TD残差 δ_tfor t in range(T):if dones[t]:  # 终止状态无下一步next_value = 0else:next_value = values[t+1]deltas[t] = rewards[t] + gamma * next_value - values[t]# 从后往前计算GAEgae = 0for t in reversed(range(T)):if dones[t]:  # 终止状态后无未来优势gae = deltas[t]else:gae = deltas[t] + gamma * lambda_ * gaeadvantages[t] = gaereturn advantages

五总结

通过 $\lambda$ 平滑融合不同步长估计，在偏差与方差间取得平衡，可应用于PPO、TRPO、ACER等策略优化算法。计算效率高，递归实现复杂度 $O(T)$ ，适用于长轨迹。

GAE的四大核心价值：

偏差-方差权衡	通过λ参数在MC的无偏性（高方差）和TD的稳定性（高偏差）间实现平滑插值。
信用分配优化	将延迟奖励高效回溯到早期动作，解决长时序依赖问题。
训练稳定性	显著降低策略梯度方差，避免策略更新崩溃，加速收敛。
算法通用性	成为PPO/TRPO/A2C等主流算法的核心组件，适用离散/连续/稀疏奖励环境。