当前位置：首页 > news >正文

状态值函数与状态-动作值函数

news 2025/7/4 19:03:04

在强化学习中，状态值函数（State Value Function，记为 $V (s)$ 和状态-动作值函数（State-Action Value Function，记为 $Q (s, a)$ ）是两个核心概念，它们的区别主要体现在定义、用途和数学表达上：

状态值函数 $V (s)$
表示在状态 $s$ 下，遵循某个策略 $\pi$ 后能获得的长期期望回报（即从当前状态开始的累积奖励）。
关键：它评价的是某个状态本身的价值，与具体动作无关，但依赖策略 $\pi$ 。
状态-动作值函数 $Q (s, a)$
表示在状态 $s$ 下，先执行动作 $a$ ，之后遵循策略 $\pi$ 能获得的长期期望回报。
关键：它评价的是在某个状态下执行某个特定动作的价值，既依赖策略 $\pi$ ，也显式关联动作 $a$ 。

$V (s)$ 的贝尔曼方程：
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right]$
其中 $\pi(a|s)$ 是策略的概率分布， $\gamma$ 是折扣因子。
$Q (s, a)$ 的贝尔曼方程：
$Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right]$
它直接关联动作 $a$ ，后续状态的动作选择仍依赖策略 $\pi$ 。

两者通过贝尔曼方程关联：
$V^\pi(s) = \sum_{a} \pi(a|s) Q^\pi(s, a)$
即状态值函数是状态-动作值函数在动作空间上的加权平均（权重由策略 $\pi$ 决定）。

公式：
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right]$

外层求和 $\sum_{a} \pi(a|s)$
- 含义：对当前状态 $s$ 下所有可能的动作 $a$ 进行加权平均，权重是策略 $\pi$ 选择动作 $a$ 的概率 $p i (a ∣ s)$ 。
- 直观理解：策略 $\pi$ 可能以不同概率选择动作（例如，80%向左，20%向右），外层求和体现了策略的“平均行为”。
内层求和 $\sum_{s', r} p(s', r | s, a)$
- 含义：对执行动作 $a$ 后可能转移到的下一状态 $s^{'}$ 和获得的即时奖励 $r$ ，按环境动态 $p (s^{'}, r ∣ s, a)$ 的概率加权求和。
- 直观理解：环境是随机的，执行动作 ( a ) 后可能进入不同状态（例如，成功移动的概率是90%，失败的概率是10%），内层求和体现了环境的“不确定性”。
核心项 $\gamma V^\pi(s')$
- 含义：即时奖励 $r$ 加上下一状态 $s^{'}$ 的长期折扣价值 $\gamma V^\pi(s')$ 。
- 直观理解：当前动作不仅带来即时奖励 ( r )，还会影响未来状态的价值，但未来的价值要打折扣 $\gamma$ （例如，γ=0.9表示未来奖励的价值是当前的90%）。
整合公式：
- $V^\pi(s)$ 是策略 $\pi$ 下状态 $s$ 的期望长期回报，计算分两步：
  1. 按策略选择动作的平均（外层求和）；
  2. 按环境动态转移状态的平均（内层求和）。

公式：
$Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right]$

外层求和 $\sum_{s', r} p(s', r | s, a)$
- 含义：对执行动作 $a$ 后可能转移到的状态 $s$ 和奖励 $r$ ，按环境动态 $p (s^{'}, r ∣ s, a)$ 加权求和。
- 直观理解：和 $V (s)$ 的内层求和相同，体现环境的不确定性。
核心项 $\gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a')$
- 含义：
  - 即时奖励 $r$ ，加上下一状态 $s^{'}$ 的长期折扣价值 $\gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a')$ 。
  - 其中 $\sum_{a'} \pi(a'|s') Q^\pi(s', a')$ 是下一状态 $s^{'}$ 的状态值 $V^\pi(s')$ ，即 $V^\pi(s') = \sum_{a'} \pi(a'|s') Q^\pi(s', a')$ 。
- 直观理解：
  - 当前动作 $a$ 的长期价值 = 即时奖励 + 未来状态的期望价值（但未来价值的计算又回到了策略 $\pi$ 的选择）。
整合公式：
- $Q^\pi(s, a)$ 表示在状态 $s$ 执行动作 $a$ 后，继续遵循策略 $\pi$ 的期望长期回报。
- 关键区别：
  - $Q (s, a)$ 显式固定了第一步动作 $a$ ，而后续动作仍由策略 $\pi$ 决定。