状态值函数与状态-动作值函数
在强化学习中,状态值函数(State Value Function,记为 V ( s ) V(s) V(s)和状态-动作值函数(State-Action Value Function,记为 Q ( s , a ) Q(s, a) Q(s,a))是两个核心概念,它们的区别主要体现在定义、用途和数学表达上:
1. 定义与核心思想
-
状态值函数 V ( s ) V(s) V(s)
表示在状态 s s s 下,遵循某个策略 π \pi π 后能获得的长期期望回报(即从当前状态开始的累积奖励)。
关键:它评价的是某个状态本身的价值,与具体动作无关
,但依赖策略 π \pi π。 -
状态-动作值函数 Q ( s , a ) Q(s, a) Q(s,a)
表示在状态 s s s 下,先执行动作 a a a,之后
遵循策略 π \pi π 能获得的长期期望回报。
关键:它评价的是在某个状态下
执行某个特定动作
的价值,既依赖策略 π \pi π,也显式关联动作 a a a。
2. 数学表达
-
V ( s ) V(s) V(s) 的贝尔曼方程:
V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=a∑π(a∣s)s′,r∑p(s′,r∣s,a)[r+γVπ(s′)]
其中 π ( a ∣ s ) \pi(a|s) π(a∣s)是策略的概率分布, γ \gamma γ 是折扣因子。 -
Q ( s , a ) Q(s, a) Q(s,a) 的贝尔曼方程:
Q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s′,r∑p(s′,r∣s,a)[r+γa′∑π(a′∣s′)Qπ(s′,a′)]
它直接关联动作 a a a,后续状态的动作选择仍依赖策略 π \pi π。
3. 核心区别
维度 | V ( s ) V(s) V(s) | Q ( s , a ) Q(s, a) Q(s,a) |
---|---|---|
评价对象 | 状态 s s s 的价值 | 在状态 s s s下执行动作 a a a的价值 |
动作的显式依赖 | 无(隐含在策略中) | 有(显式包含动作 ( a )) |
策略依赖 | 必须依赖策略 π \pi π | 必须依赖策略 π \pi π |
应用场景 | 评估策略优劣(如策略迭代) | 优化动作选择(如Q-Learning、SARSA) |
最优策略下的关系 | V ∗ ( s ) = max a Q ∗ ( s , a ) V^*(s) = \max_a Q^*(s, a) V∗(s)=maxaQ∗(s,a) | Q ∗ ( s , a ) = r + γ max a ′ Q ∗ ( s ′ , a ′ ) Q^*(s, a) = r + \gamma \max_{a'} Q^*(s', a') Q∗(s,a)=r+γmaxa′Q∗(s′,a′) |
4. 直观理解
-
V ( s ) V(s) V(s) 回答的问题是:
“在状态 s s s 下,如果我遵循当前策略 π \pi π,平均能获得多少回报?” -
Q ( s , a ) Q(s, a) Q(s,a) 回答的问题是:
“在状态 s s s下,如果我执行动作 a a a 后继续遵循策略 π \pi π,平均能获得多少回报?”
5. 关系
两者通过贝尔曼方程关联:
V π ( s ) = ∑ a π ( a ∣ s ) Q π ( s , a ) V^\pi(s) = \sum_{a} \pi(a|s) Q^\pi(s, a) Vπ(s)=a∑π(a∣s)Qπ(s,a)
即状态值函数是状态-动作值函数在动作空间上的加权平均(权重由策略 π \pi π 决定)。
公式解释
一、状态值函数 V π ( s ) V^\pi(s) Vπ(s) 的公式
公式:
V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=a∑π(a∣s)s′,r∑p(s′,r∣s,a)[r+γVπ(s′)]
分步解释:
-
外层求和 ∑ a π ( a ∣ s ) \sum_{a} \pi(a|s) ∑aπ(a∣s)
- 含义:对当前状态 s s s 下所有可能的动作 a a a 进行加权平均,权重是策略 π \pi π 选择动作 a a a的概率 p i ( a ∣ s ) pi(a|s) pi(a∣s)。
- 直观理解:策略 π \pi π 可能以不同概率选择动作(例如,80%向左,20%向右),外层求和体现了策略的“平均行为”。
-
内层求和 ∑ s ′ , r p ( s ′ , r ∣ s , a ) \sum_{s', r} p(s', r | s, a) ∑s′,rp(s′,r∣s,a)
- 含义:对执行动作 a a a 后可能转移到的下一状态 s ′ s' s′和获得的即时奖励 r r r,按环境动态 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s′,r∣s,a)的概率加权求和。
- 直观理解:环境是随机的,执行动作 ( a ) 后可能进入不同状态(例如,成功移动的概率是90%,失败的概率是10%),内层求和体现了环境的“不确定性”。
-
核心项 r + γ V π ( s ′ ) r + \gamma V^\pi(s') r+γVπ(s′)
- 含义:即时奖励 r r r加上下一状态 s ′ s' s′ 的长期折扣价值 γ V π ( s ′ ) \gamma V^\pi(s') γVπ(s′)。
- 直观理解:当前动作不仅带来即时奖励 ( r ),还会影响未来状态的价值,但未来的价值要打折扣 γ \gamma γ(例如,γ=0.9表示未来奖励的价值是当前的90%)。
-
整合公式:
- V π ( s ) V^\pi(s) Vπ(s)是策略 π \pi π下状态 s s s 的期望长期回报,计算分两步:
- 按策略选择动作的平均(外层求和);
- 按环境动态转移状态的平均(内层求和)。
- V π ( s ) V^\pi(s) Vπ(s)是策略 π \pi π下状态 s s s 的期望长期回报,计算分两步:
二、状态-动作值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 的公式
公式:
Q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s′,r∑p(s′,r∣s,a)[r+γa′∑π(a′∣s′)Qπ(s′,a′)]
分步解释:
-
外层求和 ∑ s ′ , r p ( s ′ , r ∣ s , a ) \sum_{s', r} p(s', r | s, a) ∑s′,rp(s′,r∣s,a)
- 含义:对执行动作 a a a 后可能转移到的状态 s s s 和奖励 r r r,按环境动态 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s′,r∣s,a) 加权求和。
- 直观理解:和 V ( s ) V(s) V(s) 的内层求和相同,体现环境的不确定性。
-
核心项 r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') r+γ∑a′π(a′∣s′)Qπ(s′,a′)
- 含义:
- 即时奖励 r r r,加上下一状态 s ′ s' s′ 的长期折扣价值 γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') γ∑a′π(a′∣s′)Qπ(s′,a′)。
- 其中 ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \sum_{a'} \pi(a'|s') Q^\pi(s', a') ∑a′π(a′∣s′)Qπ(s′,a′) 是下一状态 s ′ s' s′的状态值 V π ( s ′ ) V^\pi(s') Vπ(s′),即 V π ( s ′ ) = ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V^\pi(s') = \sum_{a'} \pi(a'|s') Q^\pi(s', a') Vπ(s′)=∑a′π(a′∣s′)Qπ(s′,a′)。
- 直观理解:
- 当前动作 a a a 的长期价值 = 即时奖励 + 未来状态的期望价值(但未来价值的计算又回到了策略 π \pi π的选择)。
- 含义:
-
整合公式:
- Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 表示在状态 s s s执行动作 a a a 后,继续遵循策略 π \pi π 的期望长期回报。
- 关键区别:
- Q ( s , a ) Q(s, a) Q(s,a) 显式固定了第一步动作 a a a,而后续动作仍由策略 π \pi π决定。