当前位置: 首页 > news >正文

状态值函数与状态-动作值函数

在强化学习中,状态值函数(State Value Function,记为 V ( s ) V(s) V(s)和状态-动作值函数(State-Action Value Function,记为 Q ( s , a ) Q(s, a) Q(s,a))是两个核心概念,它们的区别主要体现在定义、用途和数学表达上:


1. 定义与核心思想

  • 状态值函数 V ( s ) V(s) V(s)
    表示在状态 s s s 下,遵循某个策略 π \pi π 后能获得的长期期望回报(即从当前状态开始的累积奖励)。
    关键:它评价的是某个状态本身的价值,与具体动作无关,但依赖策略 π \pi π

  • 状态-动作值函数 Q ( s , a ) Q(s, a) Q(s,a)
    表示在状态 s s s 下,先执行动作 a a a之后遵循策略 π \pi π 能获得的长期期望回报
    关键:它评价的是在某个状态下执行某个特定动作的价值,既依赖策略 π \pi π,也显式关联动作 a a a


2. 数学表达

  • V ( s ) V(s) V(s) 的贝尔曼方程:
    V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)s,rp(s,rs,a)[r+γVπ(s)]
    其中 π ( a ∣ s ) \pi(a|s) π(as)是策略的概率分布, γ \gamma γ 是折扣因子。

  • Q ( s , a ) Q(s, a) Q(s,a) 的贝尔曼方程:
    Q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s,rp(s,rs,a)[r+γaπ(as)Qπ(s,a)]
    它直接关联动作 a a a,后续状态的动作选择仍依赖策略 π \pi π


3. 核心区别

维度 V ( s ) V(s) V(s) Q ( s , a ) Q(s, a) Q(s,a)
评价对象状态 s s s 的价值在状态 s s s下执行动作 a a a的价值
动作的显式依赖无(隐含在策略中)有(显式包含动作 ( a ))
策略依赖必须依赖策略 π \pi π必须依赖策略 π \pi π
应用场景评估策略优劣(如策略迭代)优化动作选择(如Q-Learning、SARSA)
最优策略下的关系 V ∗ ( s ) = max ⁡ a Q ∗ ( s , a ) V^*(s) = \max_a Q^*(s, a) V(s)=maxaQ(s,a) Q ∗ ( s , a ) = r + γ max ⁡ a ′ Q ∗ ( s ′ , a ′ ) Q^*(s, a) = r + \gamma \max_{a'} Q^*(s', a') Q(s,a)=r+γmaxaQ(s,a)

4. 直观理解

  • V ( s ) V(s) V(s) 回答的问题是:
    “在状态 s s s 下,如果我遵循当前策略 π \pi π,平均能获得多少回报?”

  • Q ( s , a ) Q(s, a) Q(s,a) 回答的问题是:
    “在状态 s s s下,如果我执行动作 a a a 后继续遵循策略 π \pi π,平均能获得多少回报?”


5. 关系

两者通过贝尔曼方程关联:
V π ( s ) = ∑ a π ( a ∣ s ) Q π ( s , a ) V^\pi(s) = \sum_{a} \pi(a|s) Q^\pi(s, a) Vπ(s)=aπ(as)Qπ(s,a)
即状态值函数是状态-动作值函数在动作空间上的加权平均(权重由策略 π \pi π 决定)。


公式解释

一、状态值函数 V π ( s ) V^\pi(s) Vπ(s) 的公式

公式
V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s', r} p(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)s,rp(s,rs,a)[r+γVπ(s)]

分步解释
  1. 外层求和 ∑ a π ( a ∣ s ) \sum_{a} \pi(a|s) aπ(as)

    • 含义:对当前状态 s s s 下所有可能的动作 a a a 进行加权平均,权重是策略 π \pi π 选择动作 a a a的概率 p i ( a ∣ s ) pi(a|s) pi(as)
    • 直观理解:策略 π \pi π 可能以不同概率选择动作(例如,80%向左,20%向右),外层求和体现了策略的“平均行为”。
  2. 内层求和 ∑ s ′ , r p ( s ′ , r ∣ s , a ) \sum_{s', r} p(s', r | s, a) s,rp(s,rs,a)

    • 含义:对执行动作 a a a 后可能转移到的下一状态 s ′ s' s和获得的即时奖励 r r r,按环境动态 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s,rs,a)的概率加权求和。
    • 直观理解:环境是随机的,执行动作 ( a ) 后可能进入不同状态(例如,成功移动的概率是90%,失败的概率是10%),内层求和体现了环境的“不确定性”。
  3. 核心项 r + γ V π ( s ′ ) r + \gamma V^\pi(s') r+γVπ(s)

    • 含义:即时奖励 r r r加上下一状态 s ′ s' s 的长期折扣价值 γ V π ( s ′ ) \gamma V^\pi(s') γVπ(s)
    • 直观理解:当前动作不仅带来即时奖励 ( r ),还会影响未来状态的价值,但未来的价值要打折扣 γ \gamma γ(例如,γ=0.9表示未来奖励的价值是当前的90%)。
  4. 整合公式

    • V π ( s ) V^\pi(s) Vπ(s)是策略 π \pi π下状态 s s s 的期望长期回报,计算分两步:
      1. 按策略选择动作的平均(外层求和);
      2. 按环境动态转移状态的平均(内层求和)。

二、状态-动作值函数 Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 的公式

公式
Q π ( s , a ) = ∑ s ′ , r p ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} p(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s,rp(s,rs,a)[r+γaπ(as)Qπ(s,a)]

分步解释
  1. 外层求和 ∑ s ′ , r p ( s ′ , r ∣ s , a ) \sum_{s', r} p(s', r | s, a) s,rp(s,rs,a)

    • 含义:对执行动作 a a a 后可能转移到的状态 s s s 和奖励 r r r,按环境动态 p ( s ′ , r ∣ s , a ) p(s', r | s, a) p(s,rs,a) 加权求和。
    • 直观理解:和 V ( s ) V(s) V(s) 的内层求和相同,体现环境的不确定性。
  2. 核心项 r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') r+γaπ(as)Qπ(s,a)

    • 含义
      • 即时奖励 r r r,加上下一状态 s ′ s' s 的长期折扣价值 γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') γaπ(as)Qπ(s,a)
      • 其中 ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \sum_{a'} \pi(a'|s') Q^\pi(s', a') aπ(as)Qπ(s,a) 是下一状态 s ′ s' s的状态值 V π ( s ′ ) V^\pi(s') Vπ(s),即 V π ( s ′ ) = ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) V^\pi(s') = \sum_{a'} \pi(a'|s') Q^\pi(s', a') Vπ(s)=aπ(as)Qπ(s,a)
    • 直观理解
      • 当前动作 a a a 的长期价值 = 即时奖励 + 未来状态的期望价值(但未来价值的计算又回到了策略 π \pi π的选择)。
  3. 整合公式

    • Q π ( s , a ) Q^\pi(s, a) Qπ(s,a) 表示在状态 s s s执行动作 a a a 后,继续遵循策略 π \pi π 的期望长期回报。
    • 关键区别
      • Q ( s , a ) Q(s, a) Q(s,a) 显式固定了第一步动作 a a a,而后续动作仍由策略 π \pi π决定。
http://www.xdnf.cn/news/278785.html

相关文章:

  • MVP架构梳理
  • Dubbo(95)如何在社交网络中应用Dubbo?
  • 注意力机制
  • 2025年PMP 学习一
  • 文章记单词 | 第60篇(六级)
  • mysql中int(1) 和 int(10) 有什么区别?
  • STM32GPIO输入实战-按键key模板及移植
  • I.MX6U的GPIO配置和LED点灯实验。
  • leetcode:最小覆盖字符串
  • 【操作系统】吸烟者问题
  • NHANES指标推荐:LC9
  • Android第四次面试总结之Java基础篇(补充)
  • 【NTN 卫星通信】NTN关键问题的一些解决方法(一)
  • 55认知干货:深空产业
  • 2022年第十三届蓝桥杯省赛B组Java题解
  • 128. 最长连续序列
  • 【人工智能】大模型安全的深度剖析:DeepSeek漏洞分析与防护实践
  • 牛客周赛91 D题(数组4.0) 题解
  • 如何用更少的显存训练 PyTorch 模型
  • 【Java JUnit单元测试框架-60】深入理解JUnit:Java单元测试的艺术与实践
  • Spring AI 实战:第九章、Spring AI MCP之万站直通
  • HTML5实战指南:语义化标签与表单表格高级应用
  • AI日报 · 2025年5月04日|Hugging Face 启动 MCP 全球创新挑战赛
  • 《工业社会的诞生》章节
  • 相向双指针-16. 最接近的三数之和
  • 基于AWS Marketplace的快速解决方案:从选型到部署实战
  • OpenFAST 开源软件介绍
  • 大学之大:高丽大学2025.5.4
  • Java并发编程-多线程基础(三)
  • 在 Ubuntu 系统中,查看已安装程序的方法