强化学习入门:马尔科夫奖励过程二
文章目录
- 前言
- 1、动作
- 2、策略
- 总结
前言
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》。
限于篇幅原因,请读者首先看下历史文章:马尔科夫奖励过程
1、动作
在上篇博客中,介绍了强化学习中的价值和回报概念。其中,回报就是当前t时刻,在将来所获得所有奖励和;而状态的价值则是回报的期望。
但我们希望智能体能够自主的选择动作,从而决定怎样得到最大的奖励和回报。因此,需要在马尔科夫奖励过程中,新引入一个N*N的动作矩阵,其中第i行第j列表示智能体选择从状态i到状态j所采取的动作。
如上图所示:此时MDP可以用一个三维矩阵表示:其中每个元素表示在给定动作k情况下,i->j的转移概率。
2、策略
现在你的马尔科夫奖励已经包含了:转移概率、奖励、动作。但要想得到一个聪明的智能体,需要找到一个模型,让其能够聪明的选择什么样的动作,进而得到最大回报。比如:训狗,最终希望狗子能够听话不护食。
其实抽象出来就是一个优化问题,交给智能体一种什么样策略,才能够训练好这个智能体。因为策略好多,如何才能教给智能体选择合适策略才是至关重要的。
策略定义就是每个可能状态下的动作概率分布:
π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a|S_t=s) π(a∣s)=P(At=a∣St=s)
解释下上述公式含义:左边表示状态s条件下,采取动作a的概率分布。注意这里是概率分布,因此公式右边用的大写的P。之所以是概率分布,而不是具体动作,是希望给智能体行为引入随机性。
总结
总结下强化学习用到的术语:首先有状态空间S、状态概率转移矩阵、奖励、回报是奖励的期望,动作矩阵,策略则是动作的概率分布。最终希望得到一个聪明的智能体,让其能够学会选择好的策略,进而得到最大的回报。