强化学习笔记之策略梯度
从分类任务的cross entropy出发,其本质也相当于最大化给定当前观测的状态(特征),输出相应的标签,即采取正确的动作的几率。
根据引论中的梯度推导,优化的目标相当于在平常的分类任务中加了一个奖励作为权重,
从s1开始,不断从策略模型中采样,得到所有动作的奖励,计算奖励的期望值
要做对奖励的期望的梯度上升,使得模型的参数向使得奖励高的方向改变
模型采样出特定轨迹的概率等于出现状态1的概率与模型在s1的前提下采取动作1的概率再乘环境在此动作下从s1转换为s2的概率...