【深度强化学习 DRL 快速实践】稀疏奖励问题 sparse reward
文章目录
- Reward Shaping
- Curiosity:ICM
- Curriculum Learning
- Hierarchical Reinforcement Learning
比如,你要用强化学习让一个机械手臂学会开门,训练过程中只有开门成功后才能获得对应的奖励 【sparse reward】
- 机器人可能探索半天,都在胡乱操控,没有成功开门过一次,所以没获得任何有效奖励,导致无法更新网络
Reward Shaping
核心思路:想办法设计一些辅助的 reward 来引导 agent 实现你想要的目标:例如手臂朝门移动就给一点 reward
- 但是设计时要很小心,可能会对于任务适得其反,要多加尝试

Curiosity:ICM
核心思路:增加一个 Curiosity 奖励项,鼓励冒险 (偏向导致难以预测的 s t + 1 s_{t+1} st+1 的 action)


- 进一步,利用一个 Feature Ext 过滤掉无关的环境状态 (具体来说是过滤掉和 action 无关的环境状态)

Curriculum Learning
核心思路:任务由简单开始,逐渐增加难度

Hierarchical Reinforcement Learning
核心思路:从宏观大任务,再拆解完成小任务 (如下图,粉红色的标识就是高层的规划)
