当前位置: 首页 > web >正文

【深度强化学习 DRL 快速实践】稀疏奖励问题 sparse reward

在这里插入图片描述

文章目录

      • Reward Shaping
      • Curiosity:ICM
      • Curriculum Learning
      • Hierarchical Reinforcement Learning

比如,你要用强化学习让一个机械手臂学会开门,训练过程中只有开门成功后才能获得对应的奖励 【sparse reward】

  • 机器人可能探索半天,都在胡乱操控,没有成功开门过一次,所以没获得任何有效奖励,导致无法更新网络

Reward Shaping

核心思路:想办法设计一些辅助的 reward 来引导 agent 实现你想要的目标:例如手臂朝门移动就给一点 reward

  • 但是设计时要很小心,可能会对于任务适得其反,要多加尝试

Curiosity:ICM

核心思路:增加一个 Curiosity 奖励项,鼓励冒险 (偏向导致难以预测的 s t + 1 s_{t+1} st+1 的 action)

  • 进一步,利用一个 Feature Ext 过滤掉无关的环境状态 (具体来说是过滤掉和 action 无关的环境状态)

Curriculum Learning

核心思路:任务由简单开始,逐渐增加难度

Hierarchical Reinforcement Learning

核心思路:从宏观大任务,再拆解完成小任务 (如下图,粉红色的标识就是高层的规划)

http://www.xdnf.cn/news/2299.html

相关文章:

  • 高中数学联赛模拟试题精选第17套几何题
  • C++中const的应用(1)之const 形参和实参以及成员函数的 const 和重载
  • 从循环角度分析逐位分离法
  • 形象的讲解什么是Gateway网关
  • leetcode110 平衡二叉树
  • Ubuntu 之软件包管理系统
  • 前端技术个人求职简历模板
  • new/delete 重载与对象池实现
  • 高性能电脑系统优化工具Advanced SystemCare PRO v18.3.0.240 解锁永久专业版
  • 学习Spire.Office for Java版本的科学实践
  • 栈与队列 Part 2
  • 【NeurlPS 2024】MAR:无矢量量化的自回归图像生成
  • Jquery -函数调用使用创建立即执行函数
  • 代码随想录回文子序列
  • MQL5教程 06 EA开发实战
  • 【免费项目分享】(项目加说明文档)基于Go语言的城市电动汽车充电桩管理系统设计与实现
  • 深度学习原理与Pytorch实战
  • B. And It‘s Non-Zero
  • 八、Constants(常量)
  • Spring 学习笔记之 @Transactinal实现原理
  • Loki日志体系的搭建
  • Linux: 如何在VMware上安装Ubuntu操作系统
  • Redis 数据类型全览:特性、场景与操作实例
  • 泽润新能IPO隐忧:募资缩水2亿元,毛利率两连降,内控存瑕疵?
  • Eigen稀疏矩阵类 (SparseMatrix)
  • VS2019 与gitcode团队管理
  • QT6 源(52)篇二:存储 c 语言字符串的类 QByteArray 的使用举例,
  • Git基本操作
  • 第34课 常用快捷操作——按“空格键”旋转图元
  • MySQL技术白皮书