当前位置: 首页 > backend >正文

具身系列——Q-Learning算法实现CartPole游戏(强化学习)

完整代码参考: rl/qlearning_cartpole.py · 陈先生/ailib - Gitee.com 

部分训练得分:

Episode 0 Reward: 19.0 Avg Reward: 19.00 Time: 0.00s
Episode 1 Reward: 17.0 Avg Reward: 18.98 Time: 0.00s
Episode 2 Reward: 10.0 Avg Reward: 18.89 Time: 0.00s
Episode 3 Reward: 30.0 Avg Reward: 19.00 Time: 0.00s
Episode 4 Reward: 23.0 Avg Reward: 19.04 Time: 0.00s
Episode 5 Reward: 10.0 Avg Reward: 18.95 Time: 0.00s
Episode 6 Reward: 12.0 Avg Reward: 18.88 Time: 0.00s
Episode 7 Reward: 27.0 Avg Reward: 18.96 Time: 0.00s
Episode 8 Reward: 24.0 Avg Reward: 19.01 Time: 0.00s
Episode 9 Reward: 16.0 Avg Reward: 18.98 Time: 0.00s
……
Episode 90 Reward: 10.0 Avg Reward: 22.67 Time: 0.00s
Episode 91 Reward: 11.0 Avg Reward: 22.55 Time: 0.00s
Episode 92 Reward: 9.0 Avg Reward: 22.42 Time: 0.00s
Episode 93 Reward: 22.0 Avg Reward: 22.41 Time: 0.00s
Episode 94 Reward: 30.0 Avg Reward: 22.49 Time: 0.00s
Episode 95 Reward: 26.0 Avg Reward: 22.52 Time: 0.00s
Episode 96 Reward: 11.0 Avg Reward: 22.41 Time: 0.00s
Episode 97 Reward: 10.0 Avg Reward: 22.29 Time: 0.00s
Episode 98 Reward: 9.0 Avg Reward: 22.15 Time: 0.00s
Episode 99 Reward: 23.0 Avg Reward: 22.16 Time: 0.00s
Training completed. Final Q-table:[[0. 0.][0. 0.][0. 0.]...[0. 0.][0. 0.][0. 0.]]

http://www.xdnf.cn/news/3935.html

相关文章:

  • 实时操作系统与AI Agent的协同进化:重塑人形机器人产业格局
  • 「分享」学术工具
  • vae笔记
  • P4549 【模板】裴蜀定理
  • Android第三次面试总结之Java篇补充
  • 不定长滑动窗口(求最短/最小)
  • [运维]Linux安装、配置并使用atop监控工具
  • Spring MVC常见注解详解
  • 力扣1128题解
  • sql错题(1)
  • ssh连接云服务器记录
  • 一种实波束扫描雷达角超分辨方法——论文阅读
  • Delphi创建IIS虚拟目录的方法
  • StampLock的源码详细剖析
  • SSE技术的基本理解以及在项目中的使用
  • 商场防损部绩效考核制度与管理方法
  • 【操作系统】读者-写者问题
  • Git_.gitignore文件简介及使用
  • C与指针——输入输出
  • 什么是constexpr?
  • 解决:前后端跨域请求
  • 【Redis】Java操作Redis之SpringDataRedis
  • 洛谷 P1495:【模板】中国剩余定理(CRT)/ 曹冲养猪
  • 数字化转型-4A架构之业务架构
  • 深度优先搜索(DFS)与广度优先搜索(BFS):图与树遍历的两大利器
  • 74HC123的电路应用场景
  • 一键获取当前项目的所有文件结构并保存到文本文件
  • 【数据结构与算法】常见排序算法详解(C++实现)
  • Java大师成长计划之第12天:性能调优与GC原理
  • word页眉去掉线