当前位置: 首页 > web >正文

强化学习理论基础:从Q-learning到PPO的算法演进(1)

文章目录

  • 基础概念
  • Q-learning
    • Q表(本例中是个字典)
    • Q表更新(贝尔曼(Bellman)等式)
  • ε-greedy(贪心)探索
  • Q-learning算法不足及后续改进


基础概念

在这里插入图片描述
以强化学习走迷宫这个例子来讲:

  • 智能体(Agent):以A表示,在迷宫中不断移动的虚拟智能
  • 环境(Environment):整个迷宫,入口、出口、墙壁等
  • 状态(State):智能体当前的位置
  • 行动(Action):智能体的运动方向,从上下左右四个方向中选一个
  • 奖励(Reward):如果智能体找到了出口,则奖励100,否则奖励0
    – 也可以自定义其它规则,如走回头路“奖励”-0.1,撞墙“奖励”-0.2等等。

Q-learning

让我们以“走迷宫”为例,揭开强化学习的算法面纱。Q-learning是一种基于价值的无模型算法,其核心是构建一张Q表,存储每个“状态-动作对”的预期累积奖励。

通过迭代学习状态-动作对的Q值(动作价值函数

http://www.xdnf.cn/news/14749.html

相关文章:

  • Java课后习题(编程题)
  • Spring Cloud Ribbon核心负载均衡算法详解
  • 《高等数学》(同济大学·第7版)第九章 多元函数微分法及其应用第一节多元函数的基本概念
  • Android14音频子系统-ASoC-ALSA之DAPM电源管理子系统
  • MQTT 客户端(MQTT Client)工具介绍及分享
  • 【DataWhale组队学习】AI办公实践与应用-数据分析
  • MySQL之视图深度解析
  • 大塘至浦北高速分布式光伏项目,让‘交通走廊’变身‘绿色能源带’
  • RabbitMq中启用NIO
  • TDengine 的 CASE WHEN 语法技术详细
  • AES加密:为你的PDF文档加上一道钢铁防线
  • 在uni-app build的index.html 中加入 <mate,和title 等标签内容 内容
  • JSON-LD技术深度解析:从语义网理想到现实应用的完整指南(JSON和知识图谱的桥梁)
  • 阿里云OSS文件上传完整实现方案
  • CSS基础3
  • 人力资源在现代公司中的重要性
  • OSS与NAS混合云存储架构:非结构化数据统一管理实战
  • 大模型项目实战:业务场景和解决方案
  • 数组题解——移除元素​【LeetCode】
  • 6.24_JAVA_微服务_Elasticsearch搜索
  • 原生策略与功耗方案参考
  • 【C/C++】C++ 编程规范:101条规则准则与最佳实践
  • 对象的实例化内存布局与访问定位
  • 从虚拟机角度解释python3相对导入问题(下)
  • 【Pandas】pandas DataFrame update
  • Kafka的消费消息是如何传递的?
  • langchain从入门到精通(十六)——Embedding文本嵌入模型介绍与使用
  • git学习资源
  • 模块化桌面机器人概念设计​​ - ModBot
  • 竹云受邀出席华为开发者大会,与华为联合发布海外政务数字化解决方案