当前位置: 首页 > news >正文

机器人强化学习入门学习笔记(二)

       基于上一篇的《机器人强化学习入门学习笔记》,在基于 MuJoCo 的仿真强化学习训练中,除了 PPO(Proximal Policy Optimization)之外,还有多个主流强化学习算法可用于训练机器人直行或其他复杂动作。


🧠 一、常见强化学习算法对比(可用于 MuJoCo)

算法类型特点适合场景
PPO(Proximal Policy Optimization)On-policy稳定、易调参,训练效率适中MuJoCo官方推荐、机器人控制首选
SAC(Soft Actor-Critic)Off-policy探索强、样本效率高多关节复杂任务、稀疏奖励
TD3(Twin Delayed DDPG)Off-policy避免过估计,适合连续控制动作精细控制、稳定性好
DDPG(Deep Deterministic Policy Gradient)Off-policy最早的连续动作算法之一适合学习基础
TRPO(Trust Region Policy Optimization)On-policy稳定但实现复杂PPO的前身,现已较少使用

✅ 推荐顺序(MuJoCo 中的实用性):PPO > SAC > TD3 > DDPG > TRPO


📌 二、原理讲解(简洁易懂)

(1)PPO算法

PPO 是由 OpenAI 提出的,是一种 策略梯度(Policy Gradient)方法的改进版本,它的目标是:

在不让策略变动太大的前提下,最大化策略更新的期望回报。


🧩 核心思想:限制策略更新幅度

策略梯度方法要优化目标函数:

但如果每次更新步长太大,会让策略发散(学崩),所以 PPO 引入了

http://www.xdnf.cn/news/287407.html

相关文章:

  • DeepSeek-Prover-V2:数学定理证明领域的新突破
  • Dify网页版 + vllm + Qwen
  • Matlab自学笔记五十三:保存save和载入load
  • 杨校老师竞赛课之C++备战蓝桥杯初级组省赛
  • Python爬虫实战:获取优美图库各类高清图片,为用户提供设计素材
  • 洛谷 P9007 [入门赛 #9] 最澄澈的空与海 (Hard Version)
  • 【从零开始学习微服务 | 第一篇】单体项目到微服务拆分实践
  • 本地MySQL连接hive
  • ASP.NET Core 请求限速的ActionFilter
  • 算法中的数学:质数(素数)
  • 30天通过软考高项-第十一天
  • CodeBlocks25配置wxWidgets3.2
  • 004-nlohmann/json 快速认识-C++开源库108杰
  • 地埋式燃气泄漏检测装置与地下井室可燃气体检测装置有什么区别
  • 专业课复习笔记 4
  • Vue中的过滤器参数:灵活处理文本格式化
  • 5月5日日记
  • 基于 HTML5 Canvas 实现图片旋转与下载功能
  • linux tar命令详解。压缩格式对比
  • Java IO流核心处理方式详解
  • 论高并发下的高可用
  • LeetCode 热题 100 46. 全排列
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】5.1 描述性统计分析(均值/方差/分位数计算)
  • 代码随想录算法训练营Day45
  • 一个电商场景串联23种设计模式:创建型、结构型和行为型
  • Cordova开发自定义插件的方法
  • 多语言笔记系列:Polyglot Notebooks 中使用 xUnit 单元测试
  • WebAssembly(Wasm):现代Web开发的超级加速器
  • Spring Boot 之MCP Server开发全介绍
  • Linux | WEB服务器的部署及优化