当前位置: 首页 > backend >正文

【深度强化学习 DRL 快速实践】异步优势演员评论员算法 (A3C)

在这里插入图片描述

Asynchronous Advantage Actor-Critic A3C (2016, DeepMind)

异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势,同时通过异步多线程 (团队作战) 加速了训练过程

  • model-free, actor-critic
核心改进点说明
异步并行训练 – Asynchronous (无经验回放)通过多个异步 agent 并行采样,打破数据相关性,提升训练效率 ; 并异步更新共享的全局网络,减少了训练过程中的延迟和等待
优势函数 – Advantage通过计算 A ( s t , a t ) = R t − V ( s t ; θ v ) A(s_t, a_t) = R_t - V(s_t; \theta_v) A(st,at)=RtV(st;θv) 来减小策略梯度的方差
熵正则化项(Entropy Regularization)引入熵正则项 H ( π ) H(\pi) H(π),鼓励策略网络保持多样性,增强探索性,避免过早收敛到局部最优

A3C 网络更新

Critic 网络更新: θ v \theta^v θv

Critic 通过最小化价值函数的损失来学习 (不熟悉 TD 的先看专栏下对应的那篇~):

L value = ( r t + γ V ( s t + 1 ) − V ( s t ) ) 2 L_{\text{value}} = ( r_t + \gamma V(s_{t+1})- V(s_t))^2 Lvalue=(rt+γV(st+1)V(st))2

Actor 网络更新: θ μ \theta^\mu θμ

Actor 通过最大化期望回报来更新,使用 Advantage 来减少 PG 的方差 (不熟悉 policy gradient 的先看专栏下对应的那篇~):

L policy = − log ⁡ π ( a t ∣ s t ) A ( s t , a t ) L_{\text{policy}} = - \log \pi(a_t | s_t) A(s_t, a_t) Lpolicy=logπ(atst)A(st,at)

其中 Advantage A ( s t , a t ) A(s_t, a_t) A(st,at) 可以估计为:

A ( s t , a t ) = r t + γ V ( s t + 1 ) − V ( s t ) A(s_t, a_t) = r_t + \gamma V(s_{t+1})- V(s_t) A(st,at)=rt+γV(st+1)V(st)

总的损失函数

通常,A3C 的总损失函数包含三部分:

  • 策略损失(Policy Loss)
  • 价值损失(Value Loss)
  • 熵正则化项(Entropy Loss,用来增加探索性)

完整的目标函数为:

L = L policy + c 1 L value − c 2 H ( π ( s t ) ) L = L_{\text{policy}} + c_1 L_{\text{value}} - c_2 H(\pi(s_t)) L=Lpolicy+c1Lvaluec2H(π(st))

其中:

  • H ( π ) H(\pi) H(π) 是策略的熵,鼓励策略探索
  • c 1 , c 2 c_1, c_2 c1,c2 是权重系数

参考资料:A3C详解

http://www.xdnf.cn/news/1932.html

相关文章:

  • PCIe具体解释分析
  • 【基础IO上】复习C语言文件接口 | 学习系统文件接口 | 认识文件描述符 | Linux系统下,一切皆文件 | 重定向原理
  • 【kafka初学】启动执行命令
  • c#操作excel表格
  • Java与Kotlin在Android开发中的全面对比分析
  • 【Luogu】动态规划四
  • Hot100方法及易错点总结2
  • firewalld 详解
  • 微信小程序蓝牙连接打印机打印单据完整Demo【蓝牙小票打印】
  • 【prompt是什么?有哪些技巧?】
  • Linux操作系统复习
  • 3D模型文件格式之《STL格式介绍》
  • SSH服务介绍
  • string的基本使用
  • uniapp自定义封装tabbar
  • 探索亚马逊云科技:开启您的云计算之旅
  • Safety Estimands与Efficacy Estimands的差异剖析
  • 模式设计简介
  • 北斗导航 | 北斗卫星导航单点定位精度提升方法总结,原理,公式,关键代码
  • 架构师面试(三十六):广播消息
  • websheet 之 sheet操作
  • c++11新特性随笔
  • 使用开源免费雷池WAF防火墙,接入保护你的网站
  • Shell 脚本入门:从零开始写自动化脚本
  • 代码随想录算法训练营day11(二叉树)
  • 轻量级静态网站托管:服务器配置与网站性能深入探讨
  • Sui 携手 xMoney 和 xPortal 推出虚拟万事达卡,拓展现实支付场景接入
  • 分布式ID生成方案详解
  • 软件为什么需要性能测试?软件测试机构性能测试注意事项有哪些?
  • 实时数据驱动未来:谷云科技CDC实时数据集成平台新版本发布