当前位置: 首页 > ops >正文

强化学习笔记之策略梯度

从分类任务的cross entropy出发,其本质也相当于最大化给定当前观测的状态(特征),输出相应的标签,即采取正确的动作的几率。

根据引论中的梯度推导,优化的目标相当于在平常的分类任务中加了一个奖励作为权重,

从s1开始,不断从策略模型中采样,得到所有动作的奖励,计算奖励的期望值

要做对奖励的期望的梯度上升,使得模型的参数向使得奖励高的方向改变

模型采样出特定轨迹的概率等于出现状态1的概率与模型在s1的前提下采取动作1的概率再乘环境在此动作下从s1转换为s2的概率...

http://www.xdnf.cn/news/13780.html

相关文章:

  • 赛元微8051系列触控按键的开发
  • 高效管理发票-发票真伪验证接口-发票查验-发票验真api
  • 【Spring AI 1.0.0】Spring AI 1.0.0框架快速入门(2)——提示词
  • python打卡day52@浙大疏锦行
  • BROOKS 5850E 系列质量流量控制器和流量计Mass Flow Controllers Meters
  • 6月软硬件技术问答第一期
  • riverpod最基本例子:在一个组件里更新状态,在另一个组件里获取更新的数据
  • 龙虎榜——20250612
  • JavaScript原型,原型链。
  • Elasticsearch 的自动补全以及RestAPI的使用
  • Arduino入门教程:1-1、先跑起来(点亮LED打印Helloworld)
  • `setVisible(false)` 隐藏菜单不生效的分析思路
  • Java Solon v3.3.2 发布(可替换,美国博通公司的 Spring 方案)
  • 轻松聊测试报告
  • Vue3学习(6)-Vue3的生命周期和自定义hook
  • 浅谈软件开发工作流
  • 论文参考文献干干货
  • Null-text Inversion for Editing Real Images using Guided Diffusion Models
  • ChatGPT革命升级!o3-pro模型重磅发布:开启AI推理新纪元
  • 人工智能应用案例:如何处理数据、分析数据并训练模型迭代至满意程度
  • Conan 包管理工具介绍与使用
  • 下载量飙升153.6%,《Solvely》如何成为出海AI教育应用新晋“黑马“?
  • Windows下安装MySQL5.7安装过程
  • Verilog基础:$timeformat系统任务的使用
  • Linux服务器部署n8n实战教程
  • AWS-EFS
  • 智能安全带:建筑行业安全防护的新利器
  • 黑群晖NAS部署DeepSeek模型与内网穿透实现本地AI服务
  • Linux中升级或者切换python版本
  • 网络上搜集的IFC资源共享(含下载链接)