当前位置：首页 > ops >正文

强化学习笔记之策略梯度

ops 2025/6/19 9:46:55

从分类任务的cross entropy出发，其本质也相当于最大化给定当前观测的状态（特征），输出相应的标签，即采取正确的动作的几率。

根据引论中的梯度推导，优化的目标相当于在平常的分类任务中加了一个奖励作为权重，

从s1开始，不断从策略模型中采样，得到所有动作的奖励，计算奖励的期望值

要做对奖励的期望的梯度上升，使得模型的参数向使得奖励高的方向改变

模型采样出特定轨迹的概率等于出现状态1的概率与模型在s1的前提下采取动作1的概率再乘环境在此动作下从s1转换为s2的概率...

http://www.xdnf.cn/news/13780.html

相关文章：

赛元微8051系列触控按键的开发

高效管理发票-发票真伪验证接口-发票查验-发票验真api

【Spring AI 1.0.0】Spring AI 1.0.0框架快速入门(2)——提示词

python打卡day52@浙大疏锦行

BROOKS 5850E 系列质量流量控制器和流量计Mass Flow Controllers Meters

6月软硬件技术问答第一期

riverpod最基本例子：在一个组件里更新状态，在另一个组件里获取更新的数据

龙虎榜——20250612

JavaScript原型，原型链。

Elasticsearch 的自动补全以及RestAPI的使用

Arduino入门教程：1-1、先跑起来（点亮LED打印Helloworld）

`setVisible(false)` 隐藏菜单不生效的分析思路

Java Solon v3.3.2 发布（可替换，美国博通公司的 Spring 方案）

轻松聊测试报告

Vue3学习（6）-Vue3的生命周期和自定义hook

浅谈软件开发工作流

论文参考文献干干货

Null-text Inversion for Editing Real Images using Guided Diffusion Models

ChatGPT革命升级！o3-pro模型重磅发布：开启AI推理新纪元

人工智能应用案例：如何处理数据、分析数据并训练模型迭代至满意程度

Conan 包管理工具介绍与使用

下载量飙升153.6%，《Solvely》如何成为出海AI教育应用新晋“黑马“？

Windows下安装MySQL5.7安装过程

Verilog基础：$timeformat系统任务的使用

Linux服务器部署n8n实战教程

智能安全带：建筑行业安全防护的新利器

黑群晖NAS部署DeepSeek模型与内网穿透实现本地AI服务

Linux中升级或者切换python版本

网络上搜集的IFC资源共享（含下载链接）