当前位置: 首页 > ops >正文

强化学习选择rule-based的reward func还是使用reward model / RLAIF?

  • 参考一些论文,如deepseek r1、selftok等,以及自己做实验,发现rule-based reward func往往由于奖励信号发挥稳定而提升强化学习过程的稳定性,表现为reward曲线往往能够较稳定上升;相比之下,使用reward model或者其它一些AI辅助的reward计算方式,往往因为reward评价标准不一,而导致大量reward结果不合理,进而影响强化学习的稳定性,表现为奖励曲线不上升。
  • rule-based reward func的reward曲线在这里插入图片描述
  • 使用reward model / RLAIF的reward曲线在这里插入图片描述
http://www.xdnf.cn/news/12726.html

相关文章:

  • mq安装新版-3.13.7的安装
  • [2025CVPR]确定性图像转换新突破:双逼近器布朗桥模型(Dual-approx Bridge)技术详解
  • LangGraph--Agent工作流
  • 【iOS】 Block再学习
  • iOS 抖音导航栏首页一键分两列功能的实现
  • 2025-06-01-Hive 技术及应用介绍
  • CSS悬停闪现与a标签嵌套的问题
  • SQL手工测试(MySQL数据库)
  • 云原生技术驱动 IT 架构现代化转型:企业实践与落地策略全解
  • 网约车平台(预约打车)
  • 手动给中文分词和 直接用神经网络RNN做有什么区别
  • 使用 IntelliJ IDEA 安装通义灵码(TONGYI Lingma)插件,进行后端 Java Spring Boot 项目的用户用例生成及常见问题处理
  • OPENCV形态学基础之一膨胀
  • 数据结构---红黑树
  • 【大模型LLM学习】function call/agent学习记录
  • Windows开机自动启动中间件
  • CAD多面体密堆积3D插件
  • Maven的使用
  • Mac M芯片 RAG 极简流程 安装 ragflow + LM studio
  • Java 高级泛型实战:8 个场景化编程技巧
  • 0x-4-Oracle 23 ai-sqlcl 25.1.1 独立安装-配置和优化
  • OD 算法题 B卷【正整数到Excel编号之间的转换】
  • Web后端开发(请求、响应)
  • SpringCloud2025+SpringBoot3.5.0+gateway+webflux子服务路由报503
  • Pinocchio 库详解及其在足式机器人上的应用
  • 板凳-------Mysql cookbook学习 (十--2)
  • Linux权限探秘:驾驭权限模型,筑牢系统安全
  • 【PyCharm必会基础】正确移除解释器及虚拟环境(以 Poetry 为例 )
  • 2025新高考二卷选择题第一题题解
  • 嵌入式全栈面试指南:TCP/IP、C 语言基础、STM32 外设与 RT‑Thread