当前位置: 首页 > ai >正文

【RLHF】 Reward Model 和 Critic Model 在 RLHF 中的作用

关于 Reward Model 和 Critic Model 的区别:

帖子里用了一个非常形象的比喻:“reward扮演的是环境的角色,而critic属于llm这个智能体的一部分,就好比在考试中,你自己检查卷子和老师给你打分的区别。” 这准确地概括了它们的核心差异:

  • Reward Model (RM):

    • 目标: 学习人类的偏好,对生成的整个 response 给出一个 标量奖励值,用来衡量这个 response 的整体质量。
    • 作用: 扮演“环境”的角色,告诉 LLM 哪些行为是好的,哪些是坏的。它提供了一个外部的反馈信号。
    • 粒度: 针对 整个 response 进行评估,无法直接判断每个 token 的贡献。
  • Critic Model (Value Function):

    • 目标: 学习一个 价值函数,预测在当前状态(例如,LLM 生成到某个 token 的状态)下,未来可能获得的 累积奖励
    • 作用: 属于 LLM 这个“智能体”的一部分,帮助 LLM 评估当前行为的“价值”,为策略更新提供一个 基线 (baseline),从而计算 优势 (advantage)。这个优势信号能够更稳定地指导策略向好的方向更新。
    • 粒度: 可以对 每个状态(例如,每个 token 生成后) 进行评估,预测未来的潜在回报。

为什么有了 Reward Model 还需要 Critic Model?

虽然两者都涉及“打分”,但目的是不同的:

  • Reward Model 提供的是一个最终的、整体的质量评估。 如果只用 Reward Model 来指导 PPO,策略更新可能会不稳定,因为模型很难将最终的奖励信号精确地分配到每个生成步骤。
  • Critic Model 通过预测未来的累积奖励,为每一步的行动提供了一个价值基准。 PPO 使用这个价值基准来计算优势函数(Advantage = Reward - Value),优势函数能够告诉策略哪些行为比预期的更好或更差,从而更有效地进行策略优化,并减少方差,使训练更稳定。
http://www.xdnf.cn/news/4980.html

相关文章:

  • AD新版本Skill的使用
  • SecureCRT网络穿透/代理
  • Python毕业设计219—基于python+Django+vue的房屋租赁系统(源代码+数据库+万字论文)
  • 主题分析建模用法介绍
  • RocketMQ 深度解析:架构设计与最佳实践
  • JavaScript 模块系统全景解析
  • 【数据机构】2. 线性表之“顺序表”
  • Qt读写XML文档
  • uniapp-商城-46-创建schema并新增到数据库
  • 浅聊大模型-有条件的文本生成
  • RAIL-KD: 随机中间层映射知识蒸馏
  • uniapp 不同路由之间的区别
  • LVGL9保姆级教程(源码获取)
  • HarmonyOS学习——ArkTS语法介绍之基本知识
  • 代理ARP与传统ARP在网络通信中的应用及区别研究
  • 2025数维杯数学建模A题完整限量论文:空中芭蕾——蹦床运动的力学行为分析
  • 边缘大型语言模型综述:设计、执行和应用
  • 图解gpt之神经概率语言模型与循环神经网络
  • TextRNN 模型实现微博文本情感分类
  • Python 基础语法与数据类型(六) - 条件语句、循环、循环控制
  • Android kernel日志中healthd关键词意义
  • React 第三十七节 Router 中 useOutlet Hook的使用介绍以及注意事项
  • Kubernetes Gateway API 部署详解:从入门到实战
  • 创始人IP的重塑与破局|创客匠人热点评述
  • uni-app,小程序自定义导航栏实现与最佳实践
  • 【NCCL】DBT算法(double binary tree,双二叉树)
  • sqli-labs靶场第二关——数字型
  • 手写 vue 源码 === ref 实现
  • SCADA|KIO程序导出变量错误处理办法
  • AGV通信第2期|AGV集群智能路径规划解决方案