当前位置：首页 > web >正文

强化学习在LLM中应用：RLHF、DPO

web 2025/6/28 4:49:35

强化学习在LLM中应用：RLHF、DPO

这部分我自己也是了解，没有在工程上用过~。因为RLHF和DPO都需要大量人工数据的标注。

RLHF：人类反馈的力量

最著名的强化学习应用就是RLHF（Reinforcement Learning from Human Feedback）。ChatGPT能有今天的表现，很大程度上就是靠这个方法。

RLHF的流程其实挺复杂的：

让模型对同一个问题生成多个答案
找人来给这些答案排序（需要完整排名）
训练一个专门的"评分模型"来学习人类的偏好。该模型将输入提示词+AI回答，输出分数
用这个评分模型+PPO来指导原模型的训练。输入提示词，LLM输出AI回答，奖励模型评分，再更新原有LLM。

这个方法很有效，但也有明显的缺点：成本高、流程复杂，而且完全依赖人工标注。
在这里插入图片描述

DPO：直接偏好优化

DPO（Direct Preference Optimization）算是RLHF的简化版。它跳过了训练评分模型的步骤，直接用人类的偏好对比来训练原模型。有时候我们在使用LLM时，他会弹出一个你喜欢哪个答案，让我们去选一个模板，就是我们在给官方标注RLHF数据集。

具体来说，就是给人看两个答案A和B，问他们更喜欢哪个。然后调整模型，让它更倾向于生成被人类偏好的答案。

在这里插入图片描述

虽然比RLHF简单一些，但还是需要大量的人工标注。对于很多应用场景来说，这个成本还是太高了。

查看全文

http://www.xdnf.cn/news/12260.html

网络通信核心概念全解析：从IP地址到TCP/UDP实战

【Go语言基础【2】】数据类型之基础数据类型：数字、字符、布尔、枚举、自定义

Unity3D中Newtonsoft.Json序列化优化策略

[蓝桥杯]倍数问题

倍福 PLC程序解读

kubectl 命令

docker 搭建php 开发环境添加扩展redis、swoole、xdebug（2）

游戏设计模式 - 子类沙箱

计算机网络备忘录

SDC命令详解：使用set_fanout_load命令进行约束

AI Agent 项目 SUNA 部署环境搭建 - 基于 MSYS2 的 Poetry+Python3.11 虚拟环境

鸿蒙jsonToArkTS_工具exe版本来了

上门服务小程序会员系统框架设计

鸿蒙UI（ArkUI-方舟UI框架）- 使用弹框

【react+antd+vite】优雅的引入svg和阿里巴巴图标

八、Python模块、包

华为OD最新机试真题-数组组成的最小数字-OD统一考试（B卷）

linux systemd 服务配置

基础线性代数

Android协程学习

GPU加速与非加速的深度学习张量计算对比Demo，使用PyTorch展示关键差异

面试总结一

微服务架构下的服务注册与发现：Eureka 深度解析

Dify源码教程：账户和密码传递分析

十六进制数字接收的方式

Linux程序运行日志总结

强化学习在LLM中应用：RLHF、DPO

RLHF：人类反馈的力量

DPO：直接偏好优化

相关文章：