当前位置：首页 > ops >正文

【大模型】大模型微调-RLHF(强化学习)

ops 2025/9/3 12:04:52

上篇介绍了PEFT(LORA)参数微调，这篇介绍RLHF(基于人类反馈的强化学习)

RLHF

背景与目标

大模型（如 GPT、LLaMA 等）在预训练阶段学到的是预测下一个 token 的能力，但：

它生成的回答可能不符合人类偏好（冗长、跑题、有害内容）。

单纯监督微调（SFT）只能让模型模仿数据，缺乏对“质量/偏好”的优化。

因此，需要一种方法让模型输出更符合人类期望 —— 这就是 RLHF。

RLHF 的三大核心阶段
(1) 监督微调（Supervised Fine-Tuning, SFT）

数据：人工编写的高质量问答对。

方法：用这些数据微调预训练模型。

结果：得到一个初步的 “对齐模型”，它能回答问题，但还不一定稳定。

(2) 奖励模型（Reward Model, RM）训练

数据：人工对多个模型输出进行排序/偏好标注，如：

Prompt: "解释相对论"
答案 A: 很简洁，科学准确
答案 B: 冗长且啰嗦
→ 人类选择 A

查看全文

http://www.xdnf.cn/news/19387.html

Certificate is Signed Using a Weak Signature Algorithm漏洞解决

Uniapp 图片前端上传功能实现与详解

JVM：内存区域划分、类加载的过程、垃圾回收机制

【Spring Cloud微服务】8.深度实战：微服务稳定性的守护神——Sentinel

项目升级--mysql主从复制和读写分离

统计学的“尝汤原理”：用生活案例彻底理解中心极限定理

9.1C++——类中特殊的成员函数

GitHub 热榜项目 - 日榜(2025-09-01)

Android面试指南（六）

科学研究系统性思维的方法体系：数据收集模板

【Docker】Docker的容器Container、镜像Image和卷Volume对比

JVM核心机制：类加载与内存结构详解

Axios与Ajax：现代Web请求大比拼

彻底搞懂 C++ 中的 `typename`

datax将数据从starrocks迁移至starrocks

拆解期货交易所：清算交收体系！

MySQL 8 窗口函数详解

【LeetCode热题100道笔记+动画】单词拆分

报错处理（1）激活conda环境后pip库不能安装到已经激活的这个环境

前阿里专家揭秘：你对中国十大GEO专家的认知，99%都是错的

吴恩达机器学习作业十二：协同过滤（电影推荐系统）

使用 BayesFlow 通过神经网络简化贝叶斯推断（一）

中医文化学习软件，传承国粹精华

动态滑动窗口还搞不清？一文搞定动态滑动窗口 | 基础算法

Windows系统安装Git详细教程

RLHF

相关文章：