当前位置: 首页 > ops >正文

【大模型】大模型微调-RLHF(强化学习)

上篇介绍了PEFT(LORA)参数微调,这篇介绍RLHF(基于人类反馈的强化学习)

RLHF

  1. 背景与目标

大模型(如 GPT、LLaMA 等)在 预训练阶段 学到的是 预测下一个 token 的能力,但:

它生成的回答可能 不符合人类偏好(冗长、跑题、有害内容)。

单纯监督微调(SFT)只能让模型模仿数据,缺乏对“质量/偏好”的优化。

因此,需要一种方法让模型输出 更符合人类期望 —— 这就是 RLHF。

  1. RLHF 的三大核心阶段
    (1) 监督微调(Supervised Fine-Tuning, SFT)

数据:人工编写的 高质量问答对。

方法:用这些数据 微调预训练模型。

结果:得到一个初步的 “对齐模型”,它能回答问题,但还不一定稳定。

(2) 奖励模型(Reward Model, RM)训练

数据:人工对 多个模型输出 进行 排序/偏好标注,如:

Prompt: "解释相对论"
答案 A: 很简洁,科学准确
答案 B: 冗长且啰嗦
→ 人类选择 A 
http://www.xdnf.cn/news/19387.html

相关文章:

  • Certificate is Signed Using a Weak Signature Algorithm漏洞解决
  • Uniapp 图片前端上传功能实现与详解
  • JVM:内存区域划分、类加载的过程、垃圾回收机制
  • 【Spring Cloud微服务】8.深度实战:微服务稳定性的守护神——Sentinel
  • 项目升级--mysql主从复制和读写分离
  • 统计学的“尝汤原理”:用生活案例彻底理解中心极限定理
  • 9.1C++——类中特殊的成员函数
  • GitHub 热榜项目 - 日榜(2025-09-01)
  • Android面试指南(六)
  • 科学研究系统性思维的方法体系:数据收集模板
  • 【Docker】Docker的容器Container、镜像Image和卷Volume对比
  • JVM核心机制:类加载与内存结构详解
  • Axios与Ajax:现代Web请求大比拼
  • 彻底搞懂 C++ 中的 `typename`
  • datax将数据从starrocks迁移至starrocks
  • 拆解期货交易所:清算交收体系!
  • MySQL 8 窗口函数详解
  • 【LeetCode热题100道笔记+动画】单词拆分
  • 报错处理(1)激活conda环境后pip库不能安装到已经激活的这个环境
  • 小迪Web自用笔记23
  • 红帽企业 Linux 系统性能调优指南
  • mapstruct原理以及使用对比
  • nginx-realip问题解决方案
  • 算法面试题(上)
  • 前阿里专家揭秘:你对中国十大GEO专家的认知,99%都是错的
  • 吴恩达机器学习作业十二:协同过滤(电影推荐系统)
  • 使用 BayesFlow 通过神经网络简化贝叶斯推断(一)
  • 中医文化学习软件,传承国粹精华
  • 动态滑动窗口还搞不清?一文搞定动态滑动窗口 | 基础算法
  • Windows系统安装Git详细教程