当前位置: 首页 > backend >正文

DeepSeek指令微调与强化学习对齐:从SFT到RLHF

后训练微调的重要性

预训练使大模型获得丰富的语言和知识表达能力,但其输出往往与用户意图和安全性需求不完全匹配。业内普遍采用三阶段训练流程:预训练 → 监督微调(SFT)→ 人类偏好对齐(RLHF)。预训练阶段模型在大规模语料上学习语言规律;监督微调利用人工标注的数据让模型更擅长理解和执行指令;对齐阶段则通过强化学习或其他方法进一步优化,使模型输出更有用、符合人类偏好并更安全。这种后续微调策略显著提高了模型的实用性和安全性,弥补了纯预训练模型的局限。

DeepSeek的指令微调策略

以DeepSeek V2为例,其指令微调数据集规模高达约150万条。其中,**“有益”数据约120万条(包括对话、数学题、编程题等),“安全”**数据约30万条(涵盖各种敏感问题及拒绝回答的多样化示例)。这些数据经人工和算法共同筛选以提升质量,减少模型幻觉和不当回答。微调过程中,模型的训练目标是使其生成符合示范答案的高质量回复,即最大化正确回答的可能性并注重准确性。在实际经验中,大规模高质量的SFT数据往往能显著提升模型表现,DeepSeek V2在这个数据集上训练了多轮(2个epoch)微调,学习率很低(约5×10^-6)

http://www.xdnf.cn/news/6833.html

相关文章:

  • 【MySQL进阶】如何在ubuntu下安装MySQL数据库
  • React中useState中更新是同步的还是异步的?
  • 配置git从公网能访问-基于frp
  • Oracle 的 ASSM 表空间
  • 【论文阅读】人脸修复(face restoration ) 不同先验代表算法整理
  • 06、基础入门-SpringBoot-依赖管理特性
  • Linux之Nginx安装及配置原理篇(一)
  • 设计模式 - 单例模式 - Tips
  • 面试真题 - 高并发场景下Nginx如何优化
  • 开源安全大模型Foundation-Sec-8B实操
  • C语言_动态内存管理
  • 18.自动化生成知识图谱的多维度质量评估方法论
  • (9)python开发经验
  • NDS3211HV单路H.264/HEVC/HD视频编码器
  • math toolkit for real-time development读书笔记一三角函数快速计算(1)
  • Guided Filtering相关记录
  • 牛客网NC22222:超半的数
  • 登高架设作业人员的职业发展方向有哪些?
  • Lazada测评补单系统搭建指南:从环境到账号的要点把控
  • 深入解析Shell脚本编程:从基础到实战的全面指南
  • L52.【LeetCode题解】二分法习题集1
  • BigemapPro小技巧:如何只显示特定区域内的点
  • Linux 内核版本详解
  • 数据中心末端配电监控产品
  • STM32F407VET6实战:CRC校验
  • Python-homework
  • 1Panel应用推荐:Beszel轻量级服务器监控平台
  • UE RPG游戏开发练手 第二十七课 普通攻击2
  • 使用Mathematica制作Lorenz吸引子的轨道追踪视频
  • 海盗王3.0的数据库3合1并库处理方案