当前位置: 首页 > news >正文

II-Medical-8B论文速读:课程SFT,DPO和RL 为长思维链推理从无到有

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond

一、引言

Light-R1论文介绍了一个开源套件,用于使用可重现且成本效益高的方法训练长推理模型。该研究旨在解决大型推理模型(如DeepSeek-R1)在部署时面临的计算成本高昂问题,提出了利用公共数据和模型的替代方法。研究团队通过课程训练逐步增加数据难度,并结合多阶段后期训练,成功开发出LightR1-32B模型,该模型在数学推理方面优于DeepSeek-R1-DistillQwen-32B。

研究背景表明,自DeepSeek-R1发布以来,长推理链(Chain-of-Thought, COT)在基础AI模型和各种工业AI应用中广受欢迎。然而,部署完整的R1级模型(通常具有70B+参数)需要 prohibitive computational costs。因此,研究团队致力于开发在几十亿参数内即可执行长COT的紧凑型模型,这对于数学问题解决、算法规划和科学分析至关重要。

Light-R1系列模型的开发包括三个主要挑战:

  1. 编制高效的后期训练数据集

  2. 优化数据集的使用

  3. 实施强化学习以进一步提升模型性能

研究团队通过创新的算法和工程进步,系统地解决了这些挑战,并开源了模型、训练数据和代码,以促进复杂推理模型在实际应用中的可访问性和可实现性。

二、方法

数据准备

研究团队收集了约1000k道带有正确答案的数学问题作为种子集,并进行了数据去重和多样化处理。通过内部标签系统对问题进行分类,并对数据量过多的类别进行下采样。在数据去重方面,团队发现MATH500数据集存在大量被破坏的问题,而AIME24和25数据集保持未受污染。Light-R1采用了全面的去重方法,包括精确匹配和N-gram(N=32)匹配,以确保数据集的纯净性。

在数据生成方面,团队为监督微调(SFT)生成了全面的COT响应。通过使用DeepScaleR-1.5B-Preview模型对每个问题生成响应,并选择通过率低于α的问题进行DeepSeek-R1查询,最终构建了一个包含70k+示例的SFT数据集。然而,直接在此数据集上训练并未取得满意结果,因此团队实施了第二阶段的难度筛选,使用完整的DeepSeekR1模型保留通过率低于α的问题,形成了包含约3k示例的第二阶段SFT数据集。

课程式后期训练

Light-R1的课程式后期训练包括三个阶段:

  1. SFT阶段1:在76k筛选后的数学问题上训练

  2. SFT阶段2:在3k最具挑战性的问题上微调

  3. DPO优化:使用验证的响应对进行基于偏好的优化

SFT阶段采用课程数据策略,DPO阶段则使用半策略内方法和NCA损失函数。对于被拒绝的响应,团队从SFT阶段2模型中采样并验证其不正确的答案。由于一些被拒绝的响应长度达到32k tokens或更多,团队采用了具有序列并行性的DPO实现。

强化学习

研究团队在DeepSeek-R1-Distill-Qwen-14B模型上进行了强化学习实验。这是首次公开记录在已经长COT的14B模型上通过强化学习显著提升性能的工作。团队采用了两阶段过程:

  1. 离线数据选择:使用Light-R1-7BDS对RL训练提示进行采样,保留通过率在0.25到0.625之间的提示

  2. 在线强化学习:在筛选后的数据集上应用GRPO算法

团队还采用了两种技术来稳定RL训练过程:修改版的长度奖励和重要性采样权重裁剪。长度奖励方面,当答案正确时限制缩短奖励,以防止初始长度崩溃。重要性采样权重裁剪方面,实施了更广泛的双侧裁剪机制,以限制极端值的影响并稳定训练过程。

三、实验

Light-R1-32B的训练结果

实验结果显示,Light-R1-32B模型在课程SFT和DPO后期训练阶段均表现出一致的改进。在DPO之后,使用TIES-merging方法合并来自SFT阶段2、DPO和另一个DPO变体的模型,合并后的模型展现出额外的性能提升。尽管数学专注训练导致一些未训练的GPQA科学问题上的泛化能力有所下降,但Light-R1-32B仍显示出强大的泛化能力。

具体性能提升如下:

  • SFT阶段1后,AIME24和AIME25的分数分别为69.0和57.4

  • SFT阶段2后,分数提升至73.0和64.3

  • DPO优化后,分数进一步提升至75.8和63.4

  • 模型合并后,最终分数达到76.6和64.6

Light-R1-14B-DS的强化学习结果

强化学习训练表现出预期行为:响应长度和奖励分数同时增加。RL训练曲线显示,第一和第二轮似乎没有带来太多改进,但健康的训练曲线为继续训练提供了信心。最终,Light-R1-14B-DS在第三轮RL训练后,AIME24和AIME25的分数分别达到74.0和60.2。

四、结论

Light-R1系列模型成功解决了在资源限制下训练长推理模型的挑战。通过课程训练策略,研究团队从头开始训练了一个长COT模型。精心策划的3K数据集在各种模型尺寸上展现出显著的迁移能力,显著提升了DeepSeek-R1-Distill模型,并为7B、14B和32B参数的模型设立了新的性能基准。此外,团队还研究了在多阶段微调的强基模型上应用强化学习的有效性,在保持稳定响应长度增长的同时实现了卓越性能。

研究团队开源了模型、数据集和代码,旨在加速开发紧凑但强大的推理系统,特别是针对资源受限的应用。未来的工作将探索增强长推理模型的泛化能力,并进一步优化强化学习训练效率。

核心技术汇总

在这里插入图片描述

http://www.xdnf.cn/news/542395.html

相关文章:

  • 焊接结构动力疲劳计算
  • Nvidia - NVLink Fusion
  • CouchDB 可观测最佳实践
  • ChatGPT助力继续教育自动答题
  • PyTorch进阶实战指南:01自定义神经网络组件开发
  • LLM的应用
  • Java转Go日记(四十四):Sql构建
  • 服务器磁盘不同格式挂载区别
  • Python数据可视化再探——Matplotlib模块 之一
  • python-数据可视化(大数据、数据分析、可视化图像、HTML页面)
  • [ 计算机网络 ] 深入理解TCP/IP协议
  • 万亿健康服务市场新挑战:传统上门按摩平台的技术架构升级迫在眉睫
  • c语言- 如何构建CMake项目(Linux/VSCode)
  • uniapp-商城-63-后台 商品列表(分类展示商品的删除)
  • [每日一题] 3355. 零数组变换 i
  • 如何删除 HP 笔记本电脑中的所有数据:3 种解决方案说明
  • [Java] idea的调试介绍
  • win7无线网络名称显示为编码,连接对应网络不方便【解决办法】
  • Journal of Real-Time Image Processing 投稿过程
  • 推扫式高光谱相机VIX-N230重磅发布——开启精准成像新时代
  • Python爬虫(30)Python爬虫高阶:Selenium+Scrapy+Playwright融合架构,攻克动态页面与高反爬场景
  • 数论:数学王国的密码学
  • 新凌印 4.2.0 | 国内短视频去水印下载~图集下载
  • CodeBuddy全新升级:体验Craft智能体的对话式编程革命
  • 在 Excel 中使用东方仙盟软件————仙盟创梦IDE
  • Awesome ChatGPT Prompts:释放AI对话潜力的开源利器
  • java每日精进 5.20【MyBatis 联表分页查询】
  • NODE-I916 I721模块化电脑发布,AI算力与超低功耗的完美平衡
  • Java 06API时间类
  • CHI中ordering的抽象