A Minimalist Approach to LLM Reasoning: from RejectionSampling to Reinforce
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforcehttps://arxiv.org/pdf/2504.11343
1.介绍
我们研究了在微调大型语言模型(LLMs)时使用可验证奖励的强化学习(RL)算法。我们的重点是数学推理任务,这些任务在OpenAI的O1模型和DeepSeek-R1发布后最近受到了显著关注。LLM后训练的主要方法一直是近端策略优化(PPO),然而,PPO需要一个额外的评论家网络,超出了基本的强化算法,引入了计算开销和算法复杂性。同时,LLM的确定性转换特性也简化了问题