马里兰大学:LLM过度思考降低性能
📖标题:Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models
🌐来源:arXiv, 2506.04210
🌟摘要
🔸推理模型(例如 OpenAI o1、DeepSeek R1)测试时间缩放的最新趋势导致了一种流行的信念,即使用“Wait”或“让我重新思考”等提示扩展思维痕迹可以提高性能。这提出了一个自然的问题:在测试时更多地思考确实会导致更好的推理。
🔸为了回答这个问题,我们对模型和基准进行了详细的实证研究,这揭示了由于“过度思考”而导致的额外思维和下降的初始性能改进模式一致。为了了解这种非单调趋势,我们考虑了一个简单的概率模型,该模型揭示了额外的思维增加了输出方差——创造了一种改进推理的错觉,同时最终破坏了精度。因此,从“更多思考”观察到的收益并不是改进推理的真正指标,而是源于模型不确定性和评估指标之间的联系的伪影。这表明通过扩展思维测试时间缩放并不是利用推理思维预算的有效方法。认识到这些限制,我们引入了一种替代测试时间缩放方法,并行思维,灵感来自最佳 N 采样。
🔸我们的方法在相同的推理预算下生成多个独立的推理路径,并通过多数投票选择最一致的响应,与扩展思维相比,准确率提高了 20%。这为推理模型的测试时间缩放提供了一种简单而有效的机制。
🛎️文章简介
🔸研究问题:在测试时扩展思考过程是否始终能提高推理模型的表现?
🔸主要贡献:论文揭示了在测试时间推理模型中,过度思考会导致性能下降,并提出了一种新的测试时间扩展策略——平行思考,以更有效地利用计算预算。
📝重点思路
🔸通过两种预算控制方法系统地研究测试时间扩展策略,分别是“等待并多思考”和“精确思考令牌”。
🔸实验中使用了标准化的数学推理数据集,评估每种方法的推理性能并比较它们的准确性。
🔸提出了一种新的策略——平行思考,该方法通过同时生成多个独立的推理轨迹来绕过顺序过度思考的陷阱。
🔎分析总结
🔸实证研究发现,延长思考过程最初会提高准确性,但超出某一临界点后,准确性会下降,这一现象称为“过度思考”。
🔸实验表明,平行思考相比于顺序思考在不同基准测试上均表现出更好的性能,证明了其有效性。
🔸从方差驱动的角度分析,过度思考导致模型输出分布的方差增加,初期提高性能后最终却破坏了奖励对齐,导致性能下降。
💡个人观点
论文揭示了推理模型在测试时间扩展中的非单调性,生成多个独立的推理轨迹作为一种更有效的替代策略,以提高推理性能和利用计算资源的效率。