当前位置: 首页 > java >正文

马里兰大学:LLM过度思考降低性能

在这里插入图片描述

📖标题:Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models
🌐来源:arXiv, 2506.04210

🌟摘要

🔸推理模型(例如 OpenAI o1、DeepSeek R1)测试时间缩放的最新趋势导致了一种流行的信念,即使用“Wait”或“让我重新思考”等提示扩展思维痕迹可以提高性能。这提出了一个自然的问题:在测试时更多地思考确实会导致更好的推理。
🔸为了回答这个问题,我们对模型和基准进行了详细的实证研究,这揭示了由于“过度思考”而导致的额外思维和下降的初始性能改进模式一致。为了了解这种非单调趋势,我们考虑了一个简单的概率模型,该模型揭示了额外的思维增加了输出方差——创造了一种改进推理的错觉,同时最终破坏了精度。因此,从“更多思考”观察到的收益并不是改进推理的真正指标,而是源于模型不确定性和评估指标之间的联系的伪影。这表明通过扩展思维测试时间缩放并不是利用推理思维预算的有效方法。认识到这些限制,我们引入了一种替代测试时间缩放方法,并行思维,灵感来自最佳 N 采样。
🔸我们的方法在相同的推理预算下生成多个独立的推理路径,并通过多数投票选择最一致的响应,与扩展思维相比,准确率提高了 20%。这为推理模型的测试时间缩放提供了一种简单而有效的机制。

🛎️文章简介

🔸研究问题:在测试时扩展思考过程是否始终能提高推理模型的表现?
🔸主要贡献:论文揭示了在测试时间推理模型中,过度思考会导致性能下降,并提出了一种新的测试时间扩展策略——平行思考,以更有效地利用计算预算。

📝重点思路

🔸通过两种预算控制方法系统地研究测试时间扩展策略,分别是“等待并多思考”和“精确思考令牌”。
🔸实验中使用了标准化的数学推理数据集,评估每种方法的推理性能并比较它们的准确性。
🔸提出了一种新的策略——平行思考,该方法通过同时生成多个独立的推理轨迹来绕过顺序过度思考的陷阱。

🔎分析总结

🔸实证研究发现,延长思考过程最初会提高准确性,但超出某一临界点后,准确性会下降,这一现象称为“过度思考”。
🔸实验表明,平行思考相比于顺序思考在不同基准测试上均表现出更好的性能,证明了其有效性。
🔸从方差驱动的角度分析,过度思考导致模型输出分布的方差增加,初期提高性能后最终却破坏了奖励对齐,导致性能下降。

💡个人观点

论文揭示了推理模型在测试时间扩展中的非单调性,生成多个独立的推理轨迹作为一种更有效的替代策略,以提高推理性能和利用计算资源的效率。

http://www.xdnf.cn/news/13465.html

相关文章:

  • 打卡第42天:简单CNN
  • PyTorch 中torch.einsum函数的使用详解和工程应用示例
  • QML显示图片问题解决办法
  • IDEA的git提交代码提交失败,有错误0 个文件已提交,1 个文件提交失败:
  • 双路 CPU 物理服务器租用服务
  • 鹰盾视频加密器Windows播放器禁止虚拟机运行的技术实现解析
  • 青藏高原ASTER_GDEM数据集(2011)
  • Linux C学习路线全概括及知识点笔记3-网络编程
  • AI 视频创作技术全解析:从环境搭建到实战落地​
  • 2025年的WWDC所更新的内容
  • JS 原型与原型链详解
  • mac redis以守护进程重新启动
  • MySQL之事务与视图
  • 【笔记】Kubernetes 中手动及自动化证书更换步骤及注意事项
  • 如何开启自己计算机远程桌面连接功能? 给别人或异地访问
  • 8.Vue的watch监视
  • 从sdp开始到webrtc的通信过程
  • 第二十六课:手搓梯度增强
  • 深入浅出:C++深拷贝与浅拷贝
  • Jadx(开源AVA反编译工具) v1.5.0
  • 编译线程安全的HDF5库
  • Python环境搭建竞赛技术
  • 代码训练LeetCode(29)最后一个单词的长度
  • Github月度新锐热门工具 - 202506
  • PyTorch:让深度学习像搭积木一样简单!!!
  • 邮件限流器
  • 《Redis》持久化
  • 国产linux系统(银河麒麟,统信uos)使用 PageOffice实现word 文档中的table插入新行并赋值
  • 论文略读:RegMix: Data Mixture as Regression for Language Model Pre-training
  • CATIA高效工作指南——常规配置篇(四)