推理模型不需要思考,伯克利新研究推翻AI刻板印象
DeepSeek带着它的思考推理闯入人们的视线,并带来一条增加思考计算量来提升大模型性能的道路。
一时间,各种AI模型都加入了“思考”过程,并以长时间多计算量的方式优化模型。
然而,思考得越多,性能就越好吗?
加州大学伯克利分校与艾伦人工智能研究所推翻了人们的刻板印象。原来,跳过思考,无需显式思维,推理模型也可以高效且准确。
传统思维链技术虽然提升了模型性能,增强模型可解释性,但仍存在许多劣势。
作为将问题分解,再分步推理,一步步组合得到最终答案的思维链技术,它常常依赖人工提示,若无精心设计,给出分步示例,它便会陷入无效推理。
由于显式生成了中间步骤,计算开销被迫提升,使其在实际应用中效果并不理想。该过程还会导致延迟,使得推理效率不尽人意。
跳过思考过程,是否能摆脱效率低下、资源浪费的问题?
研究人员借助提示,绕过显式推理,直接给出答案。
在实验中,研究人员使用了DeepSeek-R1的一个蒸馏模型DeepSeek-R1-Distill-Qwen-32B为主要模型,为其准备了数学问题、编程、定理证明等多方面的推理任务。
最终,在不控制token量时,跳过思考在定理证明任务中,可以使用30%的token达到与推理思考差不多的性能,节约大量资源。
但在其他任务中,该数据并没有这么夸张。
若是给定token预算,当模型用完该预算时,系统会直接强制模型给出答案。这种强制限制token用量的情况下,结果会有一些变化。
当预算极低(小于3000 tokens)时,跳过思考过程的模型具有明显优势,全程表现都比显式推理模型更佳。
当预算超过3500 tokens时,显式推理模型初时具有优势,但很快被跳过思考过程的模型追上。
这样看来,跳过思考的模式表现稳定且有效。于是研究团队增加了并行扩展,生成多个独立输出,并在适用于可自动验证的任务上选择通过验证的答案,在无法验证时,选择置信度最高的答案。
这样的情况下,跳过思考+并行扩展在MiniF2F任务中延迟低了6.47倍,tokens用量低了3.91倍,且准确率与显式推理模式相当。
在数学任务中,跳过思考模式则在低延迟中优于显式推理模式。
这样来看,大模型的“思考”似乎并没有想象中那么好用。为什么会这样?
定理证明并不依赖中间步骤,这让两种模式相当,而需要细致推理的编程任务中,跳过思考模式表现并不如显式推理。
不过,我们可以从这篇论文中看到,显式思考过程并不完全代表推理能力,且存在资源消耗大和延迟高的问题。
当资源受限时,可以采用跳过思考的方式,降低预算,减少延迟。有了并行扩展的加入,推理效率还可以继续提高。
如此一来,未来模型推理模式可能会出现新的分支,如何平衡计算资源和模型性能,该怎样分配显式推理和跳过思考模式,让模型得到进一步优化,将成为研究关键。