当前位置：首页 > ds >正文

推理模型不需要思考，伯克利新研究推翻AI刻板印象

ds 2025/7/5 19:08:33

DeepSeek带着它的思考推理闯入人们的视线，并带来一条增加思考计算量来提升大模型性能的道路。

一时间，各种AI模型都加入了“思考”过程，并以长时间多计算量的方式优化模型。

然而，思考得越多，性能就越好吗？

加州大学伯克利分校与艾伦人工智能研究所推翻了人们的刻板印象。原来，跳过思考，无需显式思维，推理模型也可以高效且准确。

传统思维链技术虽然提升了模型性能，增强模型可解释性，但仍存在许多劣势。

作为将问题分解，再分步推理，一步步组合得到最终答案的思维链技术，它常常依赖人工提示，若无精心设计，给出分步示例，它便会陷入无效推理。

由于显式生成了中间步骤，计算开销被迫提升，使其在实际应用中效果并不理想。该过程还会导致延迟，使得推理效率不尽人意。

跳过思考过程，是否能摆脱效率低下、资源浪费的问题？

研究人员借助提示，绕过显式推理，直接给出答案。

在实验中，研究人员使用了DeepSeek-R1的一个蒸馏模型DeepSeek-R1-Distill-Qwen-32B为主要模型，为其准备了数学问题、编程、定理证明等多方面的推理任务。

最终，在不控制token量时，跳过思考在定理证明任务中，可以使用30%的token达到与推理思考差不多的性能，节约大量资源。

但在其他任务中，该数据并没有这么夸张。

若是给定token预算，当模型用完该预算时，系统会直接强制模型给出答案。这种强制限制token用量的情况下，结果会有一些变化。

当预算极低（小于3000 tokens）时，跳过思考过程的模型具有明显优势，全程表现都比显式推理模型更佳。

当预算超过3500 tokens时，显式推理模型初时具有优势，但很快被跳过思考过程的模型追上。

这样看来，跳过思考的模式表现稳定且有效。于是研究团队增加了并行扩展，生成多个独立输出，并在适用于可自动验证的任务上选择通过验证的答案，在无法验证时，选择置信度最高的答案。

这样的情况下，跳过思考+并行扩展在MiniF2F任务中延迟低了6.47倍，tokens用量低了3.91倍，且准确率与显式推理模式相当。

在数学任务中，跳过思考模式则在低延迟中优于显式推理模式。

这样来看，大模型的“思考”似乎并没有想象中那么好用。为什么会这样？

定理证明并不依赖中间步骤，这让两种模式相当，而需要细致推理的编程任务中，跳过思考模式表现并不如显式推理。

不过，我们可以从这篇论文中看到，显式思考过程并不完全代表推理能力，且存在资源消耗大和延迟高的问题。

当资源受限时，可以采用跳过思考的方式，降低预算，减少延迟。有了并行扩展的加入，推理效率还可以继续提高。

如此一来，未来模型推理模式可能会出现新的分支，如何平衡计算资源和模型性能，该怎样分配显式推理和跳过思考模式，让模型得到进一步优化，将成为研究关键。

查看全文

http://www.xdnf.cn/news/1657.html

【记录手贱bug日常】IDEA 配置vmoptions后打不开，重新安装，删注册表均无用

软考：数值转换知识点详解

矩阵系统源码搭建账号分组功能开发全流程解析，支持OEM

图论---朴素Prim（稠密图）

如何在 Vue 3 中实现一个自定义的 `v-html` 组件

蓝桥杯嵌入式系统设计：高效编程与调试方法全解析

基于大模型的食管平滑肌瘤全周期预测与诊疗方案研究

解释器模式：自定义语言解析与执行的设计模式

nodejs之Express-介绍、路由

《逃离云端束缚，拥抱GPT本地部署》

深度学习-数值稳定性和模型初始化

ZooKeeper配置优化秘籍：核心参数说明与性能优化

实时数字人——DH_LIVE

矩阵运算和线性代数操作开源库

Unreal Niagara制作SubUV贴图翻页动画

实现营销投放全流程自动化超级汇川推出信息流智能投放产品“AI智投“

DDD领域驱动与传统CRUD

缓存集群技术深度解析：从原理到实战

数据结构-排序

C#基于Sunnyui框架和MVC模式实现用户登录管理

PH热榜 | 2025-04-24

【网络应用程序设计】实验四：物联网监控系统

发币流程是什么，需要多少成本？

深入详解人工智能数学基础——概率论中的KL散度在变分自编码器中的应用

数据库安装和升级和双主配置

深度解析：基于Python的微信小程序自动化操作实现

相关文章：