当前位置: 首页 > ds >正文

推理模型不需要思考,伯克利新研究推翻AI刻板印象

DeepSeek带着它的思考推理闯入人们的视线,并带来一条增加思考计算量来提升大模型性能的道路。

一时间,各种AI模型都加入了“思考”过程,并以长时间多计算量的方式优化模型。

然而,思考得越多,性能就越好吗?

加州大学伯克利分校与艾伦人工智能研究所推翻了人们的刻板印象。原来,跳过思考,无需显式思维,推理模型也可以高效且准确。

图片

传统思维链技术虽然提升了模型性能,增强模型可解释性,但仍存在许多劣势。

作为将问题分解,再分步推理,一步步组合得到最终答案的思维链技术,它常常依赖人工提示,若无精心设计,给出分步示例,它便会陷入无效推理。

由于显式生成了中间步骤,计算开销被迫提升,使其在实际应用中效果并不理想。该过程还会导致延迟,使得推理效率不尽人意。

跳过思考过程,是否能摆脱效率低下、资源浪费的问题?

研究人员借助提示,绕过显式推理,直接给出答案。

在实验中,研究人员使用了DeepSeek-R1的一个蒸馏模型DeepSeek-R1-Distill-Qwen-32B为主要模型,为其准备了数学问题、编程、定理证明等多方面的推理任务。

图片

最终,在不控制token量时,跳过思考在定理证明任务中,可以使用30%的token达到与推理思考差不多的性能,节约大量资源。

图片

但在其他任务中,该数据并没有这么夸张。

若是给定token预算,当模型用完该预算时,系统会直接强制模型给出答案。这种强制限制token用量的情况下,结果会有一些变化。

当预算极低(小于3000 tokens)时,跳过思考过程的模型具有明显优势,全程表现都比显式推理模型更佳。

当预算超过3500 tokens时,显式推理模型初时具有优势,但很快被跳过思考过程的模型追上。

这样看来,跳过思考的模式表现稳定且有效。于是研究团队增加了并行扩展,生成多个独立输出,并在适用于可自动验证的任务上选择通过验证的答案,在无法验证时,选择置信度最高的答案。

这样的情况下,跳过思考+并行扩展在MiniF2F任务中延迟低了6.47倍,tokens用量低了3.91倍,且准确率与显式推理模式相当。

图片

在数学任务中,跳过思考模式则在低延迟中优于显式推理模式。

这样来看,大模型的“思考”似乎并没有想象中那么好用。为什么会这样?

定理证明并不依赖中间步骤,这让两种模式相当,而需要细致推理的编程任务中,跳过思考模式表现并不如显式推理。

不过,我们可以从这篇论文中看到,显式思考过程并不完全代表推理能力,且存在资源消耗大和延迟高的问题。

当资源受限时,可以采用跳过思考的方式,降低预算,减少延迟。有了并行扩展的加入,推理效率还可以继续提高。

如此一来,未来模型推理模式可能会出现新的分支,如何平衡计算资源和模型性能,该怎样分配显式推理和跳过思考模式,让模型得到进一步优化,将成为研究关键。

http://www.xdnf.cn/news/1657.html

相关文章:

  • 机器学习(8)——主成分分析
  • 基于单片机的游泳馆智能管理系统
  • 【网络】TCP/IP协议学习
  • Kafka 命令行样例大全
  • 【记录手贱bug日常】IDEA 配置vmoptions后打不开,重新安装,删注册表均无用
  • 软考:数值转换知识点详解
  • 矩阵系统源码搭建账号分组功能开发全流程解析,支持OEM
  • 图论---朴素Prim(稠密图)
  • 如何在 Vue 3 中实现一个自定义的 `v-html` 组件
  • 蓝桥杯嵌入式系统设计:高效编程与调试方法全解析
  • 基于大模型的食管平滑肌瘤全周期预测与诊疗方案研究
  • 解释器模式:自定义语言解析与执行的设计模式
  • nodejs之Express-介绍、路由
  • 《逃离云端束缚,拥抱GPT本地部署》
  • 深度学习-数值稳定性和模型初始化
  • ZooKeeper配置优化秘籍:核心参数说明与性能优化
  • 实时数字人——DH_LIVE
  • 矩阵运算和线性代数操作开源库
  • Unreal Niagara制作SubUV贴图翻页动画
  • 实现营销投放全流程自动化 超级汇川推出信息流智能投放产品“AI智投“
  • DDD领域驱动与传统CRUD
  • 缓存集群技术深度解析:从原理到实战
  • 数据结构-排序
  • C#基于Sunnyui框架和MVC模式实现用户登录管理
  • PH热榜 | 2025-04-24
  • 【网络应用程序设计】实验四:物联网监控系统
  • 发币流程是什么,需要多少成本?
  • 深入详解人工智能数学基础——概率论中的KL散度在变分自编码器中的应用
  • 数据库安装和升级和双主配置
  • 深度解析:基于Python的微信小程序自动化操作实现