当前位置：首页 > news >正文

CAR：推理长度自适应新框架，提升精度同时还降低推理token数！！

news 2025/6/10 10:53:55

摘要：近期在推理领域的进展显著提升了大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在多样化任务中的能力。然而，过度依赖链式思维（CoT）推理可能会削弱模型性能，并带来不必要的冗长输出，从而降低效率。我们的研究表明，过度的推理并不总能提高准确性，甚至在简单任务上可能会降低性能。为了解决这一问题，我们提出了基于确定性的自适应推理（CAR），这是一个新颖的框架，能够根据模型的困惑度动态地在简短回答和长篇推理之间切换。CAR首先生成一个简短的回答，并评估其困惑度，仅在模型表现出低置信度（即高困惑度）时才触发推理。在多样化的多模态视觉问答（VQA）/关键信息提取（KIE）基准测试和文本推理数据集上的实验表明，CAR在准确性和效率之间达到了最佳平衡，优于单纯的简短回答和长篇推理方法。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 模型训练

3.2 获取短答案的困惑度 (PPL)

3.3 高斯分布建模

3.4 推理流程

四、实验结论

4.1 长篇推理的局限性

4.2 CAR框架有效性

4.3 PPL指标可靠性

五、总结

一、背景动机

论文题目：Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

论文地址：https://arxiv.org/pdf/2505.15154

大语言模型和多模态大模型在多种任务中表现出色，尤其是在复杂推理任务中。然而，过度依赖链式思考（CoT）推理可能会降低模型性能，并导致输出过长，从而降低效率。研究表明，长形式推理主要在数学和符号任务中提高 LLM 性能，而在其他类型的任务中收益甚微，甚至在某些简单任务中会损害模型性能。

基于此，文章针对LLM/MLLM 是否可以自适应地决定何时进行推理，仅在简单答案不足以满足需求时选择性地激活推理，以平衡计算效率和任务性能这个问题进行了研究，提出一种自适应推理框架。

二、核心贡献

1、提出了 CAR 框架，这是一个基于模型置信度动态切换短答案和长形式推理的新方法，实现了准确性和计算效率之间的最佳平衡。

2、通过广泛的初步研究，验证了困惑度（PPL）可以作为模型置信度的可靠指标，并通过高斯建模建立了其与答案正确性的关系。

3、在 LLM 和 MLLM 上进行的广泛实验表明，CAR 在保持推理准确性的同时，显著减少了推理标记的使用，优于短答案和长形式推理方法。

三、实现方法

3.1 模型训练

训练数据集包含两种类型的注释：短答案和长形式推理答案。短答案是直接输出的答案，而长形式推理答案则包含逐步的推理过程和最终答案。
使用标准的指令调整过程（instruction tuning）对模型进行训练。模型通过优化交叉熵损失函数来学习生成短答案和长形式推理答案。

3.2 获取短答案的困惑度 (PPL)

在训练完成后，模型对训练数据集中的每个示例进行短答案推理，并计算每个短答案的困惑度（PPL）。

3.3 高斯分布建模

为了根据 PPL 值判断短答案的正确性，文章假设正确和错误短答案的 PPL 分布分别遵循高斯分布。
- 正确答案的 PPL 分布：假设为 $N(\mu _{1}, \sigma_{1}^{2})$
- 错误答案的 PPL 分布：假设为 $N(\mu _{0}, \sigma_{0}^{2})$
通过训练数据集中的短答案 PPL 值，估计这两个高斯分布的参数：

3.4 推理流程

短答案生成：模型首先为输入问题生成一个短答案，并计算其 PPL 值。
概率计算：根据高斯分布模型，计算短答案属于正确和错误分布的概率

决策：如果 P(C=1∣PPLnew)>P(C=0∣PPLnew)，则认为短答案是准确的，直接输出该短答案；否则，模型将执行长形式推理以获得更准确的答案。

四、实验结论

4.1 长篇推理的局限性

长篇推理（CoT）并非在所有任务中都能提高模型性能。在一些简单的任务中，长篇推理反而会降低准确率，并且显著增加输出长度，导致效率低下。
在文本丰富的视觉问答（VQA）和关键信息抽取（KIE）数据集上，短答案模型的准确率高于长篇推理模型（45.7% vs. 34.1%），且长篇推理模型的输出长度平均为572.3个token，而短答案模型仅为13.9个token。

4.2 CAR框架有效性

CAR框架通过评估模型对短答案的困惑度（PPL）来动态决定是否需要进行长篇推理。如果模型对短答案的置信度低（即PPL高），则触发长篇推理。
CAR在多种多模态VQA/KIE基准测试和文本推理数据集上的表现优于纯短答案和纯长篇推理方法，同时在保持高准确率的同时显著减少了推理所需的token数量。
- 在多模态数据集上，CARQwen2VL的平均准确率为77.9%，比短答案和长篇推理基线分别提高了2.8%和5.5%，且平均token使用量仅为86.9，仅为长篇推理的15%。
- 在文本推理数据集上，CARQwen2.5的平均准确率为81.1%，比短答案和长篇推理分别提高了25.3%和6.1%，同时token使用量减少了45.1%。

4.3 PPL指标可靠性

文章验证了PPL可以作为模型置信度的可靠指标，正确答案的PPL显著低于错误答案，表明低PPL与高置信度和高准确率相关。
在多个数据集上，正确答案的平均PPL为1.15，而错误答案的平均PPL为1.28。

五、总结

文章提出了 CAR 框架，这是一个基于模型置信度动态切换短答案和长形式推理的新方法。CAR 通过使用 PPL 作为置信度指标，有效地平衡了准确性和计算效率。在多种多模态和文本数据集上的实验表明，CAR 在保持推理准确性的同时，显著减少了推理标记的使用，优于现有的短答案和长形式推理方法。

http://www.xdnf.cn/news/958807.html

相关文章：

python爬虫之数据存储

LangChain 中的文档加载器（Loader）与文本切分器（Splitter）详解《一》

视频监控厂商“以图搜图”能力比对(大华/海康)

Java数值运算常见陷阱与规避方法

华为WLAN概述知识点及案例试题

java高级——高阶函数、如何定义一个函数式接口类似stream流的filter

项目课题——基于LoRa的农业环境监测节点

GC-QA-RAG 智能问答系统的问答生成

Spring Bean的初始化过程是怎么样的?

ROS mapserver制作静态地图

FreeRTOS学习01_移植FreeRTOS到STM32（图文详解）

前缀和+哈希：和为K的子数组

免费好用的专业提词器有哪些～～～

复盘与导出工具最新版V24.5版本更新--精选新增盘中板块涨停数量

2025季度云服务器排行榜

通过meta分析确定先验并进行贝叶斯分析的构想

常见算法与数据结构

std::ratio 简单使用举例

【生产就曲篇】让应用可观测：Actuator监控端点与日志最佳实践

操作系统 | Linux：第一章初识Linux

使用Docker部署操作系统

.NET 2025年第 75 期工具库和资源汇总

【PX4飞控】mavros gps相关话题分析，经纬度海拔获取方法，卫星数锁定状态获取方法

StarRocks 全面向量化执行引擎深度解析

Spring AI Chat Memory 实战指南：Local 与 JDBC 存储集成

YoloV8改进策略：Block改进|FCM，特征互补映射模块|AAAI 2025|即插即用

【三方库研读】facebook/folly中File类原理与作用深度解析

PydanticAI快速入门示例

JS手写代码篇----使用Promise封装AJAX请求