当前位置：首页 > news >正文

浙大：优化视觉模型的过度思考

news 2025/7/2 5:00:49

在这里插入图片描述

📖标题：Fast-Slow Thinking for Large Vision-Language Model Reasoning
🌐来源：arXiv, 2504.18458

🌟摘要

🔸大型视觉语言模型（LVLM）的最新进展揭示了一种过度思考的现象，即模型在所有任务中生成冗长的推理，而不管问题如何。
🔸为了解决这个问题，我们提出了FAST，这是一个新颖的快慢思维框架，可以根据问题特征动态调整推理深度。通过实证分析，我们通过研究响应长度和数据分布如何影响LVLM的性能，建立了LVLM中快慢思维的可行性。我们开发了FAST-GRPO，它有三个组成部分：基于模型的问题表征度量、自适应思维奖励机制和感知难度的KL正则化。
🔸七个推理基准的实验表明，FAST实现了最先进的准确性，与基本模型相比相对提高了10%以上，同时与之前的慢思维方法相比，令牌使用量减少了32.7-67.3%，有效地平衡了推理长度和准确性。项目在https://github.com/Mr-Loevan/FAST

🛎️文章简介

🔸研究问题：大型视觉语言模型（LVLM）在推理过程中出现过度思考现象。
🔸主要贡献：论文提出了FAST框架，通过动态调整推理深度来平衡推理准确性与推理长度，显著提高了LVLM的性能。

📝重点思路

🔸实施长度奖励分析，以研究推理长度与准确性之间的关系，揭示模型在不同难度问题上的表现差异，探讨了快速-慢速思维在LVLM中的可行性。
🔸引入动态KL散度系数，根据问题的难度调整探索约束，以鼓励复杂问题的更广泛探索。
🔸提出困难和复杂性两个模型基础的指标，用于数据选择策略，以优化训练过程。
🔸开发FAST-GRPO算法，结合思维奖励塑造和难度感知的KL正则化，平衡推理的长度与准确性。

🔎分析总结

🔸实验结果显示，FAST框架使得LVLM在七个推理基准上表现出色，准确性平均提高超过10%。
🔸通过对比，FAST在推理长度上比传统慢思维模型减少了32.7%到67.3%的token使用，同时保持高准确性。
🔸研究发现，推理的准确性与响应长度之间并不总是存在正相关关系，表明在LVLM中快速-慢速思维的潜力。