当前位置: 首页 > news >正文

浙大:优化视觉模型的过度思考

在这里插入图片描述

📖标题:Fast-Slow Thinking for Large Vision-Language Model Reasoning
🌐来源:arXiv, 2504.18458

🌟摘要

🔸大型视觉语言模型(LVLM)的最新进展揭示了一种过度思考的现象,即模型在所有任务中生成冗长的推理,而不管问题如何。
🔸为了解决这个问题,我们提出了FAST,这是一个新颖的快慢思维框架,可以根据问题特征动态调整推理深度。通过实证分析,我们通过研究响应长度和数据分布如何影响LVLM的性能,建立了LVLM中快慢思维的可行性。我们开发了FAST-GRPO,它有三个组成部分:基于模型的问题表征度量、自适应思维奖励机制和感知难度的KL正则化。
🔸七个推理基准的实验表明,FAST实现了最先进的准确性,与基本模型相比相对提高了10%以上,同时与之前的慢思维方法相比,令牌使用量减少了32.7-67.3%,有效地平衡了推理长度和准确性。项目在https://github.com/Mr-Loevan/FAST

🛎️文章简介

🔸研究问题:大型视觉语言模型(LVLM)在推理过程中出现过度思考现象。
🔸主要贡献:论文提出了FAST框架,通过动态调整推理深度来平衡推理准确性与推理长度,显著提高了LVLM的性能。

📝重点思路

🔸实施长度奖励分析,以研究推理长度与准确性之间的关系,揭示模型在不同难度问题上的表现差异,探讨了快速-慢速思维在LVLM中的可行性。
🔸引入动态KL散度系数,根据问题的难度调整探索约束,以鼓励复杂问题的更广泛探索。
🔸提出困难和复杂性两个模型基础的指标,用于数据选择策略,以优化训练过程。
🔸开发FAST-GRPO算法,结合思维奖励塑造和难度感知的KL正则化,平衡推理的长度与准确性。

🔎分析总结

🔸实验结果显示,FAST框架使得LVLM在七个推理基准上表现出色,准确性平均提高超过10%。
🔸通过对比,FAST在推理长度上比传统慢思维模型减少了32.7%到67.3%的token使用,同时保持高准确性。
🔸研究发现,推理的准确性与响应长度之间并不总是存在正相关关系,表明在LVLM中快速-慢速思维的潜力。

💡个人观点

论文的核心在于根据不同问题难度约束模型探索能力,通过快慢思维的动态调整机制,针对视觉输入的特点综合考量推理长度和准确性。

🧩附录

在这里插入图片描述

http://www.xdnf.cn/news/262567.html

相关文章:

  • 【Godot】生命周期详解:从节点诞生到销毁的全流程解析
  • 软件工程实践
  • sonar-scanner在扫描JAVA项目时为什么需要感知.class文件
  • Redis持久化:
  • 栈系列一>基本计算器II
  • 数据库介绍以及windows下mysql安装
  • day 11 超参数调整
  • react18基础速成
  • AIGC时代——语义化AI驱动器:提示词的未来图景与技术深潜
  • Elasticsearch:RAG 和 grounding 的价值
  • 机器人--MCU
  • 【React】Hooks useReducer 详解,让状态管理更可预测、更高效
  • 提升办公效率的PDF转图片实用工具
  • Python面向对象编程实战:从类定义到高级特性的进阶之旅(2/10)
  • 参数包展开到初始化列表
  • WGDI-分析WGD及祖先核型演化的集成工具-文献精读126
  • 【中间件】brpc_基础_execution_queue
  • OpenharmonyOS+RK3568,【编译烧录】
  • Ubuntu 24.04 通过 update-alternatives 切换GCC版本
  • 什么是多租户系统
  • Maven 实现多模块项目依赖管理
  • WITH在MYSQL中的用法
  • 具身系列——PPO算法实现CartPole游戏(强化学习)
  • Oracle OCP认证考试考点详解083系列04
  • 单片机嵌入式按键库
  • Maven安装配置以及Idea中的配置教程
  • C# 操作符
  • 【LeetCode Hot100】栈篇
  • 计算机视觉与深度学习 | 视觉里程计算法综述(传统+深度)
  • 复刻低成本机械臂 SO-ARM100 组装篇(打螺丝喽)