当前位置: 首页 > news >正文

[Token]What Kind of Visual Tokens Do We Need? AAAI2025

What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph
我们需要什么样的视觉标记?从图的角度看多模态大型语言模型的免训练可视化标记剪枝
paper|code

代码集成度较高,主要剪枝实现代码

文章目录

  • Abstract
  • Motivation
  • Method
  • Experiment
  • Inspiration

Abstract

多模态大型语言模型经常使用大量的视觉标记来弥补其视觉缺陷,导致计算量过大,视觉冗余明显。在本文中,我们研究了 MLLM 需要什么样的视觉标记,前景和背景标记对于 MLLM 都至关重要。基于这一观察,我们提出了一种基于图的免训练视觉标记修剪方法,G-Prune将视觉token视为节点,并根据它们的语义相似性构建它们的连接。之后,信息流通过加权链接传播,迭代后最重要的token保留给 MLLM。

Motivation

在这里插入图片描述
Fig. 1(a)分别展示了随机裁剪、保前景裁剪、保背景裁剪和G-Prune几种裁剪方式的acc随着裁剪率变化的曲线。
Fig. 1(b)展示了整个图像及其特定背景和前景区域的频率分布,计算前景和背景的𝑙2-Norm频率分布直方图,发现它们的分布具有显着的重叠。

为什么这里要展示L2Norm-频率直方图?
L2-Norm用来衡量特征对图片决策的重要程度。如果直接剪掉L2-Norm较低的分支,可能会误删图像中的重要信息。这里统计了整张图片、背景和前景在不同L2-Norm上的频率,重叠部分表示MLLM 任务需要更精细的剪枝策略(如 G-Prune),不能简单依赖 L2-Norm 或前景保留。

将视觉token视为图形节点,并根据特征距离构建其连接。之后,通过迭代算法在节点之间进行信息传播,以更新重要性得分。最后,可以为MLLM选择最重要的令牌,这可能是前景或背景。这样,可以为MLLM选择最代表的视觉令牌,从而大大降低了序列长度和计算复杂性。

Method

在这里插入图片描述
在这里插入图片描述

Experiment

在这里插入图片描述
在这里插入图片描述
消融实验

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Inspiration

group放到mamba做分组扫描

http://www.xdnf.cn/news/324685.html

相关文章:

  • python学智能算法(十一)|机器学习逻辑回归深入(Logistic回归)
  • skywalking服务安装与启动
  • AbMole的Calcein-AM/PI细胞双染试剂盒,精准区分细胞活死状态
  • Search After+PIT 解决ES深度分页问题
  • react+ts中函数组件父子通信方式
  • C#——NET Core 中实现汉字转拼音
  • Spring MVC Controller 方法的返回类型有哪些?
  • 项目优先级频繁变动,如何应对?
  • C++入门之认识整型
  • 使用OpenCV 和 Dlib 实现人脸融合技术
  • shell(11)
  • 使用ffmpeg截取MP3等音频片段
  • MCP Client适配DeepSeek
  • SpringBoot 集成 Ehcache 实现本地缓存
  • Vue3 自定义指令的原理,以及应用
  • Ubuntu 单机多卡部署脚本: vLLM + DeepSeek 70B
  • ERP进销存系统源码,SaaS模式多租户ERP管理系统,SpringBoot、Vue、UniAPP技术框架
  • 基于nnom的多选择器
  • springboot国家化多语言实现
  • mybatis-plus分页查询count语句为什么没有left join
  • 正则表达式非捕获分组?:
  • CHAPTER 17 Iterators, Generators, and Classic Coroutines
  • 构建高质量数据湖:大数据治理在湖仓一体架构下的实践指南
  • mathtype转化
  • Vivo 手机官网交互效果实现解析
  • arXiv论文 MALOnt: An Ontology for Malware Threat Intelligence
  • ubuntu中解决matplotlib无法显示中文问题
  • 【MVCP】基于解纠缠表示学习和跨模态-上下文关联挖掘的多模态情感分析
  • 码蹄集——平方根X、整除幸运数
  • Rust 与 Golang 深度对决:从语法到应用场景的全方位解析