当前位置: 首页 > web >正文

[论文阅读]人工智能 | CoMemo:给大视觉语言模型装个“图像记忆”

【论文速览】CoMemo:给大视觉语言模型装个“图像记忆”

论文信息

Liu, S., Su, W., Zhu, X., Wang, W., & Dai, J. (2025). CoMemo: LVLMs Need Image Context with Image Memory. arXiv preprint arXiv:2506.06279.

一、研究背景:当LVLMs遇到“视觉健忘症”

想象一下,你在阅读一本图文并茂的小说时,随着文字篇幅越来越长,你可能会逐渐忘记前面图片里的关键细节——比如主角的外貌特征或场景中的重要道具。这就是当前大型视觉语言模型(LVLMs)面临的真实困境:

1. “中间信息消失之谜”

传统LVLMs采用类似语言模型的因果自注意力机制,导致**“中间信息丢失”现象**。就像排队买奶茶时,收银员更容易注意到队首和队尾的顾客,模型在处理长序列时,中间位置的视觉信息会被逐渐忽视。例如,在分析包含多段文字和图片的报告时,模型可能漏掉中间图片中的关键数据图表。

2. “高清图像变形记”

当处理高清图像时,传统位置编码(如RoPE)会将每个图像块视为独立 token,导致:

  • 远程衰减:图像块之间的空间关系被一维序列破坏,如同将高清地图拆成碎片后打乱顺序;
  • 二维信息坍塌:无法保留图像的宽高比例和布局,类似用马赛克拼贴蒙娜丽莎,细节虽在但整体结构模糊。

这些问题使得LVLMs在长文档分析、医学影像诊断等需要持续关注视觉细节的任务中表现不佳。

二、创新点:给模型装个“双脑记忆系统”

1. 双路径架构:一边看一边记

  • 上下文路径(Context Path):将图像 tokens 与文本 tokens 串联,作为自回归处理的主路径,类似边阅读边做笔记,确保视觉信息参与整体语义理解;
  • 记忆路径(Memory Path):通过交叉注意力机制单独处理图像 tokens,相当于在旁边放了一本“视觉备忘录”,随时检索关键图像细节,避免自注意力的“遗忘偏倚”。

2. RoPE-DHR:让位置编码“看得更立体”

  • 分层编码策略:将图像分为缩略图(Thumbnail)高分辨率图块(Tiles)
    • 缩略图使用传统RoPE编码,作为全局参考坐标;
    • 图块通过二维映射关联到缩略图位置,保留“左上-右下”等空间关系,如同在地图上标记“第3行第5列”的精确位置;
  • 位置压缩技术:通过共享位置ID减少长序列中的稀疏编码问题,类似用“章节-段落”结构组织书籍,而非连续页码。

三、研究方法:像搭积木一样拆解创新

1. 双路径的“平衡术”

  • 门控机制:在记忆路径中引入可学习的注意力门(Attn Gate),动态调节视觉信息的参与度。就像调节耳机音量,避免图像信息“太吵”或“太轻”;
  • 三阶段训练
    1. 先训练投影仪和记忆层,让模型学会“看”图像;
    2. 冻结门控参数,强制模型依赖上下文路径“理解”整体;
    3. 全参数微调,适应具体任务如问答、生成。

2. 实验验证:用数据说话

  • 七大类基准测试:涵盖长文本理解(MileBench)、多图推理(MMT)、视觉问答(MMBench)等场景;
  • 关键结果
    • 在长生成任务中,比基线模型LVLM-S提升7.0%;
    • 在多图任务中,比LVLM-X提升5.6%;
    • 在“中间信息检索”任务(MM-NIAH)中,显著缓解“丢失”问题,准确率提升17.2%。

四、主要贡献:给LVLMs的“升级补丁”

1. 架构层面

  • 首次提出双路径视觉处理框架,分离“上下文理解”与“视觉记忆”功能,为LVLMs提供了新的设计范式;
  • 证明通过注意力门控和训练策略,可以有效平衡两条路径的协作,避免“依赖记忆路径”的偷懒行为。

2. 技术层面

  • RoPE-DHR解决了高分辨率图像的位置编码难题,在不增加计算量的前提下保留二维空间信息,适用于医学切片、工程图纸等专业场景;
  • 三阶段训练策略为多模态模型的参数优化提供了新思路,尤其适合需要处理长序列的任务。

3. 应用层面

  • 在公开数据集上的全面超越表明,CoMemo可直接应用于文档分析、教育课件生成、跨模态检索等场景,提升多模态交互的可靠性。

五、总结:通向更“聪明”的多模态模型

CoMemo的核心是通过**“分离视觉处理路径+强化空间记忆”**,让LVLMs既能“通读全文”,又能“回看插图”。其双路径架构和RoPE-DHR编码为解决长上下文和高分辨率视觉任务提供了有效方案,尤其在需要持续关注细节的专业领域具有重要价值。未来,结合更大规模的预训练数据和动态分辨率调整,可能进一步推动多模态模型向通用视觉推理迈进。

http://www.xdnf.cn/news/13049.html

相关文章:

  • (37)课56--??:建立保存点 SAVEPOINT spA,回滚(至保存点) ROLLBACK (to spA)及综合举例。
  • 记录:RK3588 PWM调试
  • Unity UGUI Button事件流程
  • AlgorithmVisualizer项目改进与部署-网页算法可视化
  • 【学习记录】使用 Kali Linux 与 Hashcat 进行 WiFi 安全分析:合法的安全测试指南
  • ConcurrentModificationException 并发修改异常详解
  • 用递归算法解锁「子集」问题 —— LeetCode 78题解析
  • 代码随想录算法训练营第60期第六十三天打卡
  • 华硕a豆14 Air香氛版,美学与科技的馨香融合
  • vue+cesium示例:3D热力图(附源码下载)
  • pycharm 设置环境出错
  • matlab时序预测并绘制预测值和真实值对比曲线
  • 浏览器指纹科普 | Do Not Track 是什么?
  • 2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面
  • (14)-java+ selenium->元素定位大法之By xpath上卷
  • aurora与pcie的数据高速传输
  • 【从零学习JVM|第三篇】类的生命周期(高频面试题)
  • 自然语言处理——卷积神经网络
  • 你应该使用的 php 加解密函数
  • ELK实现nginx、mysql、http的日志可视化实验
  • centos7部署AWStats日志分析系统
  • java中word快速转pdf
  • Linux系统:进程间通信-匿名与命名管道
  • 离线语音识别方案分析
  • python3基础语法梳理
  • 行列视:企业数据分析新时代的利器(一)——深度解读与应用场景分析
  • 在Ubuntu中设置开机自动运行(sudo)指令的指南
  • 关于uniapp展示PDF的解决方案
  • UNECE R152——解读自动驾驶相关标准法规(AEB)
  • 论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)