AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.12.15-2024.12.20
文章目录~
- 1.DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
- 2.Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
- 3.PruneVid: Visual Token Pruning for Efficient Video Large Language Models
- 4.PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
- 5.LMFusion: Adapting Pretrained Language Models for Multimodal Generation
- 6.Movie2Story: A framework for understanding videos and telling stories in the form of novel text
- 7.FiVL: A Framework for Improved Vision-Language Alignment
- 8.Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation
- 9.VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision
- 10.Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models
- 11.Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence
- 12.Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
- 13.Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments
- 14.Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
- 15.PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models
- 16.DoPTA: Improving Document Layout Analysis using Patch-Text Alignment
- 17.An Agentic Approach to Automatic Creation of P&ID Diagrams from Natural Language Descriptions
- 18.CRoF: CLIP-based Robust Few-shot Learning on Noisy Labels
- 19.Defending LVLMs Against Vision Attacks through Partial-Perception Supervision
- 20.ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding
- 21.DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation
- 22.Does VLM Classification Benefit from LLM Description Semantics?
- 23.LMM-Regularized CLIP Embeddings for Image Classification
- 24.CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution
- 25.MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation
- 26.Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
- 27.Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes
- 28.Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models
1.DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
标题:DINOv2 遇见文本:图像和像素级视觉语言对齐的统一框架
author:Cijo Jose, Théo Moutakanni, Dahyun Kang, Federico Baldassarre, Timothée Darcet, Hu Xu, Daniel Li, Marc Szafraniec, Michaël Ramamonjisoa, Maxime Oquab, Oriane Siméoni, Huy V. Vo, Patrick Labatut, Piotr Bojanowski
date Time:2024-12-20
paper pdf:http://arxiv.org/pdf/2412.16334v1
摘要:
自监督视觉基础模型能产生强大的嵌入,在广泛的下游任务中表现出色。然而,与 CLIP 等视觉语言模型不同的是,自监督视觉特征并不容易与语言保持一致,这阻碍了它们在开放词汇任务中的应用。我们的方法被命名为 dino.txt,为 DINOv2(一种广泛使用的自监督视觉编码器)解锁了这一新功能。我们以 LiT 训练策略为基础,该策略训练文本编码器与冻结的视觉模型保持一致,但在密集任务中效果并不理想。我们提出了提高全局和密集任务性能的几个关键要素,例如将[CLS]标记与补丁平均值串联起来以训练对齐,以及使用文本和图像两种模式收集数据。通过这些方法,我们成功地训练出了一个类似 CLIP 的模型,其计算成本仅为 CLIP 的一小部分,同时在零镜头分类和开放词汇语义分割方面取得了最先进的结果。
2.Frequency Is What You Need: Word-frequency Masking Benefits Vision-Language Model Pre-training
标题:频率就是你需要的词频掩蔽有利于视觉语言模型的预训练
author:Mingliang Liang, Martha Larson
date Time:2024-12-20
paper pdf:http://arxiv.org/pdf/2412.16148v1
摘要:
如果能减少训练集的大小,就能更有效地训练视觉语言模型(VLM)。最近的研究表明,在 VLM 训练过程中使用截断、随机屏蔽、块屏蔽和语法屏蔽等多种方法屏蔽文本有很多好处。在本文中,我们展示了最佳屏蔽策略会随着训练时间的变化而变化,而且在训练时间充足的情况下,词频信息是实现最佳性能所需的信息。在大量数据集上的实验证明了我们的方法的优势,这种方法被称为词频屏蔽对比语言-图像预训练(CLIPF)。随着输入标记数量的减少,这种方法的优势尤为明显。我们分析了 CLIPF 与其他屏蔽方法对词频平衡的影响,并讨论了 CLIPF 在维持 POS 类别间词频平衡方面的明显关键贡献。
3.PruneVid: Visual Token Pruning for Efficient Video Large Language Models
标题:PruneVid:为高效视频大型语言模型进行视觉标记剪枝
author:Xiaohu Huang, Hao Zhou, Kai Han
publish:Efficient Video Large Language Models
date Time:2024-12-20
paper pdf:http://arxiv.org/pdf/2412.16117v1
摘要:
本文介绍了 PruneVid,这是一种视觉标记剪枝方法,旨在提高多模态视频理解的效率。大语言模型(LLM)在视频任务中表现出了良好的性能,这得益于它们在理解视觉模态方面的扩展能力。然而,视频数据中的大量冗余给大型语言模型的计算带来了巨大挑战。为了解决这个问题,我们引入了一种无需训练的方法:1)通过合并空间-时间标记,最大限度地减少视频冗余;2)利用 LLM 的推理能力,选择性地剪除与问题标记相关的视觉特征,从而提高模型效率。我们在多个视频基准测试中验证了我们的方法,结果表明 PruneVid 可以剪切 80% 以上的标记,同时结合不同的模型网络保持有竞争力的性能。与现有的剪枝方法相比,PruneVid 的效果和效率更胜一筹。代码:https://github.com/Visual-AI/PruneVid。
4.PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation
标题:PRIMA:用于推理分割的多图像视觉语言模型
author:Muntasir Wahed, Kiet A. Nguyen, Adheesh Sunil Juvekar, Xinzhuo Li, Xiaona Zhou, Vedant Shah, Tianjiao Yu, Pinar Yanardag, Ismini Lourentzou
publish:Project page: https://plan-lab.github.io/prima
date Time:2024-12-19
paper pdf:http://arxiv.org/pdf/2412.15209v1
摘要:
尽管大型视觉语言模型(LVLMs)取得了长足的进步,但现有的像素基础模型是在单幅图像的基础上运行的,这限制了它们在多幅图像之间进行详细、精细比较的能力。相反,目前的多图像理解模型则缺乏像素级基础。我们的工作通过引入多图像像素推理分割任务和 PRIMA 解决了这一差距,PRIMA 是一种新型 LVLM,它将像素级定位与强大的多图像推理能力整合在一起,从而生成上下文丰富的像素推理解释。PRIMA 的核心是一个高效的视觉模块,可跨多幅图像查询细粒度视觉表征,从而将 TFLOP 减少了 25.3 美元。为了支持训练和评估,我们策划了 M 4 S e g M^4Seg M4Seg,这是一个新的推理分割基准,由$\sim$224K问答对组成,需要跨多幅图像的精细视觉理解。实验结果表明,PRIMA 的性能优于最先进的基线。
5.LMFusion: Adapting Pretrained Language Models for Multimodal Generation
标题:LMFusion:为多模态生成调整预训练语言模型
author:Weijia Shi, Xiaochuang Han, Chunting Zhou, Weixin Liang, Xi Victoria Lin, Luke Zettlemoyer, Lili Yu
publish:Name change: LlamaFusion to LMFusion
date Time:2024-12-19
paper pdf:http://arxiv.org/pdf/2412.15188v2
摘要:
我们提出的 LMFusion 是一个框架,用于增强经过预训练的纯文本大型语言模型(LLM)的多模态生成能力,使其能够理解和生成任意序列的文本和图像。LMFusion 利用现有的 Llama-3 权重对文本进行自回归处理,同时引入额外的并行转换器模块,对图像进行扩散处理。在训练过程中,每种模态的数据都被传送到其专用模块:特定模态的前馈层、查询键值投影和归一化层独立处理每种模态,而共享的自我注意层则允许文本和图像特征之间的交互。通过冻结文本特定模块并只训练图像特定模块,LMFusion 保留了纯文本 LLM 的语言能力,同时培养了强大的视觉理解和生成能力。与从头开始预训练多模态生成模型的方法相比,我们的实验证明,LMFusion 仅用 50% 的 FLOPs 就能将图像理解能力提高 20%,将图像生成能力提高 3.6%,同时还能保持 Llama-3 的语言能力。我们还证明,该框架可以调整现有的视觉语言模型,使其具备多模态生成能力。总之,该框架不仅充分利用了纯文本 LLM 的现有计算投资,还实现了语言和视觉能力的并行开发,为高效的多模态模型开发提供了一个前景广阔的方向。
6.Movie2Story: A framework for understanding videos and telling stories in the form of novel text
标题:Movie2Story:理解视频并以小说文本形式讲述故事的框架
author:Kangning Li, Zheyang Jia, Anyu Ying
date Time:2024-12-19
paper pdf:http://arxiv.org/pdf/2412.14965v2
摘要:
近年来,大规模模型取得了长足的进步,同时也出现了许多用于评估其各方面理解能力的高质量基准。然而,大多数现有基准主要侧重于静态图像任务中的空间理解。虽然有些基准将评估扩展到了时间任务,但它们在评估涉及长视频和丰富辅助信息的复杂情境下的文本生成方面仍有不足。为了解决这一局限性,我们提出了一个新的基准:多模态故事生成基准(MSBench),旨在评估在富含辅助信息的场景下的文本生成能力。我们的工作引入了一种创新的自动数据集生成方法,以确保准确辅助信息的可用性。一方面,我们利用现有数据集,并采用自动流程生成新的评估数据集,从而大大减少了人工操作。另一方面,我们通过系统过滤来完善辅助数据,并利用最先进的模型来确保地面实况数据集的公平性和准确性。我们的实验表明,目前的多模态大语言模型(MLLM)在建议的评估指标下表现不佳,凸显了其能力上的巨大差距。为了应对这些挑战,我们提出了一种新颖的模型架构和方法,以更好地处理整个流程,并在我们的基准测试中取得了改进。
7.FiVL: A Framework for Improved Vision-Language Alignment
标题:FiVL:改进视觉语言对齐的框架
author:Estelle Aflalo, Gabriela Ben Melech Stan, Tiep Le, Man Luo, Shachar Rosenman, Sayak Paul, Shao-Yen Tseng, Vasudev Lal
date Time:2024-12-19
paper pdf:http://arxiv.org/pdf/2412.14672v1
摘要:
大型视觉语言模型(LVLM)在整合视觉和文本输入进行多模态推理方面取得了重大进展。然而,一个经常出现的挑战是,当两种模式都是制定准确答案的必要条件时,如何确保这些模型能像语言内容一样有效地利用视觉信息。我们假设,幻觉的产生是由于目前的 LVLM 缺乏有效的视觉基础。这个问题延伸到了视觉语言基准,在视觉语言基准中,很难让图像成为生成准确答案不可或缺的因素,尤其是在视觉问题解答任务中。在这项工作中,我们介绍了 FiVL,这是一种构建数据集的新方法,旨在训练 LVLM 增强视觉基础,并评估其实现视觉基础的有效性。这些数据集可用于训练和评估 LVLM 使用图像内容作为实质性证据的能力,而不是仅仅依赖语言先验,从而深入了解模型对视觉信息的依赖程度。为了证明我们的数据集的实用性,我们介绍了一种创新的训练任务,该任务的表现优于基线,同时还介绍了一种验证方法和可解释性应用。代码见 https://github.com/IntelLabs/fivl。
8.Multimodal Latent Diffusion Model for Complex Sewing Pattern Generation
标题:用于复杂缝纫图案生成的多模态潜在扩散模型
author:Shengqi Liu, Yuhao Cheng, Zhuo Chen, Xingyu Ren, Wenhan Zhu, Lincheng Li, Mengxiao Bi, Xiaokang Yang, Yichao Yan
publish:Our project page: https://shengqiliu1.github.io/SewingLDM
date Time:2024-12-19
paper pdf:http://arxiv.org/pdf/2412.14453v1
摘要:
在服装设计中生成缝制样板因其对 CG 的友好性和灵活的编辑特性而受到越来越多的关注。以往的缝纫图样生成方法能够生成精美的服装,但在设计复杂的服装时却很难进行细节控制。为了解决这些问题,我们提出了 SewingLDM,这是一种多模态生成模型,可生成由文本提示、人体形状和服装草图控制的缝纫图案。起初,我们将缝纫图案的原始向量扩展为更全面的表示,以涵盖更复杂的细节,然后将其压缩到一个紧凑的潜在空间中。为了学习潜在空间中的缝纫图案分布,我们设计了一种两步训练策略,将多模态条件、人体形状、文本提示和服装草图注入扩散模型,确保生成的服装适合人体且细节可控。全面的定性和定量实验表明,我们提出的方法非常有效,在复杂服装设计和各种人体适应性方面大大超过了以往的方法。我们的项目页面:https://shengqiliu1.github.io/SewingLDM。
9.VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision
标题:VLM-AD:通过视觉语言模型监督实现端到端自动驾驶
author:Yi Xu, Yuxin Hu, Zaiwei Zhang, Gregory P. Meyer, Siva Karthik Mustikovela, Siddhartha Srinivasa, Eric M. Wolff, Xin Huang
date Time:2024-12-19
paper pdf:http://arxiv.org/pdf/2412.14446v1
摘要:
人类驾驶员依靠常识推理来驾驭现实世界中的各种动态场景。现有的端到端(E2E)自动驾驶(AD)模型通常是为了模仿数据中观察到的驾驶模式而优化的,并没有捕捉到潜在的推理过程。这一局限性限制了它们处理具有挑战性的驾驶场景的能力。为了缩小这一差距,我们提出了 VLM-AD 方法,该方法利用视觉语言模型(VLM)作为教师,通过提供额外的监督(包含非结构化推理信息和结构化动作标签)来加强训练。这种监督增强了模型学习更丰富特征表征的能力,从而捕捉到驾驶模式背后的原理。重要的是,我们的方法在推理过程中不需要 VLM,因此可用于实时部署。当与最先进的方法集成时,VLM-AD 在 nuScenes 数据集上显著提高了规划准确性并降低了碰撞率。
10.Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models
标题:视觉语言模型中跨模态实体知识提取的性能差距
author:Ido Cohen, Daniela Gottesman, Mor Geva, Raja Giryes
date Time:2024-12-18
paper pdf:http://arxiv.org/pdf/2412.14133v1
摘要:
视觉语言模型(VLM)擅长从图像中提取信息并进行推理。然而,它们利用有关特定实体的内部知识的能力仍未得到充分探索。这项工作研究了模型在回答有关文字描述实体与图像描述实体的事实性问题时的性能差异。我们的研究结果表明,当实体以视觉形式而非文字形式呈现时,准确率大幅下降,平均降幅达 19%。我们假设,这种下降是由于信息从图像标记流向查询标记的方式存在局限性。我们利用机械可解释性工具揭示出,尽管视觉编码器对图像标记进行了预处理,但这些标记的有意义信息流只发生在更深的层次。此外,关键的图像处理发生在语言模型的中间层,而用于连续推理的层却很少,这凸显了该模型在如何利用其推理层方面可能存在的低效。这些见解揭示了 VLM 的内部机制,并为增强其推理能力提供了途径。
11.Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence
标题:利用视觉感知头部发散破解 LVLM 中的幻觉密码
author:Jinghan He, Kuan Zhu, Haiyun Guo, Junfeng Fang, Zhenglin Hua, Yuheng Jia, Ming Tang, Tat-Seng Chua, Jinqiao Wang
date Time:2024-12-18
paper pdf:http://arxiv.org/pdf/2412.13949v2
摘要:
大型视觉语言模型(LVLMs)在将大型语言模型(LLMs)与视觉输入集成方面取得了重大进展,从而实现了先进的多模态推理。尽管它们取得了成功,但一个长期存在的挑战是幻觉–生成的文本不能准确反映视觉内容–破坏了准确性和可靠性。现有方法侧重于对齐训练或解码改进,但主要解决的是生成阶段的症状,而没有探究其根本原因。在这项工作中,我们以多头注意力模块为重点,研究了驱动 LVLM 出现幻觉的内部机制。具体来说,我们引入了视觉感知头发散(VHD),这是一种量化注意头输出对视觉环境敏感度的指标。在此基础上,我们的研究结果揭示了视觉感知注意头的存在,这些注意头对视觉信息更加敏感;然而,模型对其先前语言模式的过度依赖与幻觉密切相关。基于这些见解,我们提出了视觉感知注意力强化(VHR),这是一种无需训练的方法,通过增强视觉感知注意力的作用来减轻幻觉。广泛的实验证明,与最先进的方法相比,我们的方法在减轻幻觉方面取得了卓越的性能,同时保持了高效率,额外的时间开销几乎可以忽略不计。
12.Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
标题:为基础视觉图理解和推理建立基准并改进大型视觉语言模型
author:Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Min Zhang
date Time:2024-12-18
paper pdf:http://arxiv.org/pdf/2412.13540v1
摘要:
大型视觉语言模型(LVLMs)在各种任务中表现出了卓越的性能。尽管取得了巨大成功,但最近的研究表明,LVLM 在处理视觉图时遇到了很大的局限性。为了研究这些限制背后的原因,我们提出了 VGCure,这是一个涵盖 22 个任务的综合基准,用于检验 LVLM 的基本图形理解和推理能力。对 14 种 LVLM 进行的广泛评估显示,LVLM 在基本图形理解和推理任务方面能力较弱,尤其是那些涉及关系或结构复杂信息的任务。基于这一观察结果,我们提出了一个结构感知微调框架,通过 3 个自监督学习任务来增强 LVLM 的结构学习能力。实验验证了我们的方法在提高 LVLMs 在基本图学习任务中的零点性能,以及增强 LVLMs 对复杂视觉图的鲁棒性方面的有效性。
13.Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments
标题:利用目标信息多级对比对齐进行语言引导的医学图像分割
author:Mingjian Li, Mingyuan Meng, Shuchang Ye, David Dagan Feng, Lei Bi, Jinman Kim
date Time:2024-12-18
paper pdf:http://arxiv.org/pdf/2412.13533v1
摘要:
医学图像分割在现代医学图像分析中至关重要,可帮助诊断各种疾病。最近,语言引导分割方法在自动图像分割方面取得了可喜的成果,其中包含了文本报告作为指导。这些包含图像印象和临床医生见解的文本报告提供了辅助指导。然而,这些方法忽略了两种不同模式之间固有的模式差距,导致在没有适当的跨模式特征对齐的情况下,图像-文本特征融合达不到最佳效果。在表征学习中,对比对齐被广泛用于关联图像-文本语义;然而,在依赖微妙的低级图像细节来表征疾病的语言引导分割中,对比对齐尚未被用于弥合模式差距。现有的对比配准方法通常只涉及高层次的全局图像语义,而不涉及低层次的局部目标信息,因此无法为语言引导的分割探索细粒度的文本引导。在本研究中,我们提出了一种具有目标信息的多级对比对齐(TMCA)的语言引导分割网络。TMCA 实现了目标信息跨模态对齐和细粒度文本引导,弥补了语言引导分割中的模式差距。具体来说,我们引入了1)目标敏感的语义距离模块,实现细粒度图像-文本配准建模;2)多层次配准策略,根据低层次图像特征进行文本引导。此外,我们还提出了一个语言引导的目标增强模块,利用对齐后的文本将注意力重新引导到关键的局部图像特征上。在涉及 3 种医学成像模式的 4 个图像-文本数据集上进行的广泛实验表明,我们的 TMCA 取得了卓越的性能。
14.Dynamic Adapter with Semantics Disentangling for Cross-lingual Cross-modal Retrieval
标题:用于跨语言跨模态检索的语义分解动态适配器
author:Rui Cai, Zhiyu Dong, Jianfeng Dong, Xun Wang
publish:Accepted by the 39th AAAI Conference on Artificial Intelligence
(AAAI-25)
date Time:2024-12-18
paper pdf:http://arxiv.org/pdf/2412.13510v1
摘要:
现有的跨模态检索方法通常依赖于大规模的视觉语言对数据。这使得为资源不足的相关语言有效开发跨模态检索模型具有挑战性。因此,跨语言跨模态检索(Cross-lingual Cross-modal Retrieval,CCR)越来越受到人们的关注,它的目的是在不使用任何人类标注的目标语言数据的情况下,将视觉与低资源语言(目标语言)对齐。作为一种通用的参数高效方法,常见的解决方案是利用适配器模块将视觉语言预训练(VLP)模型的视觉语言配准能力从源语言转移到目标语言。然而,这些适配器在学习后通常是静态的,很难适应表达方式多变的目标语言字幕。为了解决这个问题,我们提出了语义分解动态适配器(DASD),其参数是根据输入字幕的特征动态生成的。考虑到输入标题的语义和表达方式会在很大程度上影响编码方式,我们提出了一个语义分离模块,以从输入中提取与语义相关和与语义无关的特征,确保生成的适配器非常适合输入标题的特征。在两个图像-文本数据集和一个视频-文本数据集上的广泛实验证明了我们的模型在跨语言跨模态检索中的有效性,以及它与各种 VLP 模型的良好兼容性。
15.PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models
标题:PLPP:针对视觉语言模型的 “提示学习”(Prompt Learning with Perplexity Is Self-Distillation
author:Biao Liu, Wenyi Fang, Xiaoyu Wu, Yang Zheng, Zheng Hu, Bo Yuan
date Time:2024-12-18
paper pdf:http://arxiv.org/pdf/2412.15277v1
摘要:
经过预训练的视觉语言(VL)模型(如 CLIP)在众多下游任务中表现出色。最近,一种名为 “语境优化”(CoOOp)的方法通过引入提示学习,进一步提高了视觉语言模型在下游任务中的性能。CoOp 优化一组可学习向量(又称提示学习),并冻结整个 CLIP 模型。然而,仅仅依靠 CLIP 损失来微调提示可能会导致模型在下游任务中容易出现过拟合。为了解决这个问题,我们提出了一种名为 PLPP(Prompt Learning with PerPlexity)的插件式提示正则化方法,它使用perplexity loss来正则化提示学习。PLPP 设计了一个两步操作来计算提示的困惑度:(a) 计算嵌入层权重与提示语之间的余弦相似度,从而得到标签;(b) 在文本编码器后面引入无需训练的语言模型(LM)头,以输出单词概率分布。同时,我们揭示了 PLPP 的本质是一种固有的自我蒸馏形式。为了进一步防止过拟合,并减少 PLPP 带来的额外计算量,我们将硬标签转换为软标签,并选择前 k k k 值来计算困惑度损失。为了加速模型收敛,我们引入了相互自馏学习,即perplexity和倒perplexity损失。在四项分类任务中进行的实验表明,与现有方法相比,PLPP 表现出更优越的性能。
16.DoPTA: Improving Document Layout Analysis using Patch-Text Alignment
标题:DoPTA:利用补丁-文本对齐改进文档布局分析
author:Nikitha SR, Tarun Ram Menta, Mausoom Sarkar
date Time:2024-12-17
paper pdf:http://arxiv.org/pdf/2412.12902v1
摘要:
多模态学习技术的出现极大地改进了文档人工智能。现在,文档被视为多模态实体,包含了文本和视觉信息,可用于下游分析。然而,这一领域的工作通常侧重于文本方面,将视觉空间作为辅助信息。虽然有些作品探索了基于纯视觉的文档图像理解技术,但它们在推理过程中需要将 OCR 识别的文本作为输入,或者在学习过程中不与文本保持一致。因此,我们提出了一种新颖的图像-文本对齐技术,专门用于利用文档图像中的文本信息来提高视觉任务的性能。我们的文档编码器模型 DoPTA 就是用这种技术训练出来的,它在各种文档图像理解任务中都表现出很强的性能,而且在推理过程中不需要 OCR。结合辅助重构目标,DoPTA 的性能始终优于大型模型,同时使用的预训练计算量也大大减少。DoPTA 还在 D4LA 和 FUNSD 这两个具有挑战性的文档视觉分析基准上创造了新的一流成绩。
17.An Agentic Approach to Automatic Creation of P&ID Diagrams from Natural Language Descriptions
标题:从自然语言描述自动创建 P&ID 图的代理方法
author:Shreeyash Gowaikar, Srinivasan Iyengar, Sameer Segal, Shivkumar Kalyanaraman
publish:Accepted at the AAAI’25 Workshop on AI to Accelerate Science and
Engineering (AI2ASE)
date Time:2024-12-17
paper pdf:http://arxiv.org/pdf/2412.12898v1
摘要:
管道和仪表图(P&ID)是工程和流程行业设计、施工和运行工作流程的基础。然而,人工绘制 P&ID 通常需要耗费大量人力,容易出错,而且缺乏强大的错误检测和纠正机制。虽然最近在生成式人工智能方面取得的进步,特别是大型语言模型(LLM)和视觉语言模型(VLM),已经在各个领域展现出巨大的潜力,但它们在自动生成工程工作流程方面的应用仍未得到充分开发。在这项工作中,我们介绍了一种新颖的辅助驾驶技术,用于根据自然语言描述自动生成 P&ID。利用多步骤代理工作流程,我们的协同驾驶仪提供了一种结构化的迭代方法,可直接根据自然语言提示创建图表。通过评估工作流程的合理性和完整性,我们证明了生成流程的可行性,并展示了与虚无的零次和少量生成方法相比所取得的改进结果。
18.CRoF: CLIP-based Robust Few-shot Learning on Noisy Labels
标题:CRoF:基于 CLIP 的噪声标签鲁棒少次学习
author:Shizhuo Deng, Bowen Han, Jiaqi Chen, Hao Wang, Dongyue Chen, Tong Jia
date Time:2024-12-17
paper pdf:http://arxiv.org/pdf/2412.12793v1
摘要:
由于新领域中的特征并不精确,噪声标签威胁着少量学习(FSL)的稳健性。CLIP 是一种大规模视觉语言模型,在图像-文本嵌入相似性的 FSL 中表现出色,但容易受到噪声标签造成的误分类的影响。如何提高 CLIP 在 FSL 任务中对噪声数据的领域泛化能力是一个严峻的挑战。在本文中,我们提出了一种减轻噪声标签影响的新观点,即基于 CLIP 的鲁棒快速学习(CRoF)。CRoF 是基于 CLIP 模型的通用插件模块。为了避免误分类和混乱的标签嵌入,我们设计了面向任务的少量提示生成器,以便对每个类别给出更具区分性的描述。建议的提示可实现更大的类间文本嵌入距离。此外,我们并不完全相信 CLIP 的零镜头分类,而是在新领域的有噪声的零镜头数据上,采用类似标签平滑的加权策略对 CLIP 进行微调。多个潜在正确标签的权重考虑了 CLIP 的先验知识与原始标签信息之间的关系,以确保可靠性。我们的多重标签损失函数进一步支持了这种范式下的稳健训练。综合实验表明,CRoF 作为一个插件,在不同的噪声类型和噪声比率下,性能优于微调模型和普通 CLIP 模型。
19.Defending LVLMs Against Vision Attacks through Partial-Perception Supervision
标题:通过部分感知监督防御 LVLM 的视觉攻击
author:Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong
date Time:2024-12-17
paper pdf:http://arxiv.org/pdf/2412.12722v1
摘要:
最近的研究引起了人们对大型视觉语言模型(LVLM)易受恶意注入或扰乱的输入图像影响的极大关注,因为这可能会误导它们的响应。现有的防御方法表明,这种视觉攻击对图像修改(尤其是裁剪)很敏感,使用对修改后图像的响应进行多数票表决作为校正响应。然而,这些修改往往会导致部分图像和语义的扭曲,从而降低投票后对干净图像的响应质量。我们研究了如何利用部分图像的响应来监督 LVLM 对原始图像的响应,而不是直接使用部分图像的响应进行投票。我们提出了一种无需训练的黑盒方法,称为 DPS(通过部分感知监督进行防御)。在这种方法中,我们使用一个只感知部分图像的模型所生成的响应来提示模型。有了 DPS,模型就能在受到攻击时根据对部分图像的理解调整自己的反应,同时自信地保持对干净输入的原始反应。我们的研究结果表明,弱模型可以监督强模型:当面对受攻击的输入时,强模型会变得不那么自信,并根据弱模型的部分理解调整其响应,从而有效抵御攻击。在输入干净的情况下,它可以自信地保持原来的响应。实证实验表明,我们的方法优于基线方法,在三个流行模型的六个数据集上,平均攻击成功率降低了 76.3%。
20.ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding
标题:ASAP:推进语义对齐促进多模式操纵检测和接地
author:Zhenxing Zhang, Yaxiong Wang, Lechao Cheng, Zhun Zhong, Dan Guo, Meng Wang
publish:12 pages, 6 figures
date Time:2024-12-17
paper pdf:http://arxiv.org/pdf/2412.12718v1
摘要:
经过深入研究,我们发现图像和文本之间精确的细粒度跨模态语义对齐对于准确检测和定位操纵行为至关重要。而现有的 DGM4 方法很少关注跨模态对齐,这进一步阻碍了操纵检测的准确性。为了解决这一问题,本研究旨在推进语义对齐学习,以促进这一任务的完成。特别是,我们利用现成的多模态大语言模型(MLLMs)和大语言模型(LLMs)来构建配对图像-文本对,尤其是针对操纵实例。随后,进行跨模态配准学习,以增强语义配准。除了显式辅助线索外,我们还进一步设计了操纵引导交叉注意(MGCA),为增强操纵感知提供隐式引导。MGCA 在训练过程中提供了基础事实,鼓励模型更多地关注操纵成分,而淡化正常成分,从而增强了模型捕捉操纵的能力。我们在 DGM4 数据集上进行了广泛的实验,结果表明我们的模型明显优于对比方法。
21.DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation
标题:DuSSS:用于半监督医学图像分割的双语义相似性监督视觉语言模型
author:Qingtao Pan, Wenhao Qiao, Jingjiao Lou, Bing Ji, Shuo Li
date Time:2024-12-17
paper pdf:http://arxiv.org/pdf/2412.12492v1
摘要:
半监督医学影像分割(SSMIS)利用一致性学习对模型训练进行正则化,从而减轻了像素人工注释的负担。然而,它经常会受到低质量伪标签带来的错误监督的影响。视觉语言模型(VLM)通过引入文本提示引导的多模态监督信息,在增强伪标签方面具有巨大潜力。不过,它也面临着跨模态问题:获得的信息往往对应多个目标。为解决上述问题,我们为 SSMIS 提出了双语义相似性监督 VLM(DuSSS)。具体来说,1)双对比学习(Dual Contrastive Learning,DCL)旨在通过捕捉每个模态内的内在表征和跨模态的语义相关性来提高跨模态语义一致性。2) 为鼓励学习多种语义对应,提出了语义相似性监督策略(SSS),并将其注入 DCL 中的每个对比学习过程,通过基于分布的不确定性水平来监督语义相似性。此外,还设计了一种基于 VLM 的新型 SSMIS 网络,以弥补伪标签的质量缺陷。它利用预训练的 VLM 生成文本提示指导监督信息,完善伪标签以实现更好的一致性正则化。实验结果表明,我们的 DuSSS 在三个公共数据集(QaTa-COV19、BM-Seg 和 MoNuSeg)上取得了出色的性能,Dice 分别为 82.52%、74.61% 和 78.03%。
22.Does VLM Classification Benefit from LLM Description Semantics?
标题:VLM 分类是否受益于 LLM 描述语义?
author:Pingchuan Ma, Lennart Rietdorf, Dmytro Kotovenko, Vincent Tao Hu, Björn Ommer
publish:AAAI-25 (extended version), Code: https://github.com/CompVis/DisCLIP
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11917v3
摘要:
用文本准确描述图像是可解释人工智能的基础。最近,像 CLIP 这样的视觉语言模型(VLM)通过在共享嵌入空间中对齐图像和文本,表达视觉和语言嵌入之间的语义相似性,解决了这一问题。通过大型语言模型(LLM)生成的描述,VLM 的分类功能可以得到改善。但是,很难确定实际描述语义的贡献,因为性能提升也可能源于语义无关的集合效应,即多个修改后的文本提示在测试时充当了原始提示的噪声增强。我们提出了另一种评估方案,以确定 LLM 生成的描述的性能提升是由这种噪声增强效应引起的,还是由真正的描述语义引起的。我们提出的方案避免了测试时的噪声增强,并确保真正的、与众不同的描述会带来性能提升。此外,我们还提出了一种无需训练的方法,用于选择独立于类名拼凑效应的鉴别性描述。我们的方法可以识别在局部 CLIP 标签邻域内有效区分类别的描述,从而提高七个数据集的分类准确率。此外,我们还深入探讨了基于描述的 VLM 图像分类的可解释性。
23.LMM-Regularized CLIP Embeddings for Image Classification
标题:用于图像分类的 LMM 规范化 CLIP 嵌入
author:Maria Tzelepi, Vasileios Mezaris
publish:Accepted for publication, 26th Int. Symp. on Multimedia (IEEE ISM
2024), Tokyo, Japan, Dec. 2024. This is the authors’ “accepted version”
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11663v1
摘要:
在本文中,我们使用功能强大的 CLIP 视觉语言模型来处理图像分类任务。我们的目标是通过提出一种新颖的基于大型多模态模型(LMM)的正则化方法,提高 CLIP 图像编码器的分类性能。建议的方法使用 LMM 来提取数据集图像的语义描述。然后,它使用 CLIP 的文本编码器 frozen 来获取相应的文本嵌入,并计算平均语义类别描述。随后,我们通过添加一个分类头来调整 CLIP 的图像编码器,除了主要的分类目标外,我们还利用图像编码器的输出和一个额外的辅助目标对其进行训练。附加目标迫使图像编码器输出的嵌入与 LMM 生成的相应平均语义分类描述相似。通过这种方法,它生成的嵌入结果具有更强的分辨能力,从而提高了分类性能。通过在三个图像分类数据集上进行大量实验,验证了所提出的正则化方法的有效性。
24.CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution
标题:CLIP-SR:超分辨率协同语言和图像处理
author:Bingwen Hu, Heng Liu, Zhedong Zheng, Ping Liu
publish:11 pages, 10 figures
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11609v1
摘要:
卷积神经网络(CNN)推动了图像超分辨率(SR)的发展,但大多数基于 CNN 的方法仅依赖于基于像素的变换,往往会导致伪影和模糊,尤其是在严重降采样(如 8 倍或 16 倍)的情况下。最近的文本引导 SR 方法试图利用文本信息来增强细节,但它们经常在有效对齐方面遇到困难,导致语义一致性不一致。为了解决这些局限性,我们引入了一种多模态语义增强方法,将文本语义与视觉特征相结合,有效解决了高度降解的 LR 图像中的语义不匹配和细节丢失问题。我们提出的多模态协作框架能以显著的放大系数生成逼真的高质量 SR 图像。该框架整合了文本和图像输入,采用了提示预测器、文本-图像融合块(TIFBlock)和迭代细化模块以及 CLIP(对比语言-图像预训练)功能,以指导细粒度对齐的渐进式增强过程。这种对齐方式可产生具有清晰细节和语义连贯性的高分辨率输出,即使在较大的缩放系数下也是如此。通过广泛的对比实验和消融研究,我们验证了这种方法的有效性。此外,通过结合文本语义指导,我们的技术在保持语义一致性的同时,还实现了一定程度的超分辨率可编辑性。
25.MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation
标题:MaskCLIP++:用于开放词汇图像分割的基于掩码的 CLIP 微调框架
author:Quan-Sheng Zeng, Yunheng Li, Daquan Zhou, Guanbin Li, Qibin Hou, Ming-Ming Cheng
publish:20 pages, 8 figures. Add code link
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11464v2
摘要:
通过掩码生成器和视觉语言模型(如对比语言-图像预训练(CLIP))之间的协同作用,开放词汇图像分割技术得到了发展。以前的方法侧重于生成掩码,同时在训练过程中将掩码特征与文本嵌入对齐。在本文中,我们发现依赖于生成的低质量掩码会削弱视觉和语言在区域表征中的一致性。这促使我们提出了一个新的微调框架,名为 MaskCLIP++,它使用地面实况掩码而不是生成的掩码来增强 CLIP 的掩码分类能力。由于带有掩码注释的图像分割数据集的多样性有限,我们建议在微调过程中加入一致性对齐约束,以减轻对微调数据集的分类偏差。经过低成本微调后,结合之前基于掩码的最先进开放词汇分割方法中的掩码生成器,我们在 A-847、PC-459、A-150、PC-59 和 PAS-20 数据集上的性能分别提高了 +1.7、+2.3、+2.1、+3.1 和 +0.3 mIoU。代码发布于 https://github.com/HVision-NKU/MaskCLIPpp 。
26.Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech
标题:多模式和多尺度空间环境理解,实现身临其境的视觉文本到语音技术
author:Rui Liu, Shuwei He, Yifan Hu, Haizhou Li
publish:9 pages,2 figures, Accepted by AAAI’2025
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11409v3
摘要:
视觉文本到语音(VTTS)旨在以环境图像为提示,为口语内容合成混响语音。这项任务的难点在于如何从图像中理解空间环境。从空间图像的 RGB 空间提取全局空间视觉信息的尝试很多。然而,局部和深度图像信息对于理解空间环境至关重要,而之前的工作却忽略了这一点。为了解决这些问题,我们提出了一种新颖的多模态和多尺度空间环境理解方案来实现身临其境的 VTTS,称为 M2SE-VTTS。多模态旨在同时利用空间图像的 RGB 和深度空间来学习更全面的空间信息,而多尺度旨在同时对局部和全局空间知识进行建模。具体来说,我们首先将 RGB 和深度图像分割成不同的斑块,并采用 Gemini 生成的环境字幕来引导局部空间理解。然后,通过局部感知的全局空间理解来整合多模态和多尺度特征。这样,M2SE-VTTS 就能有效地模拟多模态空间环境中本地和全局空间上下文之间的相互作用。客观和主观评估表明,我们的模型在环境语音生成方面优于先进的基线模型。代码和音频样本请访问:https://github.com/AI-S2-Lab/M2SE-VTTS。
27.Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes
标题:利用检索增强标签实现复杂场景中的大型视觉语言理解功能
author:Antonio Carlos Rivera, Anthony Moore, Steven Robinson
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11396v1
摘要:
视觉语言任务中的物体感知推理对当前模型提出了巨大挑战,尤其是在处理未见物体、减少幻觉和捕捉复杂视觉场景中的细粒度关系方面。为了解决这些局限性,我们提出了视觉感知检索增强提示(VRAP)框架,这是一种生成方法,通过将检索增强对象标签整合到提示中来增强大型视觉语言模型(LVLM)。VRAP 引入了一个新颖的管道,通过预先训练的视觉编码器和场景图解析器提取结构化标签,包括对象、属性和关系。这些标签利用外部知识进行充实,并纳入 LLM 的输入,从而实现详细而准确的推理。我们在多个视觉语言基准(包括 VQAv2、GQA、VizWiz 和 COCO)中对 VRAP 进行了评估,结果表明它在细粒度推理和多模态理解方面达到了最先进的性能。此外,我们的消融研究强调了检索增强标签和对比学习的重要性,而人类评估则证实了 VRAP 生成准确、详细和与上下文相关的响应的能力。值得注意的是,通过消除运行时检索,VRAP 将推理延迟时间缩短了 40%。这些结果表明,VRAP 是推进对象感知多模态推理的强大而高效的框架。
28.Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models
标题:在大型视觉语言模型中进行视频时态推理的时态对比学习
author:Rafael Souza, Jia-Hao Lim, Alexander Davis
date Time:2024-12-16
paper pdf:http://arxiv.org/pdf/2412.11391v1
摘要:
时态推理是视频语言理解中的一个关键挑战,因为它要求模型在不同时间内一致地调整语义概念。虽然现有的大型视觉语言模型(LVLM)和大型语言模型(LLM)在静态任务方面表现出色,但在捕捉视频序列中的动态交互和时间依赖性方面却举步维艰。在这项工作中,我们提出了 “通过动态提示进行时态语义对齐”(TSADP),这是一个新颖的框架,可通过特定任务的动态提示和时态对比学习来增强时态推理能力。TSADP 利用动态提示生成器 (DPG) 来编码细粒度的时间关系,并利用时间对比损失 (TCL) 来跨时间调整视觉和文本嵌入。我们在 VidSitu 数据集上评估了我们的方法,该数据集增加了丰富的时间注释,在视频内实体关联、时间关系理解和年表预测等任务中,我们的方法比最先进的模型有了显著改进。人工评估进一步证实了 TSADP 生成连贯、语义准确的描述的能力。我们的分析凸显了 TSADP 的稳健性、高效性和实用性,使其在视频语言理解领域向前迈进了一步。