多模态大语言模型arxiv论文略读(128)
Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs
➡️ 论文标题:Multimodal Misinformation Detection by Learning from Synthetic Data with Multimodal LLMs
➡️ 论文作者:Fengzhu Zeng, Wenqian Li, Wei Gao, Yan Pang
➡️ 研究机构: 新加坡管理大学 (Singapore Management University)、新加坡国立大学 (National University of Singapore)
➡️ 问题背景:多模态虚假信息检测(Multimodal Misinformation Detection, MMD)在当前社会中变得尤为重要,尤其是在图像-文本对的形式下。然而,获取大规模、高质量的真实世界事实核查数据集用于训练检测器的成本高昂,导致研究人员转向使用由AI技术生成的合成数据集。然而,这些合成数据集与真实世界数据之间的分布差异,使得检测器在真实世界中的泛化能力存在不确定性。
➡️ 研究动机:为了解决合成数据与真实世界数据之间的分布差异问题,研究团队提出了一种从合成数据中学习的方法,通过两种模型无关的数据选择方法来匹配合成数据和真实世界数据的分布,从而提高检测器在真实世界事实核查数据上的性能。
➡️ 方法简介:研究团队首先整合了三个不同的合成数据集,以确保覆盖多模态虚假信息的常见类别。然后,基于少量未标注的真实世界实例作为验证集,研究团队提出了两种模型无关的数据选择方法:1) 语义相似性选择,优先选择与验证集相似度最高的合成实例;2) 分布相似性选择,利用最优传输(Optimal Transport, OT)问题的梯度信息来增加目标区域的数据密度,选择接近真实世界分布的合成数据点。
➡️ 实验设计:实验在两个真实世界事实核查数据集上进行,包括MediaEval和Snopes。实验设计了不同的数据选择方法,包括随机选择、语义相似性选择和分布相似性选择,以评估这些方法在不同规模和家族的多模态大语言模型(MLLMs)上的有效性。实验结果表明,通过选择少量有价值的合成数据进行微调,即使是较小的MLLM(13B)也能在真实世界数据集上超越GPT-4V。
Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration
➡️ 论文标题:Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration
➡️ 论文作者:Kaihang Pan, Zhaoyu Fan, Juncheng Li, Qifan Yu, Hao Fei, Siliang Tang, Richang Hong, Hanwang Zhang, Qianru Sun
➡️ 研究机构: 浙江大学、新加坡国立大学、合肥工业大学、南洋理工大学、新加坡管理大学
➡️ 问题背景:随着多模态大语言模型(MLLMs)的迅速发展,有效知识编辑成为了一个重要挑战。当前的方法,包括内在知识编辑和外部知识求助,各自具有优势和局限性,难以在可靠性、普遍性和局部性之间取得平衡。尤其是在多模态知识的多样性和复杂性面前,这些方法在应用于MLLMs时面临显著挑战。
➡️ 研究动机:现有的知识编辑方法在应用于MLLMs时,虽然保持了高可靠性,但难以同时实现理想的局部性和普遍性。研究团队提出了一种新的多模态编辑方法——UniKE,旨在通过统一内在知识编辑和外部知识求助的框架,促进知识协作,从而克服现有方法的局限性。
➡️ 方法简介:UniKE方法通过将内在知识和外部知识统一表示为向量化的键值记忆,实现了在相同语义层次上的知识编辑。该方法不仅在前馈网络中整合了额外的内在知识,还在自注意力机制中通过特征偏移引入了外部知识。此外,通过对比学习将知识表示解耦为语义空间和真实性空间,进一步增强了内在知识和外部知识之间的协作。
➡️ 实验设计:研究团队在多个数据集上进行了实验,验证了UniKE方法的有效性。实验设计了不同的编辑场景,包括不同类型的多模态输入和编辑目标,以全面评估UniKE在可靠性、普遍性和局部性方面的表现。实验结果表明,UniKE方法在各种设置下均能确保编辑后的MLLMs同时具备优秀的可靠性、普遍性和局部性。
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
➡️ 论文标题:Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
➡️ 论文作者:Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang
➡️ 研究机构: IAIR, Xi’an Jiaotong University, INF Tech Co., Ltd., Fudan University, Dolby Laboratories, University of Illinois Chicago
➡️ 问题背景:跨语言跨模态检索(Cross-lingual Cross-modal Retrieval, CCR)旨在基于非英语查询检索相关的视觉内容,而无需依赖人工标注的跨模态数据对。现有的方法通常利用机器翻译(MT)生成伪平行数据对,以建立视觉和非英语文本数据之间的对应关系。然而,由于视觉和文本之间的显著语义差距,以及非英语表示的质量较低,这些方法在对齐视觉和非英语表示时面临挑战。
➡️ 研究动机:为了克服这些挑战,研究团队提出了一种新的解决方案LECCR(Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval),该方案利用多模态大语言模型(MLLM)生成详细的视觉描述,并将其聚合为多视图语义槽,以增强视觉特征的语义信息,从而缩小模态间的语义差距。此外,研究团队还引入了软匹配方法,利用英语特征作为引导,以提高视觉和非英语特征之间的对齐效果。
➡️ 方法简介:LECCR采用双流结构,首先利用MLLM生成详细的视觉描述,并通过多视图语义槽聚合这些描述,以捕捉描述中的不同语义。然后,通过多视图视觉-语义交互模块,将这些语义槽与视觉特征进行交互,生成语义增强的视觉特征和局部上下文视觉语义。最后,通过多级匹配和软匹配方法,进一步提高视觉和非英语特征之间的对齐效果。
➡️ 实验设计:研究团队在四个CCR基准数据集(Multi30K, MSCOCO, VATEX, MSR-VTT-CN)上进行了广泛的实验,评估了LECCR在文本-图像检索和文本-视频检索任务中的性能。实验结果表明,LECCR在大多数评估设置中均优于现有方法,展示了其在CCR任务中的有效性和潜力。
VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection
➡️ 论文标题:VMAD: Visual-enhanced Multimodal Large Language Model for Zero-Shot Anomaly Detection
➡️ 论文作者:Huilin Deng, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang
➡️ 研究机构: 中国科学技术大学、东北大学
➡️ 问题背景:工业异常检测(IAD)旨在识别和定位工业制造中的缺陷。现有的IAD方法主要依赖于无监督技术,但这些方法在处理新类别时表现不佳,且难以适应动态生产环境。最近,零样本异常检测(ZSAD)通过使用文本提示进行异常测量,实现了对未见过对象的检测。然而,这些方法仍然受限于封闭世界的设定,难以处理未见过的缺陷。多模态大语言模型(MLLMs)因其开放式的文本解释和生成能力,为IAD提供了一种有前景的解决方案。
➡️ 研究动机:尽管MLLMs在IAD中展现出潜力,但它们在细粒度异常检测和异常区分能力方面仍面临挑战。为此,研究团队提出了一种新的框架VMAD(Visual-enhanced MLLM Anomaly Detection),旨在增强MLLM的视觉感知能力和细粒度缺陷检测能力,同时提供精确的异常定位和全面的分析。
➡️ 方法简介:研究团队提出了两个创新模块:1) 缺陷敏感结构学习(DSSL):通过计算局部-全局视觉相似性和文本-视觉相似性,将视觉相似性线索转移到MLLM空间,增强异常区分能力。2) 局部增强的Token压缩(LTC):通过多级特征融合和局部上下文学习,保留丰富的视觉特征,提高细粒度缺陷检测能力。此外,研究团队还构建了RIAD(Real Industrial Anomaly Detection)数据集,包含28,040张图像,涵盖24个对象类别和15种缺陷类型,为MLLM在IAD中的应用提供了宝贵的资源。
➡️ 实验设计:研究团队在多个零样本基准数据集上进行了实验,包括MVTec-AD、VisA、WFDD和RIAD。实验结果表明,VMAD在异常检测和解释性分析方面均优于现有方法。
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
➡️ 论文标题:MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
➡️ 论文作者:Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
➡️ 研究机构: Apple
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)近年来成为研究热点。这些模型在多模态理解任务中展现了卓越的能力,尤其是在处理文本丰富的图像理解、视觉指代和定位、以及多图像推理方面。然而,现有的MLLMs在处理特定任务时仍存在不足,如文本丰富的图像理解、细粒度的视觉指代和定位等。
➡️ 研究动机:为了提升MLLMs在处理文本丰富的图像理解、细粒度的视觉指代和定位、以及多图像推理等方面的能力,研究团队开发了MM1.5,这是一个新的MLLM家族。MM1.5通过系统地探索不同数据混合对模型训练的影响,旨在提供更强的多模态理解能力,尤其是在小规模模型(1B和3B参数)上也能实现高性能。
➡️ 方法简介:研究团队提出了一个三阶段的训练方法,包括大规模预训练、高分辨率持续预训练和监督微调。在持续预训练阶段,团队使用了高质量的OCR数据和合成图像字幕,以增强模型对文本丰富图像的理解能力。监督微调阶段则通过精心设计的数据混合,平衡了模型在不同核心能力上的表现。
➡️ 实验设计:研究团队在多个公开数据集上进行了广泛的实验,包括单图像、多图像和文本数据。实验设计了不同数据类别的混合比例,以及不同任务的评估,以全面评估模型在不同条件下的表现。通过这些实验,团队提供了详细的训练过程和决策分析,为未来的MLLM开发提供了宝贵的指导。