多模态大语言模型arxiv论文略读(六十二)
MileBench: Benchmarking MLLMs in Long Context
➡️ 论文标题:MileBench: Benchmarking MLLMs in Long Context
➡️ 论文作者:Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen, Shenzhen Research Institute of Big Data
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种多模态任务中表现出色,但它们在处理长文本和多图像任务时的实际效果尚不明确。现有的基准测试主要集中在单图像和短文本样本上,未能全面反映现实世界应用的复杂性和多样性。此外,这些基准测试在评估多图像任务时,要么限制图像数量,要么仅关注特定任务,如时间序列描述,这可能导致忽视MLLMs在长文本情境下的幻觉问题。
➡️ 研究动机:为了弥补现有基准测试的不足,研究团队开发了MILEBENCH,这是首个专门设计用于测试MLLMs在多模态长文本情境下能力的基准测试。MILEBENCH旨在系统评估MLLMs在处理长文本和多图像任务时的适应能力和任务完成能力,特别是涉及多轮对话、动作预测、3D空间导航和理解长文档等任务。
➡️ 方法简介:MILEBENCH由两个主要部分组成:现实评估(Realistic Evaluation)和诊断评估(Diagnostic Evaluation)。现实评估侧重于评估MLLMs在多模态长文本情境下的理解、整合和推理能力;诊断评估则侧重于评估MLLMs在长文本情境中检索信息的能力,包括“针在草堆中”(Needle in a Haystack)和图像检索任务。研究团队从21个现有或自建的数据集中收集了6,440个多模态长文本样本,每个样本平均包含15.2张图像和422.3个单词。
➡️ 实验设计:研究团队评估了22个模型,包括5个闭源模型和17个开源模型。实验结果表明,闭源模型GPT-4o在诊断评估和现实评估中表现最佳,分别达到了99.4%和60.3%的准确率。相比之下,大多数开源MLLMs在长文本情境任务中表现不佳,平均得分仅为10.1%。实验还发现,随着图像数量的增加,开源MLLMs的性能下降更为明显,而闭源模型的性能下降幅度较小。
Hallucination of Multimodal Large Language Models: A Survey
➡️ 论文标题:Hallucination of Multimodal Large Language Models: A Survey
➡️ 论文作者:Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou
➡️ 研究机构: National University of Singapore, AWS Shanghai AI Lab, Amazon Prime Video
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种多模态任务中展现了显著的进步和卓越的能力,如图像描述、视觉问答等。然而,这些模型在生成输出时经常出现与视觉内容不一致的现象,即“幻觉”(hallucination),这对其实际应用的可靠性和可信度构成了重大挑战。
➡️ 研究动机:尽管多模态大语言模型(MLLMs)在多模态任务中表现出色,但它们生成的输出经常与视觉内容不一致,这种现象被称为“幻觉”。为了深入理解幻觉的成因,并探索有效的检测和缓解方法,研究团队对MLLMs中的幻觉现象进行了全面的分析和综述,旨在为未来的研究和应用提供有价值的见解和指导。
➡️ 方法简介:研究团队对MLLMs中的幻觉现象进行了系统性的分析,包括幻觉的成因、评估基准、度量标准以及缓解策略。研究涵盖了数据、模型、训练和推理四个方面的成因,并提出了针对这些成因的缓解方法。此外,研究还提供了详细的幻觉分类和评估基准,以帮助研究人员更好地理解和评估MLLMs中的幻觉现象。
➡️ 实验设计:研究团队通过分析大量文献,总结了幻觉的多种成因,并提出了相应的评估基准和度量标准。研究还讨论了现有的缓解幻觉的方法,包括数据增强、模型改进、训练策略和推理干预等。通过这些方法,研究旨在为提高MLLMs的可靠性和可信度提供系统性的指导。
What Drives Performance in Multilingual Language Models?
➡️ 论文标题:What Drives Performance in Multilingual Language Models?
➡️ 论文作者:Sina Bagheri Nezhad, Ameeta Agrawal
➡️ 研究机构: Portland State University
➡️ 问题背景:多语言大型语言模型(MLLMs)在自然语言处理领域取得了显著进展,能够支持多种语言的应用,如机器翻译和情感分析。然而,这些模型在不同语言上的表现存在差异,尤其是在资源贫乏的语言上。理解这些模型在不同语言上的表现对于进一步发展至关重要。
➡️ 研究动机:尽管已有研究探讨了影响MLLMs性能的因素,但这些研究通常局限于少数语言、特定任务或训练范式。此外,大多数研究未能区分模型在预训练中见过的语言(SEEN)、完全新的语言(UNSEEN)以及评估数据集中所有语言(ALL)。本研究旨在通过全面分析不同模型和训练设置下的多种因素,为开发更有效和公平的多语言NLP系统提供深入见解。
➡️ 方法简介:研究团队评估了6种MLLMs,包括掩码语言模型、自回归模型和指令调优的大型语言模型,使用SIB-200数据集进行文本分类任务。研究考虑了四个关键因素:预训练数据量、资源可用性水平、语言家族和脚本类型。通过决策树分析,研究团队探讨了这些因素对模型性能的影响。
➡️ 实验设计:实验在SIB-200数据集上进行,该数据集涵盖了204种语言。研究设计了三种训练场景:零样本、两样本上下文学习(ICL)和完全监督。实验分析了不同模型在不同语言类别(SEEN、UNSEEN、ALL)下的表现,重点关注预训练数据量、资源可用性、语言家族和脚本类型等因素的影响。
TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
➡️ 论文标题:TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
➡️ 论文作者:Yoonsik Kim, Moonbin Yim, Ka Yeon Song
➡️ 研究机构: NAVER Cloud AI
➡️ 问题背景:当前的多模态大语言模型(Multi-Modal Large Language Models, MLLMs)在处理表格视觉问答(TableVQA)任务时,面临缺乏合适的评估数据集的问题。现有的表格问答(TableQA)数据集大多不包含图像或问答对,这限制了它们在TableVQA任务中的应用。因此,构建一个包含图像和问答对的TableVQA数据集对于评估MLLMs在TableVQA任务中的表现至关重要。
➡️ 研究动机:为了填补这一空白,研究团队构建了一个新的TableVQA基准数据集——TableVQA-Bench。该数据集通过整合现有的表格问答(TableQA)和表格结构识别(TSR)数据集,生成了包含图像、HTML文本表示和问答对的综合数据集。研究旨在评估不同MLLMs在TableVQA任务中的表现,并探讨视觉输入与文本输入在性能上的差异。
➡️ 方法简介:研究团队提出了一个系统的方法,通过应用样式表或使用表格渲染系统生成表格图像,并利用大型语言模型(LLM)生成问答对,构建了TableVQA-Bench。该数据集包含1,500个问答对,涵盖了多个表格领域。研究还比较了不同MLLMs在TableVQA-Bench上的表现,并分析了视觉查询数量对模型性能的影响。
➡️ 实验设计:实验在TableVQA-Bench上进行,评估了多个商业和开源MLLMs的性能。实验设计了不同输入格式(视觉和文本)的比较,以及不同模型在处理视觉输入时的性能差异。此外,研究还探讨了两阶段推理方法,即先从图像中提取HTML,再使用LLM进行问答任务,以评估其对模型性能的影响。实验结果表明,GPT-4V在所有模型中表现最佳,但视觉输入的性能普遍低于文本输入。
OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning
➡️ 论文标题:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning
➡️ 论文作者:Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez
➡️ 研究机构: 北京理工大学、NVIDIA、华中科技大学
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在端到端自动驾驶中的应用展现了强大的推理能力,但将这些能力从2D理解扩展到3D空间的复杂性仍然是一个重大挑战。3D空间的理解对于自动驾驶车辆(AVs)做出明智决策、预测未来状态和安全互动至关重要。此外,处理多视角高分辨率视频输入的需求也是当前2D MLLM架构难以克服的问题。
➡️ 研究动机:为了解决上述挑战,研究团队提出了OmniDrive,这是一个全面的框架,旨在实现3D感知、推理和规划的强对齐。OmniDrive不仅提出了一个新颖的3D MLLM架构,还引入了一个新的基准测试OmniDrive-nuScenes,该基准测试涵盖了全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D定位、反事实推理、决策和规划。
➡️ 方法简介:OmniDrive的核心是一个基于Q-Former的3D MLLM架构,该架构通过将多视角图像特征压缩为稀疏查询,然后将这些查询与3D位置编码结合,输入到大型语言模型中,从而实现3D空间理解。此外,OmniDrive-nuScenes基准测试通过模拟决策和轨迹来评估模型的反事实推理能力,以及在复杂3D场景中的长期规划能力。
➡️ 实验设计:研究团队在nuScenes数据集上进行了广泛的实验,验证了OmniDrive在3D场景中的优秀推理和规划能力。实验包括了场景描述、交通规则理解、3D定位、反事实推理、决策和规划等多个任务,通过多种评估指标(如METEOR、ROUGE、CIDEr、碰撞率和道路边界交叉率等)来全面评估模型的性能。