多模态大语言模型arxiv论文略读(120)
XLM for Autonomous Driving Systems: A Comprehensive Review
➡️ 论文标题:XLM for Autonomous Driving Systems: A Comprehensive Review
➡️ 论文作者:Sonda Fourati, Wael Jaafar, Noura Baccar, Safwan Alfattani
➡️ 研究机构: Mediterranean Institute of Technology (MedTech), Tunis, Tunisia; Software and IT Engineering Department, École de Technologie Supérieure (ETS), University of Quebec, Montreal, Canada; King AbdulAziz University (KAU), Rabigh, Saudi Arabia
➡️ 问题背景:随着自动驾驶系统(ADS)的发展,确保道路安全、减少人为驾驶错误、提高交通效率成为关键目标。然而,实现完全自动驾驶面临诸多挑战,如在复杂和不可预测的交通场景中可靠的感知和决策。近年来,大型语言模型(LLMs)、视觉语言模型(VLMs)和多模态大型语言模型(MLLMs)等生成式人工智能(GAI)技术在信息处理任务中展现出卓越的能力,为解决这些挑战提供了新的可能。
➡️ 研究动机:尽管LLMs在理解上下文、处理复杂任务和生成答案方面表现出色,但它们对视觉信息“盲视”。VLMs虽然在视觉感知方面表现良好,但在推理能力上相对较弱。MLLMs结合了LLMs的推理能力和VLMs的多模态数据处理能力,为解决ADS中的挑战提供了新的途径。本综述旨在全面概述XLMs在ADS中的应用,评估现有技术,并指出未来的研究方向。
➡️ 方法简介:研究团队采用系统的方法,通过文献回顾、技术评估和案例分析,全面评估了XLMs在ADS中的应用。研究涵盖了LLMs、VLMs和MLLMs的基本概念、架构、工具和框架,以及它们在ADS中的具体应用。此外,研究还探讨了XLMs在ADS中的挑战和未来研究方向。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,评估了XLMs在不同任务中的表现,包括感知、规划、决策和控制等。实验设计考虑了不同环境条件(如天气、时间、地理位置)和不同任务需求(如感知、规划、控制),以全面评估XLMs在ADS中的适用性和有效性。
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
➡️ 论文标题:SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
➡️ 论文作者:Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen
➡️ 研究机构: National Taiwan University, NVIDIA
➡️ 问题背景:当前的多模态大语言模型(Multi-Modal Large Language Models, MLLMs)在理解和生成文本方面表现出色,并逐渐扩展到处理视觉信息。然而,这些模型在处理像素级定位任务时存在局限性,尤其是在指代表达分割(Referring Expression Segmentation, RES)任务中,仅依靠边界框难以精确指示对象位置。研究团队提出了一种新的方法,通过整合Segment Anything Model (SAM)与MLLMs,使MLLMs能够理解像素级细节,而无需对模型架构进行重大修改。
➡️ 研究动机:现有的多模态模型在处理像素级任务时需要对模型架构进行大量修改,引入新的标记或损失函数,这增加了模型的复杂性和扩展难度。为了简化这一过程,研究团队提出了一种简单有效的方法,通过利用MLLMs生成SAM的提示点,实现高精度的像素级分割,从而提高模型在复杂视觉任务中的表现。
➡️ 方法简介:研究团队提出了SAM4MLLM方法,该方法通过MLLMs生成SAM的提示点,使MLLMs能够理解像素级信息。具体来说,研究团队使用了LoRA(Low-Rank Adaptation)技术对MLLMs进行微调,使其能够生成边界框和提示点。此外,研究团队还提出了两种获取提示点的方法:Prompt-Point Generation (PPG) 和 Proactive Query of Prompt-Points (PQPP)。PPG直接生成提示点,而PQPP通过对话机制逐步获取提示点。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括RES数据集、GRES数据集和VQA数据集。实验设计了不同的训练和推理阶段,评估了PPG和PQPP两种方法在生成提示点和分割精度方面的表现。实验结果表明,SAM4MLLM在处理复杂像素级任务时表现出色,能够生成高质量的分割掩码,且无需对原始MLLM架构进行重大修改。
Multi-Floor Zero-Shot Object Navigation Policy
➡️ 论文标题:Multi-Floor Zero-Shot Object Navigation Policy
➡️ 论文作者:Lingfeng Zhang, Hao Wang, Erjia Xiao, Xinyao Zhang, Qiang Zhang, Zixuan Jiang, Renjing Xu
➡️ 研究机构: The Hong Kong University of Science and Technology (Guangzhou)、Beijing Innovation Center of Humanoid Robotics Co., Ltd.
➡️ 问题背景:在多楼层环境中进行物体导航(Object Navigation, ObjectNav)是机器人技术中的一个重大挑战,需要复杂的空间推理和适应性探索策略。现有的研究主要集中在单楼层场景,忽略了多楼层结构带来的复杂性。在现实世界中,目标物体通常分布在建筑物的不同楼层,这给现有的导航方法带来了额外的挑战。
➡️ 研究动机:为了应对多楼层导航的挑战,研究团队提出了一个多楼层导航策略(Multi-Floor Navigation Policy, MFNP),并将其应用于零样本(Zero-Shot)物体导航任务中。该策略旨在使代理能够高效地在不同楼层之间导航,通过楼梯实现楼层间的转换。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建语义地图(Semantic Map)和候选路径点地图(Candidate Waypoints Map),结合大型语言模型(LLM)和多模态大型模型(VLM)的推理能力,实现多楼层导航。MFNP包括三个关键组件:(1)多楼层导航策略,使代理能够探索多个楼层;(2)多模态大型语言模型(MLLMs),用于导航过程中的推理;(3)楼层间导航,确保高效的楼层转换。
➡️ 实验设计:研究团队在Habitat-Matterport 3D (HM3D) 和 Matterport 3D (MP3D) 数据集上进行了实验,这些数据集包含多楼层场景。实验评估了MFNP在零样本物体导航任务中的性能,包括成功率(SR)、路径长度加权成功率(SPL)和目标距离(DTG)等指标。实验结果表明,MFNP在两个数据集上均显著优于现有的零样本物体导航方法,特别是在成功率和探索效率方面表现出色。此外,研究团队还进行了真实世界的实验,验证了MFNP在实际环境中的可行性。
Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs
➡️ 论文标题:Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs
➡️ 论文作者:Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen、Lehigh University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多个领域展现了卓越的性能,但这些模型的资源消耗也显著增加。为了应对这一挑战,研究团队提出了一种新的方法——Token Reduction using CLIP Metric (TRIM),旨在提高MLLMs的效率,同时不牺牲其性能。
➡️ 研究动机:尽管MLLMs在性能上取得了显著进展,但其资源消耗问题日益严重。为了提高这些模型的效率,研究团队开发了TRIM方法,通过减少图像令牌的数量来降低计算和内存需求,同时保持模型的性能。
➡️ 方法简介:TRIM方法基于CLIP模型的相似性度量,通过计算文本和图像块之间的相似性来评估图像令牌的重要性。研究团队使用四分位数范围(IQR)方法选择重要的图像令牌,并通过聚合未选择的令牌来保留图像信息。这种方法显著减少了图像令牌的数量,从而提高了模型的效率。
➡️ 实验设计:研究团队在12个公开数据集上进行了实验,包括视觉问答(VQA)、图像描述生成(GQA)、视觉问答(VisWiz)、场景理解(SQAI)、视觉问答(VQAT)、多模态理解(POPE)、多模态多任务基准(MME)等任务。实验结果表明,TRIM方法在显著减少计算开销的同时,保持了与基线模型相当的性能。
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving
➡️ 论文标题:Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving
➡️ 论文作者:Yunsheng Ma, Amr Abdelraouf, Rohit Gupta, Ziran Wang, Kyungtae Han
➡️ 研究机构: Toyota InfoTech Labs, Purdue University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在增强自动驾驶系统场景理解方面展现出巨大潜力,但其参数量大和计算需求高,导致难以在车载计算资源受限的环境中部署。特别是,捕捉细粒度和长上下文视觉信息需要大量视觉token,进一步增加了计算负担。
➡️ 研究动机:为了解决MLLMs在自动驾驶系统中部署的计算和内存挑战,研究团队提出了一种新的方法——视频token稀疏化(Video Token Sparsification, VTS),通过利用连续视频帧中的冗余信息,减少视觉token的数量,同时保留最关键的信息。
➡️ 方法简介:VTS方法通过轻量级的CNN提案模型,自适应地选择关键帧并修剪不重要的token,从而有效减少视觉token的数量。该方法在DRAMA和LingoQA基准数据集上进行了全面实验,验证了其在减少内存使用和提高推理吞吐量方面的有效性。
➡️ 实验设计:实验在DRAMA和LingoQA两个自动驾驶视频问答数据集上进行,评估了VTS在不同token稀疏化率下的性能。实验结果表明,VTS在减少40%冗余视觉token的同时,能够提高33%的推理吞吐量,且不牺牲性能。此外,通过消融实验,研究团队还验证了自适应关键帧选择和监督微调的有效性。