当前位置: 首页 > backend >正文

多模态大语言模型arxiv论文略读(六十二)

请添加图片描述

MileBench: Benchmarking MLLMs in Long Context

➡️ 论文标题:MileBench: Benchmarking MLLMs in Long Context
➡️ 论文作者:Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen, Shenzhen Research Institute of Big Data
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种多模态任务中表现出色,但它们在处理长文本和多图像任务时的实际效果尚不明确。现有的基准测试主要集中在单图像和短文本样本上,未能全面反映现实世界应用的复杂性和多样性。此外,这些基准测试在评估多图像任务时,要么限制图像数量,要么仅关注特定任务,如时间序列描述,这可能导致忽视MLLMs在长文本情境下的幻觉问题。
➡️ 研究动机:为了弥补现有基准测试的不足,研究团队开发了MILEBENCH,这是首个专门设计用于测试MLLMs在多模态长文本情境下能力的基准测试。MILEBENCH旨在系统评估MLLMs在处理长文本和多图像任务时的适应能力和任务完成能力,特别是涉及多轮对话、动作预测、3D空间导航和理解长文档等任务。
➡️ 方法简介:MILEBENCH由两个主要部分组成:现实评估(Realistic Evaluation)和诊断评估(Diagnostic Evaluation)。现实评估侧重于评估MLLMs在多模态长文本情境下的理解、整合和推理能力;诊断评估则侧重于评估MLLMs在长文本情境中检索信息的能力,包括“针在草堆中”(Needle in a Haystack)和图像检索任务。研究团队从21个现有或自建的数据集中收集了6,440个多模态长文本样本,每个样本平均包含15.2张图像和422.3个单词。
➡️ 实验设计:研究团队评估了22个模型,包括5个闭源模型和17个开源模型。实验结果表明,闭源模型GPT-4o在诊断评估和现实评估中表现最佳,分别达到了99.4%和60.3%的准确率。相比之下,大多数开源MLLMs在长文本情境任务中表现不佳,平均得分仅为10.1%。实验还发现,随着图像数量的增加,开源MLLMs的性能下降更为明显,而闭源模型的性能下降幅度较小。

Hallucination of Multimodal Large Language Models: A Survey

➡️ 论文标题:Hallucination of Multimodal Large Language Models: A Survey
➡️ 论文作者:Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou
➡️ 研究机构: National University of Singapore, AWS Shanghai AI Lab, Amazon Prime Video
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种多模态任务中展现了显著的进步和卓越的能力,如图像描述、视觉问答等。然而,这些模型在生成输出时经常出现与视觉内容不一致的现象,即“幻觉”(hallucination),这对其实际应用的可靠性和可信度构成了重大挑战。
➡️ 研究动机:尽管多模态大语言模型(MLLMs)在多模态任务中表现出色,但它们生成的输出经常与视觉内容不一致,这种现象被称为“幻觉”。为了深入理解幻觉的成因,并探索有效的检测和缓解方法,研究团队对MLLMs中的幻觉现象进行了全面的分析和综述,旨在为未来的研究和应用提供有价值的见解和指导。
➡️ 方法简介:研究团队对MLLMs中的幻觉现象进行了系统性的分析,包括幻觉的成因、评估基准、度量标准以及缓解策略。研究涵盖了数据、模型、训练和推理四个方面的成因,并提出了针对这些成因的缓解方法。此外,研究还提供了详细的幻觉分类和评估基准,以帮助研究人员更好地理解和评估MLLMs中的幻觉现象。
➡️ 实验设计:研究团队通过分析大量文献,总结了幻觉的多种成因,并提出了相应的评估基准和度量标准。研究还讨论了现有的缓解幻觉的方法,包括数据增强、模型改进、训练策略和推理干预等。通过这些方法,研究旨在为提高MLLMs的可靠性和可信度提供系统性的指导。

What Drives Performance in Multilingual Language Models?

➡️ 论文标题:What Drives Performance in Multilingual Language Models?
➡️ 论文作者:Sina Bagheri Nezhad, Ameeta Agrawal
➡️ 研究机构: Portland State University
➡️ 问题背景:多语言大型语言模型(MLLMs)在自然语言处理领域取得了显著进展,能够支持多种语言的应用,如机器翻译和情感分析。然而,这些模型在不同语言上的表现存在差异,尤其是在资源贫乏的语言上。理解这些模型在不同语言上的表现对于进一步发展至关重要。
➡️ 研究动机:尽管已有研究探讨了影响MLLMs性能的因素,但这些研究通常局限于少数语言、特定任务或训练范式。此外,大多数研究未能区分模型在预训练中见过的语言(SEEN)、完全新的语言(UNSEEN)以及评估数据集中所有语言(ALL)。本研究旨在通过全面分析不同模型和训练设置下的多种因素,为开发更有效和公平的多语言NLP系统提供深入见解。
➡️ 方法简介:研究团队评估了6种MLLMs,包括掩码语言模型、自回归模型和指令调优的大型语言模型,使用SIB-200数据集进行文本分类任务。研究考虑了四个关键因素:预训练数据量、资源可用性水平、语言家族和脚本类型。通过决策树分析,研究团队探讨了这些因素对模型性能的影响。
➡️ 实验设计:实验在SIB-200数据集上进行,该数据集涵盖了204种语言。研究设计了三种训练场景:零样本、两样本上下文学习(ICL)和完全监督。实验分析了不同模型在不同语言类别(SEEN、UNSEEN、ALL)下的表现,重点关注预训练数据量、资源可用性、语言家族和脚本类型等因素的影响。

TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains

➡️ 论文标题:TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
➡️ 论文作者:Yoonsik Kim, Moonbin Yim, Ka Yeon Song
➡️ 研究机构: NAVER Cloud AI
➡️ 问题背景:当前的多模态大语言模型(Multi-Modal Large Language Models, MLLMs)在处理表格视觉问答(TableVQA)任务时,面临缺乏合适的评估数据集的问题。现有的表格问答(TableQA)数据集大多不包含图像或问答对,这限制了它们在TableVQA任务中的应用。因此,构建一个包含图像和问答对的TableVQA数据集对于评估MLLMs在TableVQA任务中的表现至关重要。
➡️ 研究动机:为了填补这一空白,研究团队构建了一个新的TableVQA基准数据集——TableVQA-Bench。该数据集通过整合现有的表格问答(TableQA)和表格结构识别(TSR)数据集,生成了包含图像、HTML文本表示和问答对的综合数据集。研究旨在评估不同MLLMs在TableVQA任务中的表现,并探讨视觉输入与文本输入在性能上的差异。
➡️ 方法简介:研究团队提出了一个系统的方法,通过应用样式表或使用表格渲染系统生成表格图像,并利用大型语言模型(LLM)生成问答对,构建了TableVQA-Bench。该数据集包含1,500个问答对,涵盖了多个表格领域。研究还比较了不同MLLMs在TableVQA-Bench上的表现,并分析了视觉查询数量对模型性能的影响。
➡️ 实验设计:实验在TableVQA-Bench上进行,评估了多个商业和开源MLLMs的性能。实验设计了不同输入格式(视觉和文本)的比较,以及不同模型在处理视觉输入时的性能差异。此外,研究还探讨了两阶段推理方法,即先从图像中提取HTML,再使用LLM进行问答任务,以评估其对模型性能的影响。实验结果表明,GPT-4V在所有模型中表现最佳,但视觉输入的性能普遍低于文本输入。

OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

➡️ 论文标题:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning
➡️ 论文作者:Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez
➡️ 研究机构: 北京理工大学、NVIDIA、华中科技大学
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在端到端自动驾驶中的应用展现了强大的推理能力,但将这些能力从2D理解扩展到3D空间的复杂性仍然是一个重大挑战。3D空间的理解对于自动驾驶车辆(AVs)做出明智决策、预测未来状态和安全互动至关重要。此外,处理多视角高分辨率视频输入的需求也是当前2D MLLM架构难以克服的问题。
➡️ 研究动机:为了解决上述挑战,研究团队提出了OmniDrive,这是一个全面的框架,旨在实现3D感知、推理和规划的强对齐。OmniDrive不仅提出了一个新颖的3D MLLM架构,还引入了一个新的基准测试OmniDrive-nuScenes,该基准测试涵盖了全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D定位、反事实推理、决策和规划。
➡️ 方法简介:OmniDrive的核心是一个基于Q-Former的3D MLLM架构,该架构通过将多视角图像特征压缩为稀疏查询,然后将这些查询与3D位置编码结合,输入到大型语言模型中,从而实现3D空间理解。此外,OmniDrive-nuScenes基准测试通过模拟决策和轨迹来评估模型的反事实推理能力,以及在复杂3D场景中的长期规划能力。
➡️ 实验设计:研究团队在nuScenes数据集上进行了广泛的实验,验证了OmniDrive在3D场景中的优秀推理和规划能力。实验包括了场景描述、交通规则理解、3D定位、反事实推理、决策和规划等多个任务,通过多种评估指标(如METEOR、ROUGE、CIDEr、碰撞率和道路边界交叉率等)来全面评估模型的性能。

http://www.xdnf.cn/news/4419.html

相关文章:

  • uniapp自定义底部导航栏h5有效果小程序无效的解决方案
  • 鞅与停时 - 一种特别的概率论问题
  • 讲解什么是快充诱骗协议芯片及它的工作原理和应用场景
  • 构建生命大模型,开拓教育新境界——启智书院举办十二周年庆典暨教育新生态跨界共拓峰会
  • 【存储管理—动态不等长存储资源分配算法】
  • 可执行文件格式(ELF格式)以及进程地址空间第二讲【Linux操作系统】
  • 【django.db.utils.OperationalError: unable to open database file】
  • Redis-黑马点评
  • 固件测试:mac串口工具推荐
  • 第1章 算法设计基础
  • draw.io流程图使用笔记
  • 机器人跑拉松是商业噱头还是技术进步的必然体现
  • 【愚公系列】《Manus极简入门》024-表演艺术教练:“舞台魔法师”
  • Matlab实现绘制任意自由曲线
  • 微调大模型的工具
  • 大语言模型中的“温度”参数到底是什么?如何正确设置?
  • 低空科技护航珞樱春色,技术引领助推广阔应用
  • 2025.05.07-华为机考第二题200分
  • uni-app 引入vconsole web端正常,安卓端报错 Cannot read property ‘sendBeacon‘ of undefined
  • 【论文阅读】Adversarial Training Towards Robust Multimedia Recommender System
  • 【神经网络与深度学习】VAE 和 GAN
  • Linux网络新手注意事项与配置指南
  • Dify平台下基于搜索引擎SearXNG 和文本转换工具Marp的PPT助手搭建
  • 电商双11美妆数据分析实验总结
  • sudo apt-get update 相关问题
  • React学习路线图-Gemini版
  • Vue从零开始创建一个vue项目
  • 【wpf】10 C#树形控件高效实现:递归构建与路径查找优化详解
  • 铁塔基站项目用电能表有哪些?
  • Kubernetes(k8s)学习笔记(八)--KubeSphere定制化安装