多模态大语言模型arxiv论文略读(六十一)
SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
➡️ 论文标题:SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension
➡️ 论文作者:Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, Ying Shan
➡️ 研究机构: Tencent AI Lab、ARC Lab, Tencent PCG、School of Data Science, The Chinese University of Hong Kong, Shenzhen
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解多模态数据方面展现了显著的能力,尤其是在处理文本丰富的视觉内容时。然而,现有的MLLM基准测试主要集中在评估一般视觉理解能力,缺乏对文本丰富场景下模型性能的全面和客观评估。
➡️ 研究动机:尽管MLLMs在多模态数据理解方面表现出色,但它们在文本丰富场景下的表现尚未得到全面评估。研究团队通过引入SEED-Bench-2-Plus,旨在填补这一空白,提供一个专门用于评估MLLMs在文本丰富视觉理解能力的基准测试,以揭示当前模型的局限性和优势。
➡️ 方法简介:研究团队构建了SEED-Bench-2-Plus,包含2.3K个多项选择题,涵盖三个主要类别:图表(Charts)、地图(Maps)和网页(Webs)。每个问题都经过精确的人工标注,确保了答案的准确性和可靠性。这些类别进一步细分为63种具体类型,以全面评估模型在不同文本丰富场景下的表现。
➡️ 实验设计:研究团队对34个知名的MLLMs进行了广泛的评估,包括GPT-4V、Gemini-Pro-Vision和Claude-3-Opus。评估涵盖了不同类型的图表、地图和网页,通过计算模型生成每个选项内容的似然性来选择模型的预测答案。实验结果揭示了不同模型在文本丰富场景下的表现差异,强调了模型在处理复杂文本信息时的挑战和优势。
How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
➡️ 论文标题:How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites
➡️ 论文作者:Zhe Chen, Weiyun Wang, Hao Tian, Shenglong Ye, Zhangwei Gao, Erfei Cui, Wenwen Tong, Kongzhi Hu, Jiapeng Luo, Zheng Ma, Ji Ma, Jiaqi Wang, Xiaoyi Dong, Hang Yan, Hewei Guo, Conghui He, Botian Shi, Zhenjiang Jin, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
➡️ 研究机构: Shanghai AI Laboratory, SenseTime Research, Tsinghua University, Nanjing University, Fudan University, The Chinese University of Hong Kong
➡️ 问题背景:当前开源的多模态大语言模型(Multimodal Large Language Models, MLLMs)与专有商业模型在多模态理解能力上存在显著差距。这些差距主要体现在参数规模、图像分辨率和多语言能力三个方面。开源模型通常参数规模较小,图像分辨率固定,且主要依赖英文数据,导致在处理非英文场景和OCR任务时性能不佳。
➡️ 研究动机:为了缩小开源模型与商业模型之间的差距,研究团队提出了InternVL 1.5,通过三项主要改进来提升模型的性能和可用性。这些改进包括:1) 强视觉编码器:通过持续学习策略增强大规模视觉基础模型(InternViT-6B)的视觉理解能力;2) 动态高分辨率:将图像分割成448×448像素的多个图块,支持高达4K分辨率的输入;3) 高质量双语数据集:收集了涵盖常见场景、文档图像的高质量双语数据集,并标注了中英文问答对,显著提升了OCR和中文相关任务的性能。
➡️ 方法简介:研究团队通过构建高质量的双语数据集和采用动态高分辨率策略,以及持续学习的方法来增强视觉基础模型,从而提升了InternVL 1.5的多模态理解和处理能力。具体来说,模型通过分割图像为多个图块,并在训练和测试时动态调整分辨率,以适应不同输入图像的分辨率和长宽比。此外,模型还利用了高质量的双语数据集,增强了在中英文任务中的表现。
➡️ 实验设计:研究团队在18个代表性多模态基准测试上对InternVL 1.5进行了评估,这些基准测试分为四个类别:OCR相关、通用多模态、数学和多轮对话。实验结果表明,InternVL 1.5在多个基准测试中表现出色,特别是在OCR相关任务中,如TextVQA、ChartQA和DocVQA,甚至超过了领先的商业模型。
Make-it-Real: Unleashing Large Multimodal Model for Painting 3D Objects with Realistic Materials
➡️ 论文标题:Make-it-Real: Unleashing Large Multimodal Model for Painting 3D Objects with Realistic Materials
➡️ 论文作者:Ye Fang, Zeyi Sun, Tong Wu, Jiaqi Wang, Ziwei Liu, Gordon Wetzstein, Dahua Lin
➡️ 研究机构: Fudan University、Shanghai Jiao Tong University、The Chinese University of Hong Kong、Shanghai AI Laboratory、S-Lab, Nanyang Technological University、Stanford University
➡️ 问题背景:高质量的材料对于增强3D资产在不同应用和光照条件下的真实感至关重要。然而,现有的3D资产和生成模型往往缺乏真实的材料属性,手动使用图形软件分配材料既繁琐又耗时。此外,现有的3D生成模型虽然能够创建复杂的几何形状和详细的外观,但在生成物理真实材料方面仍存在不足,限制了其实际应用。
➡️ 研究动机:为了克服现有3D生成模型在材料生成上的局限性,研究团队提出了一种新的方法——Make-it-Real,利用多模态大型语言模型(MLLMs),特别是GPT-4V,来识别和应用真实世界的材料到广泛的3D对象上。该方法旨在提高3D内容生成模型的材料真实感,减少手动材料分配的时间和复杂性。
➡️ 方法简介:研究团队首先创建了一个包含数千种材料的详细描述的材料库,然后利用GPT-4V结合视觉提示和层次文本提示,精确地识别和匹配3D对象各部分的材料。最后,通过精心设计的算法生成SVBRDF(空间变化的双向反射分布函数)地图,显著提高了材料的视觉真实性。
➡️ 实验设计:实验主要在两类对象上进行:一类是人工3D资产,主要模型来自Objaverse;另一类是由最先进的3D生成方法生成的对象。对于现有的3D资产,研究团队从Objaverse中挑选了200个具有多样纹理的对象;对于3D生成模型(如InstantMesh、TripoSR、MVDream、Instant3D和Fantasia3D),每种方法生成了200个对象。实验通过GPT-4V评估和用户研究,比较了材料应用前后的纹理质量。
SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models
➡️ 论文标题:SERPENT-VLM : Self-Refining Radiology Report Generation Using Vision Language Models
➡️ 论文作者:Manav Nitin Kapadnis, Sohan Patnaik, Abhilash Nandy, Sourjyadip Ray, Pawan Goyal, Debdoot Sheet
➡️ 研究机构: Indian Institute of Technology Kharagpur
➡️ 问题背景:放射学报告生成(R2Gen)任务旨在将放射学图像自动转化为全面的文本报告,但现有方法常在文本报告中产生与图像内容不符的细节,即“幻觉”问题,这直接影响了报告的准确性和可靠性。
➡️ 研究动机:为了减少R2Gen任务中的幻觉问题,研究团队提出了SERPENT-VLM(SElf Refining Radiology RePort GENeraTion using Vision Language Models),通过在多模态大语言模型(MLLMs)框架中集成自精炼机制,改善R2Gen任务的性能。
➡️ 方法简介:SERPENT-VLM采用了一种独特的自监督损失函数,该函数利用图像表示和生成的放射学文本的上下文表示之间的相似性,结合标准的因果语言建模目标,来精炼图像-文本表示。这种方法允许模型通过给定图像和生成文本之间的动态交互,检查和对齐生成的文本,从而减少幻觉并持续提升报告生成的细致程度。
➡️ 实验设计:研究在IU X-ray和Radiology Objects in COntext (ROCO) 数据集上进行了实验,评估了SERPENT-VLM在不同条件下的表现。实验设计包括了不同因素(如图像噪声)的变化,以及不同类型的评估指标(如BLEU、RougeL、BertScore),以全面评估模型的性能和抗干扰能力。实验结果表明,SERPENT-VLM在减少幻觉、提高报告准确性和鲁棒性方面显著优于现有的基线模型。
WorldGPT: Empowering LLM as Multimodal World Model
➡️ 论文标题:WorldGPT: Empowering LLM as Multimodal World Model
➡️ 论文作者:Zhiqi Ge, Hongzhe Huang, Mingze Zhou, Juncheng Li, Guoming Wang, Siliang Tang, Yueting Zhuang
➡️ 研究机构: 浙江大学、新加坡国立大学
➡️ 问题背景:现有的世界模型主要在特定领域内训练,且局限于单一模态的状态表示,难以应对复杂的真实世界场景。这些模型在泛化能力、多模态处理和数据集构建方面存在不足。
➡️ 研究动机:为了克服现有世界模型的局限性,研究团队提出了WorldGPT,一个基于多模态大语言模型(MLLM)的通用世界模型。WorldGPT通过分析数百万个视频,学习世界动态,并结合认知架构,增强其在特定场景和长期任务中的表现。
➡️ 方法简介:WorldGPT由三个部分组成:多模态编码器、大语言模型(LLM)和多模态解码器。研究团队采用了一种渐进的状态转换训练方法,从单一模态到多模态,从单模态到跨模态,逐步引入新的模态组合,确保模型在复杂情况下的有效性。此外,研究团队还设计了一种认知架构,包括知识检索系统、工作记忆机制和ContextReflector,以帮助WorldGPT利用外部知识和历史预测。
➡️ 实验设计:研究团队构建了WorldNet,一个包含多种现实场景的多模态状态转换预测基准数据集。WorldNet分为两个子集:WorldNet-Wild和WorldNet-Crafted。WorldNet-Wild通过低成本方法构建,适合预训练;WorldNet-Crafted则从高质量数据集转换而来,适合深入评估。实验结果表明,WorldGPT在建模世界动态方面表现出色,并且能够作为通用的世界模拟器,帮助多模态代理在不熟悉的领域中泛化。