当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(八十)

在这里插入图片描述## MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
➡️ 论文标题:MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
➡️ 论文作者:Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
➡️ 研究机构: UC Santa Cruz、UC Santa Barbara、Microsoft
➡️ 问题背景:多模态语言模型(Multimodal Large Language Models, MLLMs)在文本和图像领域展示了显著的能力,引发了关于其通往通用人工智能(AGI)潜力的讨论。然而,这些模型在理解现实世界的动态方面的能力如何,是否具备内在的世界模型,能够理解和推理多模态世界的底层原则和因果关系,仍是一个关键问题。视频因其丰富的动态表现,成为评估MLLMs世界建模能力的理想媒介。然而,现有的视频理解基准在多学科覆盖和多方面推理能力的评估上存在不足。
➡️ 研究动机:为了全面评估MLLMs在多学科、多方面推理能力上的表现,研究团队提出了MMWorld,这是一个新的多学科、多方面多模态视频理解基准。MMWorld旨在通过视频理解来严格评估MLLMs的世界建模能力,涵盖广泛的学科和多样的推理类型,包括解释、反事实思考、未来预测和领域专业知识等。
➡️ 方法简介:MMWorld由两部分组成:一个人工标注的数据集,用于从多个角度评估MLLMs;一个合成数据集,用于分析MLLMs在单一视觉或音频模态下的感知行为。人工标注的数据集包括1,910个视频,覆盖了七个主要学科和69个子学科,以及6,627个问题-答案对和相关字幕。合成数据集通过自动化数据收集管道生成,确保模型在每个模态上的能力得到独立评估。
➡️ 实验设计:研究团队在MMWorld上评估了12个MLLMs,包括开源模型和专有模型。实验设计了多种类型的推理问题,如解释、反事实思考、未来预测、领域专业知识等,以全面评估模型在多方面推理能力上的表现。实验结果表明,即使是表现最好的模型GPT-4V,其总体准确率也只有52.30%,显示出MLLMs在面对MMWorld时仍面临重大挑战。此外,研究还发现,开源模型和专有模型之间存在明显的差距,但最佳的开源模型Video-LLaVA-7B在某些任务上(如具身任务)的表现优于专有模型。

mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus

➡️ 论文标题:mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus
➡️ 论文作者:Matthieu Futeral, Armel Zebaze, Pedro Ortiz Suarez, Julien Abadji, Rémi Lacroix, Cordelia Schmid, Rachel Bawden, Benoît Sagot
➡️ 研究机构: Inria、Département d’informatique de l’ENS, CNRS, PSL Research University、Institut du développement et des resources en informatique scientifique, CNRS、Sorbonne Université, Paris, France、Common Crawl Foundation、Université Paris-Saclay
➡️ 问题背景:多模态大型语言模型(mLLMs)通常在大量文本-图像数据上进行训练。尽管大多数mLLMs仅在标题类数据上训练,但Alayrac等人(2022)的研究表明,通过在交错的文本和图像序列上进行额外训练,可以显著提升模型的上下文学习能力。然而,这些研究使用的数据集要么是私有的,要么仅限于英语。这限制了mLLM研究在其他7000种语言中的应用。
➡️ 研究动机:为了克服现有数据集的局限性,研究团队构建并发布了mOSCAR,这是首个大规模的多语言和多模态文档语料库。mOSCAR涵盖了163种语言,包含3.15亿文档、2140亿个词汇和12亿张图像。研究团队通过一系列过滤和评估步骤,确保mOSCAR的安全性、多样性和高质量。此外,研究团队还训练了两种多语言模型,以证明mOSCAR的价值:一种是在mOSCAR子集和标题数据上训练的模型,另一种仅在标题数据上训练的模型。结果显示,额外训练在mOSCAR上的模型在多种多语言图像-文本任务和基准测试中表现出显著的少样本学习性能提升。
➡️ 方法简介:研究团队从2023年的三个Common Crawl数据转储中提取mOSCAR,使用FastWARC库处理Web ARchive Content (WARC)文件。通过深度优先搜索算法和ChatNoir库提取HTML标签中的文本和图像节点。研究团队还进行了语言识别、文本和图像过滤、去重和数据去污染等步骤,以确保数据的质量和安全性。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括mOSCAR、LAION-400M和WIT。实验评估了mOSCAR在内容多样性、词汇多样性、文档质量和图像多样性等方面的表现。结果显示,mOSCAR在内容多样性方面优于mmc4和OBELICS,但在词汇多样性方面略逊一筹。在文档质量方面,mOSCAR与mmc4和WIT相当,但在图像多样性方面优于WIT。此外,mOSCAR的多语言结构使其在多样性方面远超仅限于英语的数据集。

MMRel: A Relation Understanding Benchmark in the MLLM Era

➡️ 论文标题:MMRel: A Relation Understanding Benchmark in the MLLM Era
➡️ 论文作者:Jiahao Nie, Gongjie Zhang, Wenbin An, Yap-Peng Tan, Alex C. Kot, Shijian Lu
➡️ 研究机构: Nanyang Technological University (NTU)、Alibaba DAMO Academy、Xi’an Jiaotong University
➡️ 问题背景:多模态大语言模型(MLLMs)在各种视觉-语言任务中取得了显著进展,但在处理对象间关系(如对象之间的交互或关联)时面临多种问题。这主要是由于缺乏大规模、多样性和高质量的关系理解训练和评估数据,严重阻碍了MLLMs在各种视觉-语言生成和推理任务中的表现。
➡️ 研究动机:现有的关系理解基准测试虽然存在,但它们并不适合评估MLLMs的关系理解能力,主要因为数据规模小、关系类别有限和数据多样性不足。为了应对这一挑战,研究团队开发了多模态关系理解基准(MMRel),旨在评估和增强MLLMs的关系理解能力。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建MMRel基准,该基准包含大规模、高质量和多样化的数据,涵盖了三种类型的对象间关系(空间关系、动作关系和比较关系)。MMRel还包含一个对抗性子集,用于评估模型在处理异常关系时的表现。数据收集通过半自动管道完成,包括图像生成、关系标注和人工验证。
➡️ 实验设计:在MMRel基准上进行了广泛的实验,评估了多个代表性MLLMs和幻觉缓解技术的关系理解能力。实验设计了不同的评估指标,包括准确率、精确率、召回率和F1分数,以全面评估模型的性能。此外,还使用MMRel对LLaVA-1.5进行了微调,以检验微调对关系理解能力的提升效果。

First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

➡️ 论文标题:First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models
➡️ 论文作者:Enming Zhang, Ruobing Yao, Huanyong Liu, Junhui Yu, Jiale Wang
➡️ 研究机构: University of Chinese Academy of Sciences, 360 AI Research Institute, Nanyang Technological University
➡️ 问题背景:随着多模态大语言模型(Multimodal Large Language Models, MLLMs)技术的发展,其通用能力越来越强大。然而,目前缺乏一个全面的方法来评估MLLMs在流程图相关任务中的表现,而流程图在日常生活和工作中非常重要。
➡️ 研究动机:为了填补这一空白,研究团队提出了第一个全面评估MLLMs在流程图任务中表现的方法——FlowCE。FlowCE涵盖了对MLLMs在流程图上的推理、信息提取、定位识别、总结和逻辑验证等多维度能力的评估。研究发现,即使是性能较高的GPT4o模型,在FlowCE上的总体得分也只有56.63,而开源模型中得分最高的是Phi-3-Vision,得分为49.97。研究团队希望通过FlowCE为未来基于流程图的MLLMs研究提供有价值的见解和方法。
➡️ 方法简介:研究团队构建了一个包含500个真实世界流程图的FlowCE数据集,这些流程图来自日常生活、专业领域、编程、数学等多个类别。每个流程图都设计了五个维度的任务:推理、信息提取、定位识别、总结和逻辑验证。每个任务维度都包含人类标注的问题-答案对,以确保评估的开放性和多样性。
➡️ 实验设计:研究团队在多个主流的MLLMs上进行了实验,包括开源模型和专有模型。实验设计了不同参数规模的模型,从3.4B到34B不等。评估方法包括自动评估和准确性计算,其中自动评估使用GPT4来评估开放性问题的回答,准确性计算则针对逻辑验证和信息提取任务提出了特定的评分方法。实验结果表明,尽管MLLMs在总结任务上表现较好,但在其他任务上仍存在较大提升空间。

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

➡️ 论文标题:VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models
➡️ 论文作者:Chenyu Zhou, Mengdan Zhang, Peixian Chen, Chaoyou Fu, Yunhang Shen, Xiawu Zheng, Xing Sun, Rongrong Ji
➡️ 研究机构: Xiamen University
➡️ 问题背景:当前的多模态大模型(Multi-modal Large Models, MLLMs)在处理视觉和语言任务方面展现了显著的能力。然而,这些模型和基准测试通常局限于狭窄的视觉和文本上下文范围,面对复杂的理解任务时表现不佳,这些任务涉及在大量无关和潜在误导性的信息中导航。
➡️ 研究动机:为了弥补这一差距,研究团队引入了一种新的多模态任务——交错图像-文本理解(Interleaved Image-Text Comprehension, IITC)。该任务要求模型在复杂的上下文中找到相关文本和图像,准确回答问题,并输出相应的图像索引。研究团队还开发了VEGA数据集,以支持这一任务,并通过多任务、多尺度的后训练策略,为MLLMs在IITC任务上的表现设定了基准。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建VEGA数据集来评估MLLMs在交错图像-文本理解任务中的表现。VEGA数据集包含两个子集,一个用于IITC任务,另一个用于图像-文本关联(Image-Text Association, ITA)任务。数据集中的最长交错图像-文本内容可达8张图像和8,000个标记。研究团队还设计了多任务学习策略和多尺度训练策略,以增强模型在处理复杂上下文时的能力。
➡️ 实验设计:研究团队在VEGA数据集上评估了多个最先进的MLLMs,包括GPT4V、Gemini-1.5-pro和Qwen-VL-Chat。实验设计了不同长度的上下文和不同数量的图像,以全面评估模型在IITC任务中的表现。实验结果表明,即使是最先进的模型在IITC任务中也仅取得了中等的成功率。通过多任务、多尺度的后训练策略,Qwen-VL-Chat模型在IITC任务上达到了85.8%的图像关联准确率和0.508的ROUGE分数,显著提升了模型的性能。

http://www.xdnf.cn/news/513055.html

相关文章:

  • vscode优化使用体验篇(快捷键)
  • React 19版本refs也支持清理函数了。
  • 【C++】set、map 容器的使用
  • Java 中 == 与 equals() 详解
  • 索引与数据结构、并行算法
  • LlamaIndex中应用自定义提示词提升回答质量
  • go语言协程调度器 GPM 模型
  • 华为云Flexus+DeepSeek征文|基于华为云Flexus云服务的Dify 快速构建聊天助手
  • 目标检测新突破:用MSBlock打造更强YOLOv8
  • 如何使用WordPress创建美食博客
  • 跨平台多用户环境下PDF表单“序列号生成的服务器端方案“
  • 如何实现RTSP和RTMP低至100-200ms的延迟:直播SDK的技术突破
  • Metasploit框架与网络安全攻防技术解析
  • 标准库、HAl库和LL库(PC13初始化)
  • 【甲方安全建设】Python 项目静态扫描工具 Bandit 安装使用详细教程
  • 视差场(disparity field)
  • Linux之基础IO
  • MySQL 数据库备份与还原
  • iOS APP启动页及广告页的实现
  • 赋予AI更强的“思考”能力
  • 动态规划(4)可视化理解:图形化思考
  • Tomcat简述介绍
  • 10.8 LangChain三大模块深度实战:从模型交互到企业级Agent工具链全解析
  • 企业级小程序APP用户数据查询系统安全脆弱性分析及纵深防御体系构建
  • JUC入门(二)
  • [创业之路-362]:企业战略管理案例分析-3-战略制定-华为使命、愿景、价值观的演变过程
  • 开源项目实战学习之YOLO11:12.5 ultralytics-models-sam.py通用图像分割模型源码分析
  • Django学习
  • **HTTP/HTTPS基础** - URL结构(协议、域名、端口、路径、参数、锚点) - 请求方法(GET、POST) - 请求头/响应头 - 状态码含义
  • IS-IS 中间系统到中间系统