当前位置: 首页 > web >正文

多模态大语言模型arxiv论文略读(五十九)

请添加图片描述

How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation

➡️ 论文标题:How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation
➡️ 论文作者:Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST), 北京工业大学 (BJUT), Drexel University, University of Oxford
➡️ 问题背景:视觉深度学习(VDL)系统在理解复杂图像语义方面表现出色,推动了图像识别、目标检测和自动驾驶等实际应用的发展。然而,VDL系统由于其模糊的决策规则,可能在关键应用中出现严重故障。软件测试通过变异输入图像并定义相应的测试预言和数值验证指标,有效检测VDL故障。近年来,多模态大语言模型(MLLMs)的发展为图像语义的自由变异提供了新的可能性,用户可以通过自然语言描述预期的变异,让MLLMs生成变异图像。
➡️ 研究动机:尽管MLLMs在图像变异方面展现出巨大潜力,但其生成的变异图像的质量和适用性尚未得到充分探索。本研究旨在评估MLLMs在VDL测试中的适用性,包括变异图像的整体语义有效性、变异图像与文本指令的一致性,以及不同变异在保持应保持不变的语义方面的忠实度。研究还探讨了MLLMs是否能够统一不同的传统输入变异,并评估其在VDL测试中带来的好处。
➡️ 方法简介:研究团队设计了一项大规模的人类评估,通过Amazon Mechanical Turk平台,邀请20位具有VDL系统和软件测试经验的博士生参与。评估内容包括MLLMs生成的测试输入的整体语义有效性、与文本指令的一致性,以及在不同变异下保持不变语义的忠实度。研究还评估了现有的验证指标是否适用于MLLMs生成的变异。
➡️ 实验设计:研究在四个数据集上进行了实验,包括通用图像分类、细粒度狗品种识别、人脸识别和自动驾驶。实验设计了10种代表性变异,涵盖了从像素级到感知级的不同变异类型,以全面评估MLLMs在不同任务中的表现。研究结果表明,MLLMs在“语义替换”变异(如“给狗穿上衣服”)方面表现出色,但在传统变异(如旋转)方面表现不佳。此外,研究还发现现有的验证指标在面对MLLMs生成的变异时适用性较低,需要进一步改进。

Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training

➡️ 论文标题:Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training
➡️ 论文作者:Mengzhao Jia, Zhihan Zhang, Wenhao Yu, Fangkai Jiao, Meng Jiang
➡️ 研究机构: University of Notre Dame、Tencent AI Seattle Lab、Nanyang Technological University
➡️ 问题背景:开源的多模态大语言模型(MLLMs)在涉及文本和视觉输入的各种任务中表现出色,但在复杂的多模态数学推理任务中仍存在不足,尤其是在视觉理解方面。这限制了它们在教育内容生成和统计数据分析等领域的应用潜力。
➡️ 研究动机:现有的方法主要集中在通过中间步骤(即推理过程)的监督来提升模型的数学推理能力,但这些方法在视觉理解方面存在不足,导致模型在处理数学图形时出现错误。为了改善这一问题,研究团队提出了一种新的两步训练管道VCAR,强调视觉理解训练在数学推理学习中的重要性。
➡️ 方法简介:VCAR首先通过图像描述生成任务来增强MLLMs的视觉理解能力,然后通过描述辅助的推理生成任务来提升数学推理能力。研究团队利用Gemini-Pro收集了描述和推理的监督信号,并采用LoRA模块分别优化视觉理解和数学推理能力。
➡️ 实验设计:在两个流行的基准数据集MathVista和MathVerse上进行了实验,验证了VCAR的有效性。实验结果表明,VCAR在需要高视觉理解能力的问题上显著优于基线方法,特别是在“视觉主导”和“视觉唯一”类别中,分别实现了34.3%和13.3%的相对提升。进一步的消融研究表明,视觉理解和数学推理的联合训练对于性能提升至关重要。

3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset

➡️ 论文标题:3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset
➡️ 论文作者:Junjie Zhang, Tianci Hu, Xiaoshui Huang, Yongshun Gong, Dan Zeng
➡️ 研究机构: Shanghai University、Shanghai AI Laboratory、Shandong University
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在多种任务中展现了显著的进步,尤其是在结合点云和语言的模型中。然而,现有的评估方法主要集中在分类和描述任务上,缺乏对模型空间理解和表达能力的全面评估。此外,高质量的指令调优数据集在3D领域仍然稀缺,这限制了3D-LLMs的进一步发展。
➡️ 研究动机:为了克服现有评估方法的局限性,并提供一个全面评估3D-LLMs性能的平台,研究团队开发了一个可扩展的3D基准测试(3DBench)和一个大规模的指令调优数据集。该基准测试涵盖了从对象级到场景级的多种任务,旨在评估模型的感知、推理和表达能力。
➡️ 方法简介:研究团队构建了一个包含10种多模态任务的3D基准测试,这些任务包括分类、视觉定位(VG)、检测、计数、房间检测、位置关系、对象关系、问答(QA)、描述生成和导航。此外,团队还设计了一个自动构建大规模3D指令调优数据集的方法,该数据集包含34,000个点云对象和30,000个室内场景,以及超过230,000个QA对。
➡️ 实验设计:实验在五个不同的设置下进行,包括零样本评估、不同训练集规模的影响、重新训练模型的性能比较以及不同3D-LLMs的性能对比。实验结果表明,3DBench在评估3D-LLMs的多模态任务性能方面具有显著优势,特别是在分类和计数任务上,模型性能提升了约20%。然而,部分文本生成和位置关系任务的性能有所下降,这可能与使用GPT-3.5获取世界知识有关。

DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models

➡️ 论文标题:DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models
➡️ 论文作者:Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin
➡️ 研究机构: Harbin Institute of Technology, Microsoft
➡️ 问题背景:图形设计在日常生活中无处不在,从电影海报到幻灯片,良好的图形设计通常在两个层面上实现和谐:细粒度的设计元素(如颜色、字体和布局)和整体设计。这种复杂性使得理解图形设计具有挑战性,因为它需要同时识别设计元素和理解设计。现有的视觉模型在识别设计元素方面存在困难,因为这些模型缺乏与设计相关的数据。此外,理解设计同样具有挑战性,因为这些模型可能首次遇到设计任务,而没有设计知识,如颜色的对比和和谐、不同字体的清晰度和象征意义,以及布局中的有意安排。
➡️ 研究动机:尽管多模态大语言模型(MLLMs)在图像到文本任务中表现出色,但目前对这些模型在图形设计领域的理解能力的评估有限。为了填补这一空白,研究团队提出了DesignProbe,这是一个基准测试,旨在评估MLLMs在图形设计任务中的表现。通过这一基准测试,研究团队希望为未来的模型改进提供有价值的见解。
➡️ 方法简介:研究团队构建了DesignProbe,包括八个任务,涵盖细粒度元素层面和整体设计层面。在元素层面,任务包括颜色、字体和布局的属性识别和语义理解;在整体设计层面,任务包括风格分类和视觉隐喻。研究团队使用GPT-4作为评估器,自动评估模型的输出,以减少人工评估的成本和不稳定性。
➡️ 实验设计:研究团队在九个多模态大语言模型上进行了实验,包括GPT-4 Vision、Gemini Pro Vision等。实验设计了不同的任务,如颜色主题识别、字体提取、负空间检测、颜色意义理解、字体风格理解、视觉重要性识别、整体风格识别和视觉隐喻理解。此外,研究团队还进行了提示优化实验,通过不同的LLMs重写问题,发现使用对应LLMs的模型在提示优化后性能提升显著。研究还探索了在提示中添加文本和图像信息的效果,发现直接添加图像信息比文本描述更能提升模型性能。

ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction

➡️ 论文标题:ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction
➡️ 论文作者:Henry Peng Zou, Vinay Samuel, Yue Zhou, Weizhi Zhang, Liancheng Fang, Zihe Song, Philip S. Yu, Cornelia Caragea
➡️ 研究机构: University of Illinois Chicago、Carnegie Mellon University
➡️ 问题背景:现有的属性值提取(Attribute Value Extraction, AVE)数据集主要关注显式属性值,而忽视了隐式属性值,且缺乏产品图像,通常不公开,且缺乏跨多个领域的深入人工检查。这些限制使得隐式属性值提取在实际应用中面临挑战。
➡️ 研究动机:为了解决上述问题,研究团队开发了ImplicitAVE,这是第一个公开的多模态隐式属性值提取数据集。该数据集旨在填补现有数据集的空白,提供一个高质量的基准,以评估多模态大语言模型(MLLMs)在隐式属性值提取任务中的表现。
➡️ 方法简介:研究团队通过从MAVE数据集中收集初始数据,经过数据精炼、扩展和验证,构建了ImplicitAVE数据集。数据集包含68,000个训练样本和1,610个测试样本,覆盖了五个领域的25个属性。此外,研究团队还对六种最近的MLLMs及其变体进行了全面的基准测试,以评估它们在不同设置下的性能。
➡️ 实验设计:实验在多个领域和属性级别上进行了评估,包括零样本、少样本和全数据微调设置。实验结果表明,尽管MLLMs在某些任务上表现出色,但隐式属性值提取仍然是一个具有挑战性的任务。研究团队还提供了详细的错误案例分析,为未来的研究提供了有价值的见解。

http://www.xdnf.cn/news/3860.html

相关文章:

  • STM32教程:ADC原理及程序(基于STM32F103C8T6最小系统板标准库开发)*详细教程*
  • 数电填空题整理(适用期末考试)
  • Linux网络编程:套接字
  • C++类_匿名类
  • 从入门到登峰-嵌入式Tracker定位算法全景之旅 Part 2 |蜂窝 LBS on Tracker:从 AT 命令到定位结果
  • 今天python练习题
  • MYSQL-联合查询
  • 【前端】【总复习】HTML
  • 基于 ESP32 和 GC9D01 0.71寸TFT屏幕的逼真眼睛与写轮眼动态显示
  • Spring Boot Jpa封装快速构建Specification、OrderBy、Pageable的查询条件
  • 【Python】一直没搞懂生成器是什么。。
  • 【25软考网工】第五章(5)ICMP和ICMPv6、NDP、IP组播技术和MPLS
  • JavaScript基础-分支流程控制
  • strstr()和strpbrk()函数的区别
  • 学习黑客开源情报
  • Go语言接口实现面对对象的三大特征
  • 基于大模型的隐睾(睾丸可触及)预测及临床干预策略研究报告
  • spring中的@Profile注解详解
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】2.3 窗口函数与高级聚合(ROW_NUMBER()/RANK()/SUM() OVER())
  • 民法学学习笔记(个人向) Part.3
  • Python 库 petrel_client.client 浅入浅出
  • 【CISCO】什么是静态路由(Static Route)?ip route 192.0.1.0 255.255.255.0 200.0.0.1
  • 一周学会Pandas2 Python数据处理与分析-Pandas2复杂数据查询操作
  • 【前端】【面试】在 Nuxt.js SSR/SSG 应用开发的 SEO 优化方面,你采取了哪些具体措施来提高页面在搜索引擎中的排名?
  • NPP库中libnppist模块介绍
  • 利用flask设计接口
  • 学习黑客 week1周测 复盘
  • AIDC智算中心建设:计算力核心技术解析
  • 0.0973585?探究ts_rank的score为什么这么低
  • Spring AI 实战:第十章、Spring AI RAG之博学多才