当前位置：首页 > web >正文

多模态大语言模型arxiv论文略读（五十九）

web 2025/7/3 23:27:58

请添加图片描述

How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation

➡️ 论文标题：How Multi-Modal LLMs Reshape Visual Deep Learning Testing? A Comprehensive Study Through the Lens of Image Mutation
➡️ 论文作者：Liwen Wang, Yuanyuan Yuan, Ao Sun, Zongjie Li, Pingchuan Ma, Daoyuan Wu, Shuai Wang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST), 北京工业大学 (BJUT), Drexel University, University of Oxford
➡️ 问题背景：视觉深度学习（VDL）系统在理解复杂图像语义方面表现出色，推动了图像识别、目标检测和自动驾驶等实际应用的发展。然而，VDL系统由于其模糊的决策规则，可能在关键应用中出现严重故障。软件测试通过变异输入图像并定义相应的测试预言和数值验证指标，有效检测VDL故障。近年来，多模态大语言模型（MLLMs）的发展为图像语义的自由变异提供了新的可能性，用户可以通过自然语言描述预期的变异，让MLLMs生成变异图像。
➡️ 研究动机：尽管MLLMs在图像变异方面展现出巨大潜力，但其生成的变异图像的质量和适用性尚未得到充分探索。本研究旨在评估MLLMs在VDL测试中的适用性，包括变异图像的整体语义有效性、变异图像与文本指令的一致性，以及不同变异在保持应保持不变的语义方面的忠实度。研究还探讨了MLLMs是否能够统一不同的传统输入变异，并评估其在VDL测试中带来的好处。
➡️ 方法简介：研究团队设计了一项大规模的人类评估，通过Amazon Mechanical Turk平台，邀请20位具有VDL系统和软件测试经验的博士生参与。评估内容包括MLLMs生成的测试输入的整体语义有效性、与文本指令的一致性，以及在不同变异下保持不变语义的忠实度。研究还评估了现有的验证指标是否适用于MLLMs生成的变异。
➡️ 实验设计：研究在四个数据集上进行了实验，包括通用图像分类、细粒度狗品种识别、人脸识别和自动驾驶。实验设计了10种代表性变异，涵盖了从像素级到感知级的不同变异类型，以全面评估MLLMs在不同任务中的表现。研究结果表明，MLLMs在“语义替换”变异（如“给狗穿上衣服”）方面表现出色，但在传统变异（如旋转）方面表现不佳。此外，研究还发现现有的验证指标在面对MLLMs生成的变异时适用性较低，需要进一步改进。

Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training

➡️ 论文标题：Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training
➡️ 论文作者：Mengzhao Jia, Zhihan Zhang, Wenhao Yu, Fangkai Jiao, Meng Jiang
➡️ 研究机构: University of Notre Dame、Tencent AI Seattle Lab、Nanyang Technological University
➡️ 问题背景：开源的多模态大语言模型（MLLMs）在涉及文本和视觉输入的各种任务中表现出色，但在复杂的多模态数学推理任务中仍存在不足，尤其是在视觉理解方面。这限制了它们在教育内容生成和统计数据分析等领域的应用潜力。
➡️ 研究动机：现有的方法主要集中在通过中间步骤（即推理过程）的监督来提升模型的数学推理能力，但这些方法在视觉理解方面存在不足，导致模型在处理数学图形时出现错误。为了改善这一问题，研究团队提出了一种新的两步训练管道VCAR，强调视觉理解训练在数学推理学习中的重要性。
➡️ 方法简介：VCAR首先通过图像描述生成任务来增强MLLMs的视觉理解能力，然后通过描述辅助的推理生成任务来提升数学推理能力。研究团队利用Gemini-Pro收集了描述和推理的监督信号，并采用LoRA模块分别优化视觉理解和数学推理能力。
➡️ 实验设计：在两个流行的基准数据集MathVista和MathVerse上进行了实验，验证了VCAR的有效性。实验结果表明，VCAR在需要高视觉理解能力的问题上显著优于基线方法，特别是在“视觉主导”和“视觉唯一”类别中，分别实现了34.3%和13.3%的相对提升。进一步的消融研究表明，视觉理解和数学推理的联合训练对于性能提升至关重要。

3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset

➡️ 论文标题：3DBench: A Scalable 3D Benchmark and Instruction-Tuning Dataset
➡️ 论文作者：Junjie Zhang, Tianci Hu, Xiaoshui Huang, Yongshun Gong, Dan Zeng
➡️ 研究机构: Shanghai University、Shanghai AI Laboratory、Shandong University
➡️ 问题背景：当前的多模态大语言模型（Multi-modal Large Language Models, MLLMs）在多种任务中展现了显著的进步，尤其是在结合点云和语言的模型中。然而，现有的评估方法主要集中在分类和描述任务上，缺乏对模型空间理解和表达能力的全面评估。此外，高质量的指令调优数据集在3D领域仍然稀缺，这限制了3D-LLMs的进一步发展。
➡️ 研究动机：为了克服现有评估方法的局限性，并提供一个全面评估3D-LLMs性能的平台，研究团队开发了一个可扩展的3D基准测试（3DBench）和一个大规模的指令调优数据集。该基准测试涵盖了从对象级到场景级的多种任务，旨在评估模型的感知、推理和表达能力。
➡️ 方法简介：研究团队构建了一个包含10种多模态任务的3D基准测试，这些任务包括分类、视觉定位（VG）、检测、计数、房间检测、位置关系、对象关系、问答（QA）、描述生成和导航。此外，团队还设计了一个自动构建大规模3D指令调优数据集的方法，该数据集包含34,000个点云对象和30,000个室内场景，以及超过230,000个QA对。
➡️ 实验设计：实验在五个不同的设置下进行，包括零样本评估、不同训练集规模的影响、重新训练模型的性能比较以及不同3D-LLMs的性能对比。实验结果表明，3DBench在评估3D-LLMs的多模态任务性能方面具有显著优势，特别是在分类和计数任务上，模型性能提升了约20%。然而，部分文本生成和位置关系任务的性能有所下降，这可能与使用GPT-3.5获取世界知识有关。

DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models

➡️ 论文标题：DesignProbe: A Graphic Design Benchmark for Multimodal Large Language Models
➡️ 论文作者：Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin
➡️ 研究机构: Harbin Institute of Technology, Microsoft
➡️ 问题背景：图形设计在日常生活中无处不在，从电影海报到幻灯片，良好的图形设计通常在两个层面上实现和谐：细粒度的设计元素（如颜色、字体和布局）和整体设计。这种复杂性使得理解图形设计具有挑战性，因为它需要同时识别设计元素和理解设计。现有的视觉模型在识别设计元素方面存在困难，因为这些模型缺乏与设计相关的数据。此外，理解设计同样具有挑战性，因为这些模型可能首次遇到设计任务，而没有设计知识，如颜色的对比和和谐、不同字体的清晰度和象征意义，以及布局中的有意安排。
➡️ 研究动机：尽管多模态大语言模型（MLLMs）在图像到文本任务中表现出色，但目前对这些模型在图形设计领域的理解能力的评估有限。为了填补这一空白，研究团队提出了DesignProbe，这是一个基准测试，旨在评估MLLMs在图形设计任务中的表现。通过这一基准测试，研究团队希望为未来的模型改进提供有价值的见解。
➡️ 方法简介：研究团队构建了DesignProbe，包括八个任务，涵盖细粒度元素层面和整体设计层面。在元素层面，任务包括颜色、字体和布局的属性识别和语义理解；在整体设计层面，任务包括风格分类和视觉隐喻。研究团队使用GPT-4作为评估器，自动评估模型的输出，以减少人工评估的成本和不稳定性。
➡️ 实验设计：研究团队在九个多模态大语言模型上进行了实验，包括GPT-4 Vision、Gemini Pro Vision等。实验设计了不同的任务，如颜色主题识别、字体提取、负空间检测、颜色意义理解、字体风格理解、视觉重要性识别、整体风格识别和视觉隐喻理解。此外，研究团队还进行了提示优化实验，通过不同的LLMs重写问题，发现使用对应LLMs的模型在提示优化后性能提升显著。研究还探索了在提示中添加文本和图像信息的效果，发现直接添加图像信息比文本描述更能提升模型性能。

ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction

➡️ 论文标题：ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction
➡️ 论文作者：Henry Peng Zou, Vinay Samuel, Yue Zhou, Weizhi Zhang, Liancheng Fang, Zihe Song, Philip S. Yu, Cornelia Caragea
➡️ 研究机构: University of Illinois Chicago、Carnegie Mellon University
➡️ 问题背景：现有的属性值提取（Attribute Value Extraction, AVE）数据集主要关注显式属性值，而忽视了隐式属性值，且缺乏产品图像，通常不公开，且缺乏跨多个领域的深入人工检查。这些限制使得隐式属性值提取在实际应用中面临挑战。
➡️ 研究动机：为了解决上述问题，研究团队开发了ImplicitAVE，这是第一个公开的多模态隐式属性值提取数据集。该数据集旨在填补现有数据集的空白，提供一个高质量的基准，以评估多模态大语言模型（MLLMs）在隐式属性值提取任务中的表现。
➡️ 方法简介：研究团队通过从MAVE数据集中收集初始数据，经过数据精炼、扩展和验证，构建了ImplicitAVE数据集。数据集包含68,000个训练样本和1,610个测试样本，覆盖了五个领域的25个属性。此外，研究团队还对六种最近的MLLMs及其变体进行了全面的基准测试，以评估它们在不同设置下的性能。
➡️ 实验设计：实验在多个领域和属性级别上进行了评估，包括零样本、少样本和全数据微调设置。实验结果表明，尽管MLLMs在某些任务上表现出色，但隐式属性值提取仍然是一个具有挑战性的任务。研究团队还提供了详细的错误案例分析，为未来的研究提供了有价值的见解。

查看全文

http://www.xdnf.cn/news/3860.html