当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(七十九)

在这里插入图片描述

AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning

➡️ 论文标题:AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning
➡️ 论文作者:Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:上下文学习(In-context Learning, ICL)在大规模语言模型(LLMs)中展现了显著的能力,无需更新数十亿参数即可在未见过的数据上获得理想性能。然而,在多模态大规模语言模型(MLLMs)中,ICL的应用面临两个主要问题:(1) 大多数主要的MLLMs仅在单图像数据集上训练,无法处理额外的多模态演示;(2) 随着演示数量的增加,数千个视觉标记对硬件资源造成巨大挑战,并降低ICL性能。
➡️ 研究动机:研究团队发现,MLLMs在生成过程中更关注语言模态,而非视觉模态。基于这一发现,研究团队提出了一种新的框架AIM,通过将多模态演示中的图像信息聚合到文本的潜在空间中,减少视觉标记的数量,从而提高MLLMs在多模态ICL中的效率和性能。
➡️ 方法简介:AIM框架通过将多模态演示中的图像信息聚合到文本的潜在空间中,生成融合的虚拟标记,以替代原始的图像-文本对。这些融合的虚拟标记与文本长度相同,从而显著减少了演示的长度。AIM可以在不改变查询图像和文本的情况下,将多图像提示近似转换为包含单个查询图像的提示,从而提高模型的性能。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括图像描述(Image Caption)、视觉问答(VQA)和仇恨言论检测(Hateful Speech Detection)。实验设计了不同因素(如图像数量、图像分辨率和文本长度)的变化,以及不同类型的评估任务(如开放性问题和封闭性问题),以全面评估AIM在多模态ICL中的表现。实验结果表明,AIM在减少内存使用和提高推理吞吐量方面表现出色,同时在多个任务上取得了与基础模型相当或更好的性能。

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

➡️ 论文标题:MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models
➡️ 论文作者:Tianle Gu, Zeyang Zhou, Kexin Huang, Dandan Liang, Yixu Wang, Haiquan Zhao, Yuanqi Yao, Xingge Qiao, Keqing Wang, Yujiu Yang, Yan Teng, Yu Qiao, Yingchun Wang
➡️ 研究机构: Tsinghua Shenzhen International Graduate School, Tsinghua University, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景:随着大规模语言模型(LLMs)的快速发展,多模态大规模语言模型(MLLMs)在多种任务中展现了卓越的能力。然而,MLLMs在实际应用中面临复杂的场景,容易受到潜在的恶意指令的影响,从而带来安全风险。现有的评估基准虽然包含了一定的安全考虑,但往往缺乏全面性和严谨性,例如使用GPT-4V同时作为评估者和被评估模型,存在自我偏见的问题。
➡️ 研究动机:为了应对MLLMs在安全评估方面的不足,研究团队开发了MLLMGUARD,一个多维度的安全评估套件,旨在为MLLMs提供全面的安全评估。MLLMGUARD不仅涵盖了隐私、偏见、毒性、真实性和合法性五个重要安全维度,还通过引入对抗性样本和高质量的人工标注,提高了评估的挑战性和准确性。
➡️ 方法简介:MLLMGUARD包括一个双语(英语和中文)图像-文本评估数据集、推理工具和一个轻量级评估器。数据集主要来源于社交媒体,通过红队技术(Red Teaming Techniques)和人工标注,确保数据的多样性和挑战性。轻量级评估器GUARDRANK通过预训练语言模型(如LLaMA-2和Roberta-large)进行微调,实现了对MLLMs的自动化评估,显著提高了评估的准确性和效率。
➡️ 实验设计:研究团队在13个先进的MLLMs上进行了评估,包括2个闭源模型和11个开源模型。评估涵盖了隐私、偏见、毒性、真实性和合法性五个维度,每个维度下设多个子任务。实验结果表明,尽管GPT-4V在多个维度上表现最佳,但MiniGPT-v2在某些方面(如真实性和合法性)的表现更为出色。此外,GUARDRANK在评估准确性上显著优于GPT-4,证明了其在多模态模型安全评估中的有效性和可靠性。

Grounding Multimodal Large Language Models in Actions

➡️ 论文标题:Grounding Multimodal Large Language Models in Actions
➡️ 论文作者:Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev
➡️ 研究机构: Apple, Georgia Tech, Mila
➡️ 问题背景:多模态大语言模型(MLLMs)在多个领域展示了广泛的能力,尤其是在具身AI中。然而,这些模型在具身任务中的能力受限于其输出空间(自然语言)与具身代理的动作空间之间的差距,特别是在连续动作空间中,低级控制器可能需要高度的精度。
➡️ 研究动机:为了克服MLLMs在具身任务中的局限性,研究团队通过系统的方法研究了如何将MLLMs有效地与不同的具身体现及其动作空间结合,旨在提高模型在具身任务中的性能。
➡️ 方法简介:研究团队提出了一种统一的架构,通过动作空间适配器(Action Space Adapters, ASAs)来重新参数化MLLMs的输出,使其能够生成动作。研究包括了连续动作空间和离散动作空间的ASAs,通过学习的分词策略和语义对齐策略来优化模型的性能。
➡️ 实验设计:研究在五个不同的具身AI环境中进行了实验,包括三个机器人连续控制环境和两个离散动作环境,涵盖了114个具身任务。实验评估了不同ASAs在任务成功率、RL样本效率等方面的表现,结果表明,对于连续动作空间,学习的分词策略(Residual VQ)表现最佳;对于离散动作空间,语义对齐策略(Semantic Tokenization)表现最佳。

Multimodal Table Understanding

➡️ 论文标题:Multimodal Table Understanding
➡️ 论文作者:Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang
➡️ 研究机构: 中国科学院信息工程研究所、中国科学院大学网络空间安全学院、百度公司、北京师范大学人工智能学院
➡️ 问题背景:尽管基于大型语言模型(LLMs)的表格理解方法取得了显著进展,但这些方法通常依赖于将表格转换为特定的文本序列(如Markdown或HTML)作为模型输入。然而,在某些现实场景中,获取高质量的文本表格表示形式非常困难,而表格图像则更为常见。因此,如何直接利用直观的视觉信息来理解表格,成为开发更实用应用的关键和紧迫挑战。
➡️ 研究动机:现有的表格理解方法,包括基于LLMs的方法,大多只能处理有限的任务,且需要将表格转换为文本序列。这限制了表格理解技术在实际场景中的应用。为了克服这一限制,研究团队提出了多模态表格理解问题,旨在使模型能够基于表格图像直接生成正确的响应,以应对各种表格相关请求。
➡️ 方法简介:研究团队构建了一个大规模的数据集MMTab,涵盖了广泛的表格图像、指令和任务。基于此数据集,研究团队开发了一个通用的多模态大型语言模型(MLLM)Table-LLaVA,该模型在23个基准测试中显著优于最近的开源MLLM基线模型。
➡️ 实验设计:实验在三个公开数据集上进行,包括多模态表格理解任务。实验设计了不同因素(如表格结构、样式和领域)的变化,以及不同类型的任务(如表格问答、表格事实验证和表格到文本生成),以全面评估模型的多模态表格理解能力。

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

➡️ 论文标题:VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
➡️ 论文作者:Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab (Shanghai AI Laboratory)、The University of Hong Kong、Tsinghua University、Beijing Institute of Technology、The Hong Kong University of Science and Technology、Nanjing University、The Chinese University of Hong Kong、SenseTime Research
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种视觉-语言任务中表现出色,但其输出主要局限于文本形式,限制了其在结构化或视觉信息表示上的能力。此外,现有的扩展MLLM输出格式的方法未能完全满足实际需求,如密集对象检测、姿态估计和图像生成等任务。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队开发了VisionLLM v2,这是一个端到端的通用多模态大模型,旨在统一视觉感知、理解和生成任务。该模型不仅扩展了MLLMs的应用范围,还通过引入“超级链接”技术,实现了任务信息和梯度反馈在多任务解码器之间的高效传输,避免了任务冲突。
➡️ 方法简介:VisionLLM v2通过引入“超级链接”技术,将MLLM与特定任务解码器连接起来。该技术包括路由令牌(Routing Token)和超级链接查询(Super-Link Queries)两部分。路由令牌用于触发特定解码器的选择,而超级链接查询则作为MLLM与任务解码器之间的桥梁,确保任务信息的准确传输和梯度反馈。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,涵盖了从视觉感知到视觉理解的各种任务,包括弱交互(如封闭集任务)和强交互(如视觉提示+语言提示)任务,以及常见领域和长尾领域(如医疗、遥感、工业)的任务。实验结果表明,VisionLLM v2在各种标准基准测试中达到了与任务专用模型相当的性能。

http://www.xdnf.cn/news/482221.html

相关文章:

  • 每日算法刷题Day8 5.15:leetcode滑动窗口4道题,用时1h
  • COMSOL随机参数化表面流体流动模拟
  • linux 服务器安装jira-8.22.0和confluence-8.5.21
  • rinetd 实现通过访问主机访问虚拟机中的业务,调试虚拟机内的java进程
  • Qwen2.5-VL模型sft微调和使用vllm部署
  • TLS 1.3黑魔法:从协议破解到极致性能调优
  • 系统提示学习(System Prompt Learning)在医学编程中的初步分析与探索
  • 在Linux服务器上部署Jupyter Notebook并实现ssh无密码远程访问
  • 【Kubernetes】单Master集群部署(第二篇)
  • 15 C 语言字符类型详解:转义字符、格式化输出、字符类型本质、ASCII 码编程实战、最值宏汇总
  • 深度学习笔记23-LSTM实现火灾预测(Tensorflow)
  • Stratix 10 FPGA DDR4 选型
  • Visual Studio旧版直链
  • Elasticsearch 学习(一)如何在Linux 系统中下载、安装
  • 【简单模拟实现list】
  • 【PmHub后端篇】PmHub 中缓存与数据库一致性的实现方案及分析
  • c/c++的opencv的图像预处理讲解
  • 动态IP赋能业务增效:技术解构与实战应用指南
  • 1-10 目录树
  • 东方通2024年报分析:信创国产化龙头的蓬勃发展与未来可期
  • mysql的not exists走索引吗
  • uniapp-商城-60-后台 新增商品(属性的选中和页面显示)
  • MySQL——2、库的操作和表的操作
  • 割点与其例题
  • 管理工具导入CSV文件,中文数据乱码的解决办法。(APP)
  • 从类的外部访问静态成员:深入理解C#静态特性
  • C语言编程中的时间处理
  • 【学习笔记】机器学习(Machine Learning) | 第七章|神经网络(1)
  • Vue3中setup运行时机介绍
  • MyBatis—动态 SQL