当前位置: 首页 > news >正文

MLLM常见概念通俗解析(一)

ParGo: Bridging Vision-Language with Partial and Global Views

ParGo,一种新颖的部分-全局(Partial-Global)投影器,旨在连接视觉与语言模态,用于多模态大语言模型(MLLMs)。与以往依赖全局注意力投影器的方法不同,ParGo 通过融合全局视角与局部视角来弥合预训练视觉编码器与大语言模型之间的表示差距,从而缓解对显著区域的过度关注问题。为了有效训练 ParGo,我们构建了一个大规模的细节描述图文数据集 ParGoCap-1M-PT,包含100万张图像及其高质量描述文本对。在多个多模态大模型基准测试中的大量实验表明,ParGo 能够更有效地对齐视觉与语言模态,展现出其优越性。与传统的 Q-Former 投影器相比,ParGo 在 MME 基准测试中提升了 259.96 分。此外,我们的实验还发现,ParGo 在注重细节感知能力的任务中表现尤为出色,显著优于其他类型的投影器。

依赖基于全局注意力的投影器 (Relying on global attention-based projectors)

在多模态大型语言模型(MLLMs)中,模型需要同时理解图像和文字。这里的投影器 (projector) 就像是一个“翻译官”,它的工作是把模型从图像里“看”到的视觉信息(视觉特征),转换成文字模型能够理解和处理的“语言”。

注意力机制 (Attention mechanism) 是一种让模型在处理大量信息时,能够把重点放在最重要部分的技术,有点像人类看东西时会聚焦到关键区域。全局注意力 (Global attention) 特指这种注意力机制在处理图像时,会一下子扫视整张图的所有信息或者主要特征,然后提炼出一个代表整张图大概内容的整体性描述。

所以,“依赖基于全局注意力的投影器”就是说,在以前的一些MLLM模型里,负责连接图像和文字的那个“翻译官”(投影器),主要就是靠这种“全局扫描”的方式来理解图像的。它们擅长抓住图像的整体感觉和最醒目的部分,但可能对图像里那些不那么突出、但可能包含重要细节的地方关注不够。

整合全局和局部视图 (Integrating global and partial views)

这个概念是前一个的改进。

  • 全局视图 (Global view) 指的是模型对整幅图像的一个整体感知和理解,比如知道这张图的大致场景、主要有什么物体、它们的整体布局是怎样的。
  • 局部视图 (Partial views) 指的是模型对图像中某些特定区域、某个具体物体或者一些细微细节的关注和理解。

而“整合 (Integrating)”就是把这两种不同层面的信息巧妙地结合起来。这意味着模型在“看”一张图片时,它不仅仅是笼统地理解整张图说了啥,同时也会或者额外地去处理图像里某些特定小区域或者细节的信息。这样做的好处是能够让模型对图像有一个更全面、更细致的理解——既能把握“全貌”,也能看清“细节”,避免“只见树木不见森林”或“只见森林不见树木”。

减轻了对显著区域的过度强调 (Alleviates the overemphasis on prominent regions)

  • 显著区域 (Prominent regions) 是指图像中最容易吸引人眼球、最突出的部分,比如画面中的主体人物、文字、或者颜色最鲜艳的物体。
  • 过度强调 (Overemphasis) 则是指模型在处理图像信息时,把绝大部分的注意力都集中在了这些最醒目的地方,而可能忽略了图像里其他部分的信息,即便那些地方可能也包含着重要的上下文或细节。

传统的、只依赖全局注意力的方法往往会给这些显著区域非常高的权重,导致模型对它们“过度强调”。而“减轻了对显著区域的过度强调”意味着通过整合局部视图等技术,模型被引导着去关注图像中那些可能不那么起眼,但依然含有重要细节的区域。这样一来,模型就不会仅仅被图像中最突出的部分牵着鼻子走,而是能够更均衡地处理图像中的各种信息。

MLLM 基准测试 (MLLM benchmarks)

  • MLLM 就是我们前面一直在说的多模态大型语言模型(Multimodal Large Language Models),它们能同时处理文字和图像(或者视频、音频等)信息。
  • 基准测试 (Benchmarks) 在人工智能领域就像是给不同模型或算法准备的一系列标准化考试。这些考试包含特定的任务、使用统一的数据集,并且有明确的评分标准或评估指标。研究人员用这些“考试”来客观地衡量和比较自己提出的新模型到底有多好,性能怎么样。

所以,“MLLM 基准测试”就是专门用来给多模态大型语言模型进行“标准化考试”的集合。这些考试里的题目都需要模型既理解图片又理解文字,比如:给你一张图,问你图里有什么(视觉问答);让你根据图片写一段描述文字(图像描述生成);或者根据图片和文字进行推理判断。研究人员通过让自己的MLLM模型在这些标准测试上跑分,并把结果和现有模型的成绩进行对比,来证明自己提出的方法是有效的、甚至更优秀的。MME benchmark 就是其中一个具体的例子。

http://www.xdnf.cn/news/510337.html

相关文章:

  • 【基于Spring Boot 的图书购买系统】深度讲解 用户注册的前后端交互,Mapper操作MySQL数据库进行用户持久化
  • 如何利用内网穿透实现Cursor对私有化部署大模型的跨网络访问实践
  • 【图像生成大模型】CogVideoX-5b:开启文本到视频生成的新纪元
  • lvs-dr部署
  • c++学习之--- list
  • C语言链表的操作
  • 数字人技术的核心:AI与动作捕捉的双引擎驱动(210)
  • defer关键字:延迟调用机制-《Go语言实战指南》
  • 8.1UDP点对点聊天小项目
  • 软件架构之--论微服务的开发方法1
  • 软件工程各种图总结
  • 数据库MySQL基础2
  • 【回溯 剪支 状态压缩】# P10419 [蓝桥杯 2023 国 A] 01 游戏|普及+
  • Java大厂面试:从Web框架到微服务技术的场景化提问与解析
  • FAST-DDS源码分析PDP(一)
  • NoSQL实战指南:MongoDB与Redis企业级开发实战
  • Vue 3 动态 ref 的使用方式(表格)
  • 【Linux高级全栈开发】2.1.3 http服务器的实现
  • AI:NLP 情感分析
  • Filament引擎(一) ——渲染框架设计
  • 中级网络工程师知识点7
  • 课外活动:需了解的海象运算符(:=)
  • HTTPS的工作过程
  • 低延迟与高性能的技术优势解析:SmartPlayer VS VLC Media Player
  • 贪心、分治和回溯算法
  • 当AI自我纠错:一个简单的“Wait“提示如何让模型思考更深、推理更强
  • MySQL(21)如何查询表中的所有数据?
  • ffmpeg -vf subtitles添加字幕绝对路径问题的解决方法
  • 吴恩达机器学习(1)——机器学习算法分类
  • NetApp FAS存储系统的加密Encrytpion解决方案介绍