当前位置: 首页 > web >正文

多模态大模型综述:BLIP-2详解(第二篇)

一、TL;DR

  1. 为什么提出: VLM全参训练参数量太大,直接训练有问题
  2. 怎么做: 增加一个Qformer模块大幅度减少参数量(54x)
  3. 怎么训练: 继承BLIP的预训练+图文生成式预训练
  4. 什么结果: 训练速度超快且效果SOTA

paper名称:Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. ICML2023

paper:https://arxiv.org/pdf/2304.08485

code:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

二、核心框架

2.1 Framework

解决什么问题:

提出Qfomer(Query Transformer)模块用于对齐冻结后的语言和图像模块,解决了现有的VLM训练成本过高的问题

用什么方法:

利用Qformer连接freeze的VIT和LLM模块,仅仅只需要训练Q-former模块

取得了什么样的结果:

Qformer使用Bert初始化仅188M可训练参数,但在VQA(54x减少参数量)、图文描述、图文检索上实现SOTA

 2.2具体方法

QFormer:

 Q-Former 由两个transformer模块组成,共享相同的自注意力层:

  1. ImageTransformer:
    1. 冻结参数的Image Encoder提取的图像embeddings
    2. Learned Queries:Queries是一组可学习的embeddings,这些query和图像embeddings及逆行自注意力机制
    3. 本文采用ViT-L/14和EVA-CLIP训练过的ViT-g/14
  2. Text Transformer:
    1. 既作为文本编码器,也作为文本解码器
    2. 本文采用OPT和FlanT5

2.3 预训练方法

第一阶段-继承于BLIP,联合优化训练3个预训练目标:

  • 图像 - 文本对比学习(ITC):旨在对齐图像表征和文本表征,以最大化它们的互信息。通过将正样本对的图像 - 文本相似度与负样本对的相似度进行对比来实现这一目标。

  • 图像引导的文本生成(ITG)损失:训练 Q-Former 在输入图像作为条件的情况下生成文本。

  • 图像 - 文本匹配(ITM):模型预测图像 - 文本对是正样本(匹配)还是负样本(不匹配)的二元分类任务。采用 Li 等人(2021;2022)的难负样本挖掘策略来创建具有信息量的负样本对(负样本是这样生成的)。

第二阶段-视觉到语言生成式学习:

  1. 将 Q-Former(附加冻结的图像编码器)与冻结的 LLM 相连,以利用 LLM 的语言生成能力。
  2. 如图 3 所示,使用全连接(FC)层将输出查询嵌入 Z 线性投影到与 LLM 的文本嵌入相同的维度。
  3. 然后,将投影后的查询嵌入预先添加到输入文本嵌入中,它们充当 “软视觉提示”,使 LLM 以 Q-Former 提取的视觉表征为条件进行生成。

由于 Q-Former 已通过预训练学会提取与语言相关的视觉表征,它有效地充当了信息瓶颈,向 LLM 提供最有用的信息,同时过滤掉不相关的视觉信息。这减轻了 LLM 学习视觉 - 语言对齐的负担,从而缓解了灾难性遗忘问题。

三Experiments

http://www.xdnf.cn/news/17041.html

相关文章:

  • GraphRAG:基于知识图谱的检索增强生成技术解析
  • 【QT】常⽤控件详解(二)windowOpacitycursorfontsetToolTipfocusPolicystyleSheet
  • 设计模式学习[17]---组合模式
  • 使用 Docker 部署 Golang 程序
  • HoloLens+vuforia打包后遇到的问题
  • Android 之 MVP架构
  • SQL154 插入记录(一)
  • VUE工程化
  • 机器学习sklearn:支持向量机svm
  • 【Redis学习路|第一篇】初步认识Redis
  • WebRTC前处理模块技术详解:音频3A处理与视频优化实践
  • 企业自动化交互体系的技术架构与实现:从智能回复到自动评论—仙盟创梦IDE
  • 怎么修改论文格式呢?提供一份论文格式模板
  • 力扣 hot100 Day64
  • C++ 入门基础(3)
  • MySQL半同步复制机制详解:AFTER_SYNC vs AFTER_COMMIT 的优劣与选择
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 76-1(题目+回答)
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 77-1(题目+回答)
  • SEA-RAFT:更简单、更高效、更准确的RAFT架构
  • vulnhub-ELECTRICAL靶场攻略
  • SpringBoot 服务器配置
  • 技术面试知识点详解 - 从电路到编程的全栈面经
  • Python 程序设计讲义(54):Python 的函数——函数概述
  • LVGL代码框架简介
  • 【最新区块链论文录用资讯】CCF A--WWW 2025 23篇
  • 防火墙相关技术内容
  • Tlias案例-登录 退出 打包部署
  • Orange的运维学习日记--25.Linux文件系统基本管理
  • 深入解析 <component :is> 在 Vue3 组合式中的使用与局限
  • 基于Dockerfile 部署一个 Flask 应用