当前位置：首页 > web >正文

多模态大模型综述：BLIP-2详解（第二篇）

web 2025/8/6 17:57:16

一、TL；DR

为什么提出: VLM全参训练参数量太大,直接训练有问题
怎么做: 增加一个Qformer模块大幅度减少参数量(54x)
怎么训练: 继承BLIP的预训练+图文生成式预训练
什么结果: 训练速度超快且效果SOTA

paper名称：Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. ICML2023

paper：https://arxiv.org/pdf/2304.08485

code：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

二、核心框架

2.1 Framework

解决什么问题：

提出Qfomer（Query Transformer）模块用于对齐冻结后的语言和图像模块，解决了现有的VLM训练成本过高的问题

用什么方法：

利用Qformer连接freeze的VIT和LLM模块，仅仅只需要训练Q-former模块

取得了什么样的结果：

Qformer使用Bert初始化仅188M可训练参数，但在VQA（54x减少参数量）、图文描述、图文检索上实现SOTA

2.２具体方法

QFormer:

Q-Former 由两个transformer模块组成,共享相同的自注意力层:

ImageTransformer:
1. 冻结参数的Image Encoder提取的图像embeddings
2. Learned Queries:Queries是一组可学习的embeddings,这些query和图像embeddings及逆行自注意力机制
3. 本文采用ViT-L/14和EVA-CLIP训练过的ViT-g/14
Text Transformer:
1. 既作为文本编码器,也作为文本解码器
2. 本文采用OPT和FlanT5

2.3 预训练方法

第一阶段-继承于BLIP,联合优化训练3个预训练目标:

图像 - 文本对比学习（ITC）：旨在对齐图像表征和文本表征，以最大化它们的互信息。通过将正样本对的图像 - 文本相似度与负样本对的相似度进行对比来实现这一目标。
图像引导的文本生成（ITG）损失：训练 Q-Former 在输入图像作为条件的情况下生成文本。
图像 - 文本匹配（ITM）：模型预测图像 - 文本对是正样本（匹配）还是负样本（不匹配）的二元分类任务。采用 Li 等人（2021；2022）的难负样本挖掘策略来创建具有信息量的负样本对(负样本是这样生成的)。

第二阶段-视觉到语言生成式学习:

将 Q-Former（附加冻结的图像编码器）与冻结的 LLM 相连，以利用 LLM 的语言生成能力。
如图 3 所示，使用全连接（FC）层将输出查询嵌入 Z 线性投影到与 LLM 的文本嵌入相同的维度。
然后，将投影后的查询嵌入预先添加到输入文本嵌入中，它们充当 “软视觉提示”，使 LLM 以 Q-Former 提取的视觉表征为条件进行生成。

由于 Q-Former 已通过预训练学会提取与语言相关的视觉表征，它有效地充当了信息瓶颈，向 LLM 提供最有用的信息，同时过滤掉不相关的视觉信息。这减轻了 LLM 学习视觉 - 语言对齐的负担，从而缓解了灾难性遗忘问题。

三Experiments

http://www.xdnf.cn/news/17041.html

相关文章：

GraphRAG：基于知识图谱的检索增强生成技术解析

【QT】常⽤控件详解(二）windowOpacitycursorfontsetToolTipfocusPolicystyleSheet

设计模式学习[17]---组合模式

使用 Docker 部署 Golang 程序

HoloLens+vuforia打包后遇到的问题

Android 之 MVP架构

SQL154 插入记录（一）

机器学习sklearn:支持向量机svm

【Redis学习路|第一篇】初步认识Redis

WebRTC前处理模块技术详解：音频3A处理与视频优化实践

企业自动化交互体系的技术架构与实现：从智能回复到自动评论—仙盟创梦IDE

怎么修改论文格式呢？提供一份论文格式模板

力扣 hot100 Day64

C++ 入门基础(3)

MySQL半同步复制机制详解：AFTER_SYNC vs AFTER_COMMIT 的优劣与选择

2025年渗透测试面试题总结-2025年HW(护网面试) 76-1（题目+回答）

2025年渗透测试面试题总结-2025年HW(护网面试) 77-1（题目+回答）

SEA-RAFT：更简单、更高效、更准确的RAFT架构

vulnhub-ELECTRICAL靶场攻略

SpringBoot 服务器配置

技术面试知识点详解 - 从电路到编程的全栈面经

Python 程序设计讲义（54）：Python 的函数——函数概述

LVGL代码框架简介

【最新区块链论文录用资讯】CCF A--WWW 2025 23篇

防火墙相关技术内容

Tlias案例-登录退出打包部署

Orange的运维学习日记--25.Linux文件系统基本管理

深入解析＜component :is＞在 Vue3 组合式中的使用与局限

基于Dockerfile 部署一个 Flask 应用