当前位置：首页 > news >正文

BLIP3-o: 全开源多模态统一模型，先理解后生成，详细解读

news 2025/7/13 23:36:21

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

Paperhttps://arxiv.org/pdf/2505.09568v1 Codehttps://github.com/jiuhaichen/blip3o

采用diffusion transformer (DiT)去生成语义丰富的CLIP图像特征。

证明了统一模型的预训练顺序策略：首先对图像理解进行训练，然后对图像生成进行训练——保留图像理解能力，同时开发强大的图像生成能力。

最后，我们通过向GPT-4o提示涵盖各种场景、对象、人类手势等的各种字幕，精心策划了用于图像生成的高质量指令调优数据集BLIP3o-60k。

图1：BLIP3-o的架构。对于图像理解部分，我们使用CLIP对图像进行编码，并计算目标文本标记和预测文本标记之间的交叉熵损失。对于图像生成部分，自回归模型首先生成一系列中间视觉特征，然后将其用作Diffusion Transformer的条件输入，该Diffusion transformer生成CLIP图像特征以近似地面实况CLIP特征。通过使用CLIP编码器，图像理解和图像生成共享相同的语义空间，有效地统一了这两个任务。

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

统一的多模态图像生成和理解

动机：

自回归模型与扩散模型的结合

统一多模态图像生成

图像编码与重建

Modeling Latent Image Representation

设计选择

实现细节

统一多模态训练策略

BLIP3-o：

模型结构：

训练策略：

第1阶段：图像生成的预训练

第2阶段：图像生成的指令调整

结果

未来工作

统一的多模态图像生成和理解

动机：

本文旨在系统地研究和推进统一模型的发展，我们开始明确提出了建立统一多模态模型的关键动机。

Reasoning and Instruction Following（推理与遵循指令）：将图像生成功能集成到自回归模型（如多模态大型语言模型（MLLM））中，可以继承它们的预训练知识，推理能力和指令遵循能力。例如，我们的模型能够解释提示，如“长鼻子的动物”，而不需要提示重写。这展示了传统图像生成模型难以实现的推理能力和世界知识水平。除了推理之外，MLLM的instruction-following能力预计将在并入统一架构时延续到图像生成过程。

In-context Learning（情境学习）：联合支持图像理解和生成的统一模型自然促进了上下文学习能力。在这样的模型中，先前生成的多模态输出可以作为后续生成的上下文，从而无缝支持迭代图像编辑、视觉对话和逐步视觉推理。这消除了模式切换或依赖外部处理管道的需要，允许模型保持一致性和任务连续性。

Towards Multimodal AGI（走向多模态AGI）：随着人工智能向通用人工智能（AGI）发展，未来的系统需要超越基于文本的能力，以无缝地感知、解释和生成多模态内容。实现这一目标需要从纯文本架构转变为统一的多模态架构，这种架构可以跨多种模态进行推理和生成。这些模型对于构建能够以整体的、类似人类的方式与世界互动的通用智能至关重要。

自回归模型与扩散模型的结合

GPT-4o的结构pipeline为

表明自回归和扩散模型可以被联合利用，来组合两个模块的优势。受这种混合设计的启发，我们在研究中采用了自回归+扩散框架。自回归模型产生连续的中间视觉特征，来近似gt图像表示吗，这引起两个关键的问题。（1）gt embedding是什么，应该VAE还是CLIP来将图像编码为连续特征？（2）一旦自回归模型生成视觉特征，我们如何将它们与地面实况图像特征进行最佳对齐？或者更一般地说，我们应该如何对这些连续视觉特征的分布进行建模：通过简单的MSE损失，还是采用基于扩散的方法？

统一多模态图像生成

图像编码与重建

Variational Autoencoders：变分自动编码器（VAEs）是一类生成模型，它学习将图像编码到结构化的连续潜在空间中。编码器在给定输入图像的潜变量上近似后验分布，解码器从从该潜分布提取的样本重建图像。

带扩散解码器的CLIP编码器：CLIP模型已经成为图像理解任务的基本编码器，因为其在大量图文对进行对比训练，具有从图像中提取丰富的高级语义特征的强大能力。然而，利用此功能来生成图像仍然具有挑战，因为CLIP最初不是为重建任务设计的。Emu2通过将基于CLIP的编码器与基于扩散的解码器配对，提出了一种实用的解决方案。CLIP编码器将图像压缩成语义丰富的潜在嵌入，基于扩散的解码器从这些嵌入中重建图像。值得注意的是，虽然解码器是基于扩散架构，但它是用重建损失而不是概率采样目标来训练的。因此，在推理期间，模型执行确定性重构。这个过程有效地将CLIP和扩散模型结合到图像自动编码器中

Discussion：VAE将图像编码为低级像素特征，并提供更好的重建质量。此外，VAE作为现成模型广泛使用，可以直接集成到图像生成训练管道中。相比之下，CLIP-Diffusion需要额外的训练来使扩散模型适应各种CLIP编码器。然而，CLIP扩散架构在图像压缩比方面提供了显著的优势。例如，在Emu2和我们的实验中，每个图像无论其分辨率如何都可以编码为固定长度的64个连续向量，从而提供紧凑且语义丰富的潜在嵌入。相比之下，基于VAE的编码器倾向于为更高分辨率的输入产生更长的潜在嵌入序列，这增加了训练过程中的计算负担。

Modeling Latent Image Representation

将用户提示（例如，“一个戴着草帽的雀斑年轻女性。”）通过自回归模型的输入嵌入层编码为嵌入向量序列 C，并附加可学习的查询向量 Q（训练中随机初始化并优化），形成组合序列 [C;Q]。通过自回归变换器处理 [C;Q]，使 Q 学习关注并提取提示 C 中的相关语义信息，生成中间视觉特征（或潜在表示）Q。通过均方误差（MSE）和流匹配两种训练目标，训练 Q 以近似从 VAE 或 CLIP 获得的地面实况图像特征 X，实现 Q 与图像嵌入 X 的对齐。

MSE Loss：给定自回归模型产生的预测视觉特征Q和GT图像特征X，我们首先应用可学习的线性投影来对齐Q和X的维度。W表示可学习投影矩阵。然后将MSE损失表述为：

Flow Matching：注意使用MSE损失仅将预测的图像特征Q与目标分布的平均值对齐。一个理想的训练目标是对连续图像表示的概率分布进行建模。我们建议使用flow matching（流匹配），这是一种扩散框架。GT为X1，Q为条件编码，时间步t，噪声X0，通过X0和X1之间的简单线性插值计算Xt：（？这Xt计算公式写的对吗，应该是tX1+(1-t)X0吧）

训练目标为：

其中θ是扩散变压器的参数，Vθ（Xt， Q，t）表示基于实例（X1，Q）、时间步长t和噪声X0的预测速度。

讨论：

与离散标记不同，离散标记本质上支持基于采样的策略来探索不同的生成路径，连续表示缺乏这一属性。具体来说，在基于MSE的训练目标下，对于给定的提示，预测的视觉特征Q变得几乎是确定性的。因此，无论视觉解码器是基于VAE还是CLIP+扩散架构，输出图像在多次推理运行中几乎保持相同。这种确定性突出了MSE目标的一个关键限制：它限制模型为每个提示产生单一的、固定的输出，从而限制了生成多样性。

相比之下，流匹配框架使模型能够继承扩散过程的随机性。这允许模型以相同的提示为条件生成不同的图像样本，便于更广泛地探索输出空间。然而，这种灵活性是以增加模型复杂性为代价的。与MSE相比，流匹配引入了额外的可学习参数。在我们的实现中，我们使用diffusion transformer（DiT），并根据经验发现扩展其容量会产生显著的性能改进。

设计选择

CLIP + MSE：在推理过程中，给定文本提示C，自回归模型预测潜在的视觉特征Q，随后将其传递给基于扩散的视觉解码器以重建真实图像。

CLIP + Flow Matching：本质上，推理管道包括两个扩散阶段：第一个使用条件视觉特征Q迭代去噪为CLIP嵌入。第二个通过基于扩散的视觉解码器将这些CLIP嵌入转换为真实图像。这种方法在第一阶段实现了随机采样，从而允许图像生成的更大多样性。

VAE + Flow Matching：在推理时，给定提示C，自回归模型产生视觉特征Q。然后，调节Q并在每一步迭代去除噪声，真实图像由VAE解码器生成。

VAE + MSE：因为重点是自回归+扩散框架，所以排除了VAE+MSE方法，因为它们不包含任何扩散模块。

实现细节

使用Llama-3.2-1B-Instruct作为自回归模型。训练数据由CC12M、SA-1B和JourneyDB组成，总计约2500万个样本。CC12M和SA-1B使用LLaVA生成的详细字幕，JourneyDB使用原始字幕。

总的来说，实验表明CLIP+Flow Matching是最有效的设计选择。

两个发现：（1）CLIP比VAE学习语义级特征更有效；（2）flow matching作为训练目标更好地捕捉底层图像分布，从而提高样本多样性和视觉质量。

统一多模态训练策略

在联合训练设置中，尽管图像理解和生成任务可能会相互受益，但i）总数据大小和（ii）图像理解和生成数据之间的数据比率会影响它们的协同效应。相比之下，顺序训练提供了更大的灵活性：它让我们可以冻结自回归主干并保持图像理解能力。我们可以将所有训练能力用于图像生成，避免联合训练中的任何任务间效应。

我们将选择顺序训练来构建我们统一的多模态模型，并将联合训练推迟到未来的工作中。

BLIP3-o：

基于以上发现，BLIP3-o采用CLIP + Flow Matching，顺序训练开发。

模型结构：

我们开发了两种不同大小的模型：在专有数据上训练的8B参数模型和仅使用开源数据的4B参数模型。鉴于存在强大的开源图像理解模型，例如Qwen2.5VL，我们跳过图像理解训练阶段，直接在Qwen 2.5 VL上构建我们的图像生成模块。在8B模型中，我们冻结Qwen2.5VL-7B-Instruct主干并训练diffusion transformers，总计1.4 B可训练参数。4B模型遵循相同的图像生成架构，但使用Qwen2.5-VL-3B-Instruct作为主干。

Diffusion Transformer Architecture：我们利用Lumina-Next模型的架构。

训练策略：

第1阶段：图像生成的预训练

对于8B模型，我们将2500万开源数据与额外的3000万专有图像相结合。所有图像字幕均由Qwen2.5-VL-7B-Instruct生成，生成平均长度为120个标记的详细描述。为了改进对不同提示长度的泛化，我们还包括大约10%（600万）较短的字幕，其中大约有20个来自CC12M的标记。每个图像-字幕对都使用提示进行格式化：“请根据以下标题生成图像：<标题>”。

对于完全开源的4B模型，我们使用2500万公开可用的图像，每个图像都配有相同的详细字幕。我们还混合了大约10%（300万）来自CC12M的短字幕。

第2阶段：图像生成的指令调整

在图像生成预训练阶段之后，我们观察到模型中的几个弱点：
生成复杂的人类手势，例如一个人正在射箭；
生成常见的对象，例如各种水果和蔬菜；
生成地标，例如，金门大桥；
生成简单的文本，例如写在街道表面上的“Salesforce”一词。

为了解决这些问题，我们专门针对这些领域进行指令调整（instruction tuning）。对于每个类别，我们提示GPT-4o生成大致10k的提示图像对，创建一个有针对性的数据集，以提高模型处理这些情况的能力。为了提高视觉美学质量，我们还使用来自JourneyDB和DALL·E 3的提示扩展我们的数据。这个过程产生了大约60k高质量提示图像对的精选集合。我们还发布了这个60k的指令调整数据集。