当前位置: 首页 > news >正文

BLIP3-o: 全开源多模态统一模型,先理解后生成,详细解读

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

Paperhttps://arxiv.org/pdf/2505.09568v1 Codehttps://github.com/jiuhaichen/blip3o

采用diffusion transformer (DiT)去生成语义丰富的CLIP图像特征。

证明了统一模型的预训练顺序策略:首先对图像理解进行训练,然后对图像生成进行训练——保留图像理解能力,同时开发强大的图像生成能力。

最后,我们通过向GPT-4o提示涵盖各种场景、对象、人类手势等的各种字幕,精心策划了用于图像生成的高质量指令调优数据集BLIP3o-60k。

图1:BLIP3-o的架构。对于图像理解部分,我们使用CLIP对图像进行编码,并计算目标文本标记和预测文本标记之间的交叉熵损失。对于图像生成部分,自回归模型首先生成一系列中间视觉特征,然后将其用作Diffusion Transformer的条件输入,该Diffusion transformer生成CLIP图像特征以近似地面实况CLIP特征。通过使用CLIP编码器,图像理解和图像生成共享相同的语义空间,有效地统一了这两个任务。

目录

BLIP3-o: A Family of Fully Open Unified Multimodal Models—Architecture, Training and Dataset

统一的多模态图像生成和理解

动机:

自回归模型与扩散模型的结合

统一多模态图像生成

图像编码与重建

Modeling Latent Image Representation

设计选择

实现细节

统一多模态训练策略

BLIP3-o:

模型结构:

训练策略:

第1阶段:图像生成的预训练

第2阶段:图像生成的指令调整

结果

未来工作


统一的多模态图像生成和理解

动机:

本文旨在系统地研究和推进统一模型的发展,我们开始明确提出了建立统一多模态模型的关键动机。

Reasoning and Instruction Following(推理与遵循指令):将图像生成功能集成到自回归模型(如多模态大型语言模型(MLLM))中,可以继承它们的预训练知识,推理能力和指令遵循能力。例如,我们的模型能够解释提示,如“长鼻子的动物”,而不需要提示重写。这展示了传统图像生成模型难以实现的推理能力和世界知识水平。除了推理之外,MLLM的instruction-following能力预计将在并入统一架构时延续到图像生成过程。

In-context Learning(情境学习):联合支持图像理解和生成的统一模型自然促进了上下文学习能力。在这样的模型中,先前生成的多模态输出可以作为后续生成的上下文,从而无缝支持迭代图像编辑、视觉对话和逐步视觉推理。这消除了模式切换或依赖外部处理管道的需要,允许模型保持一致性和任务连续性

Towards Multimodal AGI(走向多模态AGI):随着人工智能向通用人工智能(AGI)发展,未来的系统需要超越基于文本的能力,以无缝地感知、解释和生成多模态内容。实现这一目标需要从纯文本架构转变为统一的多模态架构,这种架构可以跨多种模态进行推理和生成。这些模型对于构建能够以整体的、类似人类的方式与世界互动的通用智能至关重要。

自回归模型与扩散模型的结合

GPT-4o的结构pipeline为

表明自回归和扩散模型可以被联合利用,来组合两个模块的优势。受这种混合设计的启发,我们在研究中采用了自回归+扩散框架。自回归模型产生连续的中间视觉特征,来近似gt图像表示吗,这引起两个关键的问题。(1)gt embedding是什么,应该VAE还是CLIP来将图像编码为连续特征?(2)一旦自回归模型生成视觉特征,我们如何将它们与地面实况图像特征进行最佳对齐?或者更一般地说,我们应该如何对这些连续视觉特征的分布进行建模:通过简单的MSE损失,还是采用基于扩散的方法?

统一多模态图像生成

图像编码与重建

Variational Autoencoders:变分自动编码器(VAEs)是一类生成模型,它学习将图像编码到结构化的连续潜在空间中。编码器在给定输入图像的潜变量上近似后验分布,解码器从从该潜分布提取的样本重建图像。

带扩散解码器的CLIP编码器CLIP模型已经成为图像理解任务的基本编码器,因为其在大量图文对进行对比训练,具有从图像中提取丰富的高级语义特征的强大能力。然而,利用此功能来生成图像仍然具有挑战,因为CLIP最初不是为重建任务设计的。Emu2通过将基于CLIP的编码器与基于扩散的解码器配对,提出了一种实用的解决方案。CLIP编码器将图像压缩成语义丰富的潜在嵌入,基于扩散的解码器从这些嵌入中重建图像。值得注意的是,虽然解码器是基于扩散架构,但它是用重建损失而不是概率采样目标来训练的。因此,在推理期间,模型执行确定性重构。这个过程有效地将CLIP和扩散模型结合到图像自动编码器中

Discussion:VAE将图像编码为低级像素特征,并提供更好的重建质量。此外,VAE作为现成模型广泛使用,可以直接集成到图像生成训练管道中。相比之下,CLIP-Diffusion需要额外的训练来使扩散模型适应各种CLIP编码器。然而,CLIP扩散架构在图像压缩比方面提供了显著的优势。例如,在Emu2和我们的实验中,每个图像无论其分辨率如何都可以编码为固定长度的64个连续向量,从而提供紧凑且语义丰富的潜在嵌入。相比之下,基于VAE的编码器倾向于为更高分辨率的输入产生更长的潜在嵌入序列,这增加了训练过程中的计算负担。

Modeling Latent Image Representation

将用户提示(例如,“一个戴着草帽的雀斑年轻女性。”)通过自回归模型的输入嵌入层编码为嵌入向量序列 C,并附加可学习的查询向量 Q(训练中随机初始化并优化),形成组合序列 [C;Q]。通过自回归变换器处理 [C;Q],使 Q 学习关注并提取提示 C 中的相关语义信息,生成中间视觉特征(或潜在表示)Q。通过均方误差(MSE)和流匹配两种训练目标,训练 Q 以近似从 VAE 或 CLIP 获得的地面实况图像特征 X,实现 Q 与图像嵌入 X 的对齐。

MSE Loss:给定自回归模型产生的预测视觉特征Q和GT图像特征X,我们首先应用可学习的线性投影来对齐Q和X的维度。W表示可学习投影矩阵。然后将MSE损失表述为:

Flow Matching:注意使用MSE损失仅将预测的图像特征Q与目标分布的平均值对齐。一个理想的训练目标是对连续图像表示的概率分布进行建模。我们建议使用flow matching(流匹配),这是一种扩散框架。GT为X1,Q为条件编码,时间步t,噪声X0,通过X0和X1之间的简单线性插值计算Xt:(?这Xt计算公式写的对吗,应该是tX1+(1-t)X0吧)

训练目标为:

其中θ是扩散变压器的参数,Vθ(Xt, Q,t)表示基于实例(X1,Q)、时间步长t和噪声X0的预测速度。

讨论:

与离散标记不同,离散标记本质上支持基于采样的策略来探索不同的生成路径,连续表示缺乏这一属性。具体来说,在基于MSE的训练目标下,对于给定的提示,预测的视觉特征Q变得几乎是确定性的。因此,无论视觉解码器是基于VAE还是CLIP+扩散架构,输出图像在多次推理运行中几乎保持相同。这种确定性突出了MSE目标的一个关键限制:它限制模型为每个提示产生单一的、固定的输出,从而限制了生成多样性

相比之下,流匹配框架使模型能够继承扩散过程的随机性。这允许模型以相同的提示为条件生成不同的图像样本,便于更广泛地探索输出空间。然而,这种灵活性是以增加模型复杂性为代价的。与MSE相比,流匹配引入了额外的可学习参数。在我们的实现中,我们使用diffusion transformer(DiT),并根据经验发现扩展其容量会产生显著的性能改进。

设计选择

CLIP + MSE:在推理过程中,给定文本提示C,自回归模型预测潜在的视觉特征Q,随后将其传递给基于扩散的视觉解码器以重建真实图像。

CLIP + Flow Matching:本质上,推理管道包括两个扩散阶段:第一个使用条件视觉特征Q迭代去噪为CLIP嵌入。第二个通过基于扩散的视觉解码器将这些CLIP嵌入转换为真实图像。这种方法在第一阶段实现了随机采样,从而允许图像生成的更大多样性。

VAE + Flow Matching:在推理时,给定提示C,自回归模型产生视觉特征Q。然后,调节Q并在每一步迭代去除噪声,真实图像由VAE解码器生成。

VAE + MSE:因为重点是自回归+扩散框架,所以排除了VAE+MSE方法,因为它们不包含任何扩散模块。

实现细节

使用Llama-3.2-1B-Instruct作为自回归模型。训练数据由CC12M、SA-1B和JourneyDB组成,总计约2500万个样本。CC12M和SA-1B使用LLaVA生成的详细字幕,JourneyDB使用原始字幕。

总的来说,实验表明CLIP+Flow Matching是最有效的设计选择。

两个发现:(1)CLIP比VAE学习语义级特征更有效;(2)flow matching作为训练目标更好地捕捉底层图像分布,从而提高样本多样性和视觉质量。

统一多模态训练策略

在联合训练设置中,尽管图像理解和生成任务可能会相互受益,但i)总数据大小和(ii)图像理解和生成数据之间的数据比率会影响它们的协同效应。相比之下,顺序训练提供了更大的灵活性:它让我们可以冻结自回归主干并保持图像理解能力。我们可以将所有训练能力用于图像生成,避免联合训练中的任何任务间效应。

我们将选择顺序训练来构建我们统一的多模态模型,并将联合训练推迟到未来的工作中。

BLIP3-o:

基于以上发现,BLIP3-o采用CLIP + Flow Matching,顺序训练开发。

模型结构:

我们开发了两种不同大小的模型:在专有数据上训练的8B参数模型和仅使用开源数据的4B参数模型。鉴于存在强大的开源图像理解模型,例如Qwen2.5VL,我们跳过图像理解训练阶段,直接在Qwen 2.5 VL上构建我们的图像生成模块。在8B模型中,我们冻结Qwen2.5VL-7B-Instruct主干并训练diffusion transformers,总计1.4 B可训练参数。4B模型遵循相同的图像生成架构,但使用Qwen2.5-VL-3B-Instruct作为主干。

Diffusion Transformer Architecture:我们利用Lumina-Next模型的架构。

训练策略:

第1阶段:图像生成的预训练

对于8B模型,我们将2500万开源数据与额外的3000万专有图像相结合。所有图像字幕均由Qwen2.5-VL-7B-Instruct生成,生成平均长度为120个标记的详细描述。为了改进对不同提示长度的泛化,我们还包括大约10%(600万)较短的字幕,其中大约有20个来自CC12M的标记。每个图像-字幕对都使用提示进行格式化:“请根据以下标题生成图像:<标题>”。

对于完全开源的4B模型,我们使用2500万公开可用的图像,每个图像都配有相同的详细字幕。我们还混合了大约10%(300万)来自CC12M的短字幕。

第2阶段:图像生成的指令调整
  • 在图像生成预训练阶段之后,我们观察到模型中的几个弱点:

  • 生成复杂的人类手势,例如一个人正在射箭;

  • 生成常见的对象,例如各种水果和蔬菜;

  • 生成地标,例如,金门大桥;

  • 生成简单的文本,例如写在街道表面上的“Salesforce”一词。

为了解决这些问题,我们专门针对这些领域进行指令调整(instruction tuning)。对于每个类别,我们提示GPT-4o生成大致10k的提示图像对,创建一个有针对性的数据集,以提高模型处理这些情况的能力。为了提高视觉美学质量,我们还使用来自JourneyDB和DALL·E 3的提示扩展我们的数据。这个过程产生了大约60k高质量提示图像对的精选集合。我们还发布了这个60k的指令调整数据集。

结果

图像理解

图像生成

发现3:该模型可以快速适应GPT-4o风格,提高提示对齐和视觉质量。该模型从AI生成的图像中学习比从真实图像中学习更有效。

未来工作

我们目前正在将我们的统一多模态扩展到下游任务,如图像编辑、多轮视觉对话和交错生成。作为第一步,我们将专注于图像重建:将图像输入图像理解视觉编码器,然后通过图像生成模型重建它们,以无缝连接图像理解和生成。在此能力的基础上,我们将收集指令调整数据集,以使模型适应各种下游应用。

http://www.xdnf.cn/news/592867.html

相关文章:

  • 第六部分:第六节 - TypeScript 与 NestJS:打造类型安全的厨房管理流程
  • 3356. 零数组变换 II
  • Spring Boot 多租户架构实现:基于上下文自动传递的独立资源隔离方案
  • 为什么mosquitto 禁用了 topic “#“后,无法使用主题中包含%c client_id了?
  • python容器
  • PTA刷题笔记
  • 浏览器原生 Web Crypto API 实现 SHA256 Hash 加密
  • 六:操作系统虚拟内容之内存文件映射
  • DeepSeek的进阶应用场景大全
  • poppler_path 是用于 Python 库如 pdf2image 进行 PDF 转换时
  • 《告别单一智能:神经符号混合系统驱动推理能力的跨界融合》
  • 哈希表和容器中添加元素的方法
  • 什么是CDN(Content Delivery Network,内容分发网络)
  • ubunt配置本地源
  • Linux开发板串口终端会限制命令字符数并且循环覆盖
  • 并发编程 之 TreeMap ConcurrentSkipListMap set queue源码分析
  • 自动化测试报告工具
  • 【八股战神篇】Redis高频面试题
  • AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年5月22日第85弹
  • 数据结构知识点汇总
  • 速卖通关键词搜索API开发指南
  • 简单说一下px和ex 的区别......
  • 测试文章1
  • ATGM336H-6N_GNSS 单频多模定位导航模块
  • IEEE Wireless Communications 2025年1月-4月论文速览
  • 二十一、面向对象底层逻辑-scope作用域接口设计
  • 05算法学习_59. 螺旋矩阵 II
  • 如何测试JWT的安全性:全面防御JSON Web Token的安全漏洞
  • 第34节:迁移学习中的特征提取方法
  • 落石滑坡倒树自然灾害检测数据集VOC+YOLO格式958张3类别