当前位置：首页 > news >正文

(Arxiv-2025)OVIS-U1技术报告

news 2025/7/26 1:38:13

OVIS-U1技术报告

paper title：Ovis-U1 Technical Report

paper是Ovis Team, Alibaba Group发布在Arxiv 2025的工作

Code:链接

Abstract

在本报告中，我们介绍了 Ovis-U1，这是一款拥有 30 亿参数的统一模型，集成了多模态理解、文本生成图像以及图像编辑能力。Ovis-U1 构建于 Ovis 系列模型的基础之上，采用了基于扩散的视觉解码器，并配备了一个双向 token 精炼器，使其在图像生成任务中的表现可与 GPT-4o 等领先模型相媲美。与一些在生成任务中采用冻结 MLLM 的模型不同，Ovis-U1 从语言模型出发，采用统一训练方法进行训练。与仅在理解或生成任务上进行训练的模型相比，统一训练展现出更优的性能，证明了融合这两类任务所带来的增强效果。在 OpenCompass 多模态学术基准测试中，Ovis-U1 取得了 69.6 的得分，超越了当前的先进模型 Ristretto-3B 和 SAIL-VL-1.5-2B。在文本生成图像任务中，Ovis-U1 在 DPG-Bench 和 GenEval 基准上分别获得了 83.72 和 0.89 的高分。在图像编辑方面，Ovis-U1 在 ImgEdit-Bench 和 GEdit-Bench-EN 基准上分别取得了 4.00 和 6.42 的成绩。作为 Ovis 统一模型系列的初始版本，Ovis-U1 在多模态理解、生成和编辑等方面拓展了现有模型的边界。

图 1：Ovis-U1 功能能力的全面示意图。

1 Introduction

多模态大语言模型（MLLMs）的快速发展，成为推动通用人工智能（AGI）日益精进的核心力量。近期由 OpenAI（2025）发布的 GPT-4o 显示出，能够在多种模态中统一理解与生成的模型，正在极大地改变各类现实应用场景。GPT-4o 原生集成了图像生成与先进语言能力，使用户能够通过自然语言对话完成复杂的视觉任务。这些任务（如图像编辑（Brooks 等，2023）、多视角合成（Mildenhall 等，2021）、风格迁移（Gatys 等，2016）、目标检测（Zou 等，2023）、实例分割（Hafiz & Bhat，2020）、深度估计（Mertan 等，2022）、法线估计（Qi 等，2018）），以往依赖多个专用模型，现在可被统一、高效且准确地完成。这标志着多模态感知能力的一次突破，也预示着统一的多模态理解与生成模型（Zhang 等，2025a）将在处理文本与视觉任务上实现无缝协作的新时代的到来。

GPT-4o 的出现，标志着 AGI 相关领域向统一的多模态理解与生成框架迈出关键一步。这也引发了两个根本性问题：第一，如何使一个多模态理解模型具备图像生成能力？这需要设计一个能够与 MLLM 无缝协作的视觉解码器。第二，如何有效地在理解与生成任务上对统一模型进行训练？我们观察到，GPT-4o 的理解能力因集成了图像生成能力而增强，这表明统一训练可能协同提升多任务表现。本文将通过 Ovis-U1 模型探讨这两个问题。

借鉴 GPT-4o 的设计思路，我们提出 Ovis-U1，一个拥有 30 亿参数的统一模型，扩展了 Ovis 系列（Lu 等，2024）的能力。该模型采用了一个基于扩散 Transformer 架构的全新视觉解码器（Labs，2024a；Esser 等，2024）以及一个双向 token 精炼器（Ma 等，2024；Kong 等，2024），以增强文本和视觉嵌入之间的交互能力。这些改进使 Ovis-U1 能够根据文本描述生成高质量图像，并根据文本指令对图像进行优化与编辑。Ovis-U1 使用统一的训练策略，在各类多模态数据上同时执行多任务训练。全面的消融实验表明，我们的统一训练策略协同提升了理解与生成的表现。

Ovis-U1 的目标有两个：其一是通过引入新颖的架构与训练策略，改进现有的 MLLM 模型，在处理复杂任务时增强其多模态数据的理解、生成和编辑能力，提高精度与灵活性；其二是通过开源发布 Ovis-U1，推动社区中的 AI 发展，促进协同研究与创新，加速构建具备先进多模态推理与操作能力的通用 AI 系统。

在本报告中，Ovis-U1 的发布标志着多模态 AI 系统发展中的关键进展，不仅延续了 Ovis 系列的强项，也为未来的突破奠定基础。以下是 Ovis-U1 的主要特性：

数据多样性：Ovis-U1 在涵盖文本-图像理解、文本生成图像以及图像编辑等多任务的多模态数据上进行训练。这种多样化训练使模型能够在广泛应用场景中表现出色，从文本描述中生成精细图像，到根据复杂指令对图像进行编辑与优化。通过在统一框架中学习多任务，Ovis-U1 提升了泛化能力，能够以高准确度应对现实世界中的多模态挑战。
架构改进：在以往 Ovis 模型的基础上，Ovis-U1 进一步增强了其多模态理解能力。它引入了一个基于扩散架构的新视觉解码器和一个双向 token 精炼器，用于强化文本和视觉特征间的交互。视觉解码器采用多模态扩散 Transformer（MMDiT）作为主干，并使用旋转位置编码（RoPE），实现从文本到高保真图像的生成。双向 token 精炼器提升了文本-图像合成和图像编辑的能力。
统一训练：与以往专注于单一任务的模型不同，Ovis-U1 采用了统一的训练方法，在 6 个训练阶段（详见表 2）中全面利用其多模态能力。该方法确保模型能在理解文本与视觉输入、生成与编辑图像等各任务间进行有效整合和学习。统一训练框架使 Ovis-U1 能够在不同应用场景中无缝运行，进一步拓展了多模态 AI 的性能边界。

图 2：Ovis-U1 的整体架构。(a) Ovis-U1 模型通过共享的多模态大语言模型（Multimodal Large Language Model，MLLM）整合文本与视觉输入。图像生成通过视觉解码器（Visual Decoder）完成，文本生成通过文本反编码器（Text Detokenizer）实现。一个适配器（Adapter）用于连接视觉编码器与 MLLM。解码前，条件嵌入会通过精炼模块（Refiner Module）进行质量提升。(b) 精炼模块的架构由两个堆叠的 Transformer 块组成，调制操作应用于平均池化后的特征。绿色的 token 表示一个可学习的 [CLS] token，用于从条件嵌入中聚合全局信息。

表1：OVIS-U1的模型结构细节。

2 Architecture

Ovis-U1 的结构如图 2 所示，各模块的详细信息总结于表 1 中。总体来看，Ovis-U1 延续了 Ovis（Lu 等人，2024）的架构，在其基础上添加了一个视觉解码器以生成图像。

LLM 与文本分词器：我们采用 Qwen3 系列（Yang 等人，2025）作为大语言模型的主干。为了构建一个具有 30 亿参数的统一模型，我们使用了 Qwen3-1.7B。与之前直接使用多模态大语言模型（如 Qwen-VL（Bai 等人，2025））并在训练期间保持冻结不同，Ovis-U1 从一个语言模型初始化，并通过视觉理解与生成数据进行训练。该统一训练策略协同提升了模型在理解与生成任务上的表现。

视觉编码器与适配器：我们在 Ovis 的基础上增强了视觉编码器并保留其原始视觉适配器。视觉编码器从 Aimv2-large-patch14-448（Fini 等人，2025）初始化，经过修改以原生支持任意分辨率图像，避免了对图像进行分块处理的策略。为实现这一点，我们对原始的固定尺寸位置编码进行插值调整，并引入了二维旋转位置编码（2D RoPE）（Su 等人，2024）以增强空间感知能力。该结构还使用了变长序列注意力机制（Dao 等人，2022；Dao，2024），并借鉴了 NaViT（Dehghani 等人，2023）中的 token packing 策略，高效处理不同分辨率图像的批处理数据。编码器之后，视觉适配器通过与 Ovis 相同的概率化分词方法将视觉模态与语言模态桥接起来。该模块首先通过像素重排（pixel shuffle）进行空间压缩，然后接线性头与 softmax 函数将特征转化为对视觉词汇表的概率分布。最终输入至 LLM 的嵌入是基于该分布对可学习嵌入表的加权平均。

视觉解码器与 VAE：我们使用扩散 Transformer 作为视觉解码器。具体地，受 FLUX（Labs，2024a）启发，我们采用 MMDiT（Esser 等人，2024）与 RoPE（Su 等人，2024）为骨干网络，并使用流匹配（flow matching）作为训练目标。通过将层数和注意力头从 57 和 24 分别减少到 27 和 16，获得了一个参数量为 10 亿的视觉解码器。该解码器随机初始化，并从头训练。鉴于解码器容量有限，我们采用了 SDXL 的 VAE 模型（4 通道）并在训练中保持冻结。参考 FLUX.1 Redux（Labs，2024b），视觉语义嵌入与文本嵌入进行拼接，作为图像生成的语义条件。此外，参考 FLUX.1 Kontext（Labs 等人，2025），上下文图像会通过 VAE 编码器被编码为 latent token。相较于视觉语义嵌入，这些上下文图像 token 含有更丰富的细节信息。最终，这些包含详细视觉信息的嵌入，与图像 token（即噪声）一同输入至解码器的视觉流中。

精炼器（Refiner）：我们引入了一个双向 token 精炼器，以增强视觉嵌入与文本嵌入之间的交互。参考 Kong 等人（2024）与 Ma 等人（2024），我们堆叠了两个带有调制机制（modulation）的 Transformer 块构成精炼器。考虑到 LLM 不同层对图像与文本捕获的信息粒度不同，为了充分利用这种差异，我们将倒数第一层与倒数第二层的特征进行拼接，并送入精炼器进行信息交互，从而生成更优的条件引导。值得注意的是，先前基于文本的生成模型 FLUX（Labs，2024a）通常引入 CLIP 来捕捉全局特征。为了替代 CLIP（Radford 等人，2021），我们引入了可学习的 [CLS] token。通过将该 token 与由 LLM 生成的嵌入拼接，并送入精炼器进行交互，模型得以捕获全局信息。

3 Data Composition and Training Procedure

3.1 Data Composition

为了训练 Ovis-U1，我们使用了三类多模态数据：多模态理解数据、文本生成图像数据（T2I）以及图像+文本生成图像数据。以下分别对每类数据进行详细说明。

多模态理解数据：该类数据包含公开数据和我们自建的数据。公开数据来源包括 COYO（Byeon 等人，2022）、Wukong（Gu 等人，2022）、Laion（Schuhmann 等人，2022）、ShareGPT4V（Chen 等人，2024a）和 CC3M（Sharma 等人，2018）。此外，我们还建立了一套数据预处理流程，用于过滤噪声数据、提升图文描述质量，并调整不同数据类型的比例以确保最优训练效果。

文本生成图像数据（T2I）：对于文本生成图像任务，我们使用 Laion5B（Schuhmann 等人，2022）和 JourneyDB（Sun 等人，2023）。具体而言，在 Laion5B 中，我们筛选美学评分高于 6 的样本，并使用 Qwen 模型（Wang 等人，2024）为每张图像生成更详细的描述，从而构建 Laion-aes6 数据集。

图像+文本生成图像数据：该类别进一步细分为以下四种类型：

• 图像编辑数据：我们采用的公开数据集包括 OmniEdit（Wei 等人，2024）、UltraEdit（Zhao 等人，2024）和 SeedEdit（Ge 等人，2024）。

• 参考图像驱动的图像生成数据：用于主体驱动图像生成的数据来源包括 Subjects200K（Tan 等人，2024）和 SynCD（Kumari 等人，2025）；用于风格驱动图像生成的数据集为 StyleBooth（Han 等人，2024）。

• 像素级控制的图像生成数据：此类任务包括 canny-to-image、depth-to-image、图像修复（inpainting）、图像扩展（outpainting），数据来自 MultiGen 20M（Qin 等人，2023）。

• 自建数据：我们还构建了额外的数据集用于补充上述公开数据资源，涵盖风格驱动、内容移除、风格迁移、去噪/去模糊、图像上色、文本渲染等多个细分类别。

3.2 Training Procedure

图 3：提出的六阶段训练流程概览。我们通过一系列精心设计的阶段逐步训练 Ovis-U1 模型。图中雪花图标表示冻结的模块，火焰图标表示可训练的模块。

与以往直接使用预训练多模态大语言模型（MLLM）（如 Qwen-VL（Bai 等人，2025））的方法不同，我们从预训练语言模型（LLM）出发进行训练。给定预训练的 LLM 和视觉编码器，Ovis 总共包含 4 个训练阶段：适配器预训练、视觉编码器对齐、理解学习和 DPO。为了增强生成能力，我们在 Ovis-U1 中新增了多个训练阶段。每个训练阶段的详细信息如表 2 所示。

阶段 0：视觉解码器预训练。我们为视觉解码器构建了一个 10 亿参数的扩散 Transformer（diffusion transformer），从随机初始化开始进行训练，以构建基础的图像生成能力。此阶段使用文本生成图像（T2I）训练数据，训练过程中，视觉解码器与细化器（refiner）联合，根据 LLM 的嵌入生成图像。

阶段 1：适配器预训练。适配器用于在视觉编码器与 LLM 之间建立桥梁，对齐图像和文本的嵌入向量。更多细节见 Ovis 原论文（Lu 等人，2024）。适配器从随机初始化开始，需要在此阶段进行训练。与 Ovis 不同，Ovis-U1 融合了理解、T2I 和图像编辑三类任务进行训练。

阶段 2：视觉编码器对齐。在本阶段中，视觉编码器和适配器将一起进行微调，进一步对齐图像与文本的嵌入。此阶段同样使用三类任务（理解、T2I 和图像编辑）进行训练，其中生成任务有助于不同模态嵌入之间的融合对齐。

阶段 3：理解学习。此阶段与 Ovis 相同，训练视觉编码器、适配器和 LLM 在理解类任务中的表现。完成此阶段后，这些模块的参数将被冻结，以保持模型的多模态理解能力。

阶段 4：生成学习。由于在阶段 3 中对 LLM 参数进行了微调，因此我们在本阶段训练 refiner 和视觉解码器，使其更好地适应优化后的文本和图像嵌入。实验表明，与阶段 0 相比，文本生成图像的性能有显著提升，因为阶段 1-3 改善了文本嵌入与图像嵌入之间的对齐效果。

阶段 5：生成微调。在具备基本文本生成图像能力的基础上，本阶段进一步微调解码器，提升其在 T2I 与图像编辑任务中的表现。

表2：OVIS-U1的每个训练阶段的详细信息。

表3：OVIS-U1的每个训练阶段的详细信息。

4 Evaluation

类似于 GPT-4o，近期的统一多模态模型具备理解输入图像、根据文本提示生成图像，以及根据指令编辑图像的能力。因此，我们从三个任务维度对这些模型进行基准评估：图像理解、文本生成图像和图像编辑。

图像理解：为评估模型的理解能力，我们采用了广泛使用的 OpenCompass 多模态学术基准测试集，包括 MMBench（Liu 等，2024a）、MMStar（Chen 等，2024b）、MMMU-Val（Yue 等，2024）、MathVista-Mini（Lu 等，2023）、HallusionAvg（Guan 等，2024）、AI2D-Test（Kembhavi 等，2016）、OCRBench（Liu 等，2024b）和 MMVet（Yu 等，2024）。Avg Score 为这 8 个基准的平均分。由于目前大多数主流多模态大语言模型均在该基准上进行了评估，因此统一模型可以与它们进行便捷对比。

文本生成图像（Text-to-Image Generation）：为评估文本生成图像能力，我们采用了 CLIPScore（Hessel 等，2021）、DPG-Bench（Hu 等，2024）和 GenEval（Ghosh 等，2023）基准。CLIPScore 曾用于 DALL-E 3（Betker 等，2023），其中前 1K 个提示语被用于计算 CLIPScore。DPG-Bench 和 GenEval 是文本生成图像和统一模型领域广泛使用的两个基准。部分前期研究会对 GenEval 的提示语进行改写以提升性能，而本文报告使用的是原始提示语下的性能结果。

图像编辑（Image Editing）：为评估图像编辑能力，我们采用 GEdit-Bench（Liu 等，2025）和 ImgEdit（Ye 等，2025）两个近期提出的基准数据集，分别包含 606 和 811 对图像-指令对。这两个基准都使用先进的 GPT 模型来评估编辑后图像的效果。

查看全文

http://www.xdnf.cn/news/1175707.html