当前位置：首页 > web >正文

Uniworld-V1、X-Omni论文解读

web 2025/8/13 7:50:13

一、Uniworld-V1

1、概述

2、架构

3、训练过程

4、实验

二、X-Omni

1、概述

2、方法

一、Uniworld-V1

1、概述

动机：当前统一模型虽然可以实现图文理解和文本生成任务，但是难以实现图像感知（检测/分割）与图像操控（编辑/迁移）等复合需求。另外传统方法依赖VAE提取视觉特征，但同样缺少高频信息，限制了语义级任务的表现。

另外通过实验发现GPT-4o-Image可能采用语义编码器，而非VAE，从而导致在编辑实验中局部修改后文本位置发生偏移，表明缺少底层信息。另外GPT-4o和Qwen2.5-VL，在去噪实验中，低噪图像上可以正确去噪，但是高噪图像上识别出现错误。

2、架构

UniWorld一改以往的理解统一模型均采用一个MLLM架构，通过特征提取，并完全输入到这个大MLLM中，UniWorld不去训练理解部分的网络，并且用理解的输出去引导图像的生成。

Visual Encoder

采用SigLIP编码器（SigLIP2-so400m/14，固定输出512x512）替换以往的VAE编码器。

VLM

使用预训练的Qwen2.5-VL-7B，并且不再训练这一部分，只用作视觉理解。

DiT

使用FLUX作为DiT的主干，把VLM的视觉tokens输出经过一个MLP得到High-level semantics特征，Visual Encoder的输出经过MLP得到Low-level control的特征，将高维语义特征，低维像素特征并且拼接在一起，作为FLUX的文本输入，因为FLUX是一个文生图的模型，通过FLUX可以生成特定任务的图像（比如分割）。

3、训练过程

三阶段策略

Stage1：对齐VLM输出与DiT文本分支特征空间，不引入SigLIP分支。冻结VLM框架和DiT，只训练VLM到DiT的MLP部分。

Stage2：引入预训练SigLIP特征，加载Stage1的权重，并解冻DiT图像分支参数，继续冻结VLM部分。只训练两个MLP，和DiT部分。另外引入自适应编辑区域加权策略，解决小编辑区域学习问题，就是区域内存在缺失的问题。

自适应编辑区域加权策略，主要是针对编辑区域占比小的情况，采用均匀损失，导致细节丢失，损失加权函数选用对数函数， $w(x)=log_2(x)+1,where \ x=A_{total}/A_{edit}$ 。对于掩码生成部分采用像素差分、膨胀、连通域过滤、最大池化下采样四步来生成掩码。

数据集（2.7M)：

（1）图像感知任务：COCO2017+Graph200K 处理各种图像风格（Canny HED 深度图）

（2）图像操控任务：ImgEdit高质量样本+SEED-X 处理自适应掩码生成

（3）文本生成图像：BLIP3o+Open-Sora Plan 美学分大于6.0过滤，并用Qwen2-VL标注

4、实验

不同模型之间生成、理解、编辑。

后续的对比实验不在思考，大多数情况最多持平于BAGEL，但是主要原因是数据集的特定性的优势。

提到了一些实验中的观察

DINOV2、RADIO v2.5替换SigLIP，但是不容易收敛

直接使用VLM视觉特征的视觉tokens作为引导，生成图和参考图之间一致性较差。他这里是输出了所有tokens作为引导。

二、X-Omni

1、概述

传统多模态模型的三大瓶颈问题：生成图像模糊、失真，无法精确实现细节渲染，自回归逐步预测导致的累积误差。

另外统一模型转向利用扩散模型解码，但是扩散模型与自回归模型异构，跨模态知识迁移受阻，所以考虑使用强化学习兼容优化。

2、方法

架构

整体架构不再采用理解和生成解耦架构，而是只加一个视觉特征编码器。X-Omni由SigLIP-VQ tokenizer，自回归模型，扩散解码器三部分组成。

自回归模型选择Qwen2-7B，并通过残差块实现视觉分词器与自回归模型的连接。另外在输入部分插入4个随机初始化的Transformer块，用于仅处理图像tokens，并且添加<SOM> height width <Image> 标记，用于支持任意分辨率输入，位置编码使用1D RoPE。

视觉特征编码器采用SigLIP-VQ，也就是一个冻结的SigLIP2-g ViT编码器连接一个向量量化器。

扩散解码器将自回归的Image tokens输出采用线性层映射到FLUX.1dev特征空间。

强化学习应用

同样应用于处理自回归和扩散解码之间的对齐工作，对于多模态奖励机制可以参见MindOmni的做法，可以理解为只是替换了多模态奖励的r值，其他不变，但是MindOmni只做了二值奖励（用于检查CoT逻辑规范），一致性奖励（检查图文对齐）。X-Omni中处理了四个奖励：美学质量奖励，综合质量奖励，图文对齐奖励，文字渲染奖励。

美学质量奖励：利用HPSV2模型计算奖励。224x224分辨率下预测人类偏好，用于评估多元审美标准。

综合质量奖励：1024x1024分辨率优化，评估锐利度，噪声水平，动态范围

图文对齐奖励：与Uniworld一致，余弦相似度计算

文字渲染奖励：艺术字体识别GOT-OCR2.0，印刷体识别PaddleOCR。

另外实现任务自适应机制，当提示中含有文字关键词，强化 $w_4$ ，高细节的风景则强化 $w_2$

训练细节

类似Uniworld-V1的三阶段学习。

Stage1：预训练，训练视觉分词器和嵌入的新图像token，冻结其他层。数据包括图像生成数据（COYO-700M，DataComp-1B，LAION-2B，并用Qwen2.5-VL-72B进行标注，美学分过滤，并进行图像缩放，短边最大384px，长边最大1152px，共600B tokens），图像理解数据（LLaVA-OneVision，BLIP3-KALE、Infinity-MM，同样的分辨率处理，共100B tokens）

Stage2：监督微调，解冻所有参数，高质量图文对（BLIP3o-60K中的30K子集），合成文本生成（GPT-4合成的30K），预训练数据中选择美学质量HPSv2>=7.0的1.44B tokens，另外混合图像理解任务LLaVA-NeXT，Cauldron VQA数据，SFT阶段数据共1.5B tokens

Stage3：强化学习，共180W提示，分为三类，真实用户需求（比如去广告，共80K，来自Midjourney），长文本（50K，按文本长度分桶采样），自然场景强化（50K，景观和人像提示，平衡美学与复杂度）

在图像生成DPG eval中打败了GPT-4o，超越一众生成模型。测试复杂指令下图像生成的推理能力

GenEval，测试生成质量上，还是没有打败GPT-4o

理解任务中，由于奖励机制引入了OCR奖励，所以在OCRBench分数上略高。

参考：[2507.22058] X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

[2506.03147] UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

查看全文

http://www.xdnf.cn/news/17446.html