当前位置: 首页 > web >正文

Uniworld-V1、X-Omni论文解读

目录

一、Uniworld-V1

1、概述

2、架构

3、训练过程

4、实验

二、X-Omni

1、概述

2、方法


一、Uniworld-V1

1、概述

        动机:当前统一模型虽然可以实现图文理解和文本生成任务,但是难以实现图像感知(检测/分割)与图像操控(编辑/迁移)等复合需求。另外传统方法依赖VAE提取视觉特征,但同样缺少高频信息,限制了语义级任务的表现。

        另外通过实验发现GPT-4o-Image可能采用语义编码器,而非VAE,从而导致在编辑实验中局部修改后文本位置发生偏移,表明缺少底层信息。另外GPT-4o和Qwen2.5-VL,在去噪实验中,低噪图像上可以正确去噪,但是高噪图像上识别出现错误。

2、架构

        UniWorld一改以往的理解统一模型均采用一个MLLM架构,通过特征提取,并完全输入到这个大MLLM中,UniWorld不去训练理解部分的网络,并且用理解的输出去引导图像的生成。

Visual Encoder

        采用SigLIP编码器(SigLIP2-so400m/14,固定输出512x512)替换以往的VAE编码器。

VLM

        使用预训练的Qwen2.5-VL-7B,并且不再训练这一部分,只用作视觉理解。

DiT

        使用FLUX作为DiT的主干,把VLM的视觉tokens输出经过一个MLP得到High-level semantics特征,Visual Encoder的输出经过MLP得到Low-level control的特征,将高维语义特征,低维像素特征并且拼接在一起,作为FLUX的文本输入,因为FLUX是一个文生图的模型,通过FLUX可以生成特定任务的图像(比如分割)。

3、训练过程

        三阶段策略

        Stage1:对齐VLM输出与DiT文本分支特征空间,不引入SigLIP分支。冻结VLM框架和DiT,只训练VLM到DiT的MLP部分。

        Stage2:引入预训练SigLIP特征,加载Stage1的权重,并解冻DiT图像分支参数,继续冻结VLM部分。只训练两个MLP,和DiT部分。另外引入自适应编辑区域加权策略,解决小编辑区域学习问题,就是区域内存在缺失的问题。

        自适应编辑区域加权策略,主要是针对编辑区域占比小的情况,采用均匀损失,导致细节丢失,损失加权函数选用对数函数,w(x)=log_2(x)+1,where \ x=A_{total}/A_{edit}。对于掩码生成部分采用像素差分、膨胀、连通域过滤、最大池化下采样四步来生成掩码。

        数据集(2.7M):

(1)图像感知任务:COCO2017+Graph200K 处理各种图像风格(Canny HED 深度图)

(2)图像操控任务:ImgEdit高质量样本+SEED-X 处理自适应掩码生成

(3)文本生成图像:BLIP3o+Open-Sora Plan 美学分大于6.0过滤,并用Qwen2-VL标注

4、实验

        不同模型之间生成、理解、编辑。

        后续的对比实验不在思考,大多数情况最多持平于BAGEL,但是主要原因是数据集的特定性的优势。

提到了一些实验中的观察

        DINOV2、RADIO v2.5替换SigLIP,但是不容易收敛

        直接使用VLM视觉特征的视觉tokens作为引导,生成图和参考图之间一致性较差。他这里是输出了所有tokens作为引导。

二、X-Omni

1、概述

        传统多模态模型的三大瓶颈问题:生成图像模糊、失真,无法精确实现细节渲染,自回归逐步预测导致的累积误差。

        另外统一模型转向利用扩散模型解码,但是扩散模型与自回归模型异构,跨模态知识迁移受阻,所以考虑使用强化学习兼容优化。

2、方法

架构

        整体架构不再采用理解和生成解耦架构,而是只加一个视觉特征编码器。X-Omni由SigLIP-VQ tokenizer,自回归模型,扩散解码器三部分组成。

        自回归模型选择Qwen2-7B,并通过残差块实现视觉分词器与自回归模型的连接。另外在输入部分插入4个随机初始化的Transformer块,用于仅处理图像tokens,并且添加<SOM> height width <Image> 标记,用于支持任意分辨率输入,位置编码使用1D RoPE。

        视觉特征编码器采用SigLIP-VQ,也就是一个冻结的SigLIP2-g ViT编码器连接一个向量量化器。

        扩散解码器将自回归的Image tokens输出采用线性层映射到FLUX.1dev特征空间。

强化学习应用

        同样应用于处理自回归和扩散解码之间的对齐工作,对于多模态奖励机制可以参见MindOmni的做法,可以理解为只是替换了多模态奖励的r值,其他不变,但是MindOmni只做了二值奖励(用于检查CoT逻辑规范),一致性奖励(检查图文对齐)。X-Omni中处理了四个奖励:美学质量奖励,综合质量奖励,图文对齐奖励,文字渲染奖励。

        美学质量奖励:利用HPSV2模型计算奖励。224x224分辨率下预测人类偏好,用于评估多元审美标准。

        综合质量奖励:1024x1024分辨率优化,评估锐利度,噪声水平,动态范围

        图文对齐奖励:与Uniworld一致,余弦相似度计算

        文字渲染奖励:艺术字体识别GOT-OCR2.0,印刷体识别PaddleOCR。

        另外实现任务自适应机制,当提示中含有文字关键词,强化w_4,高细节的风景则强化w_2

训练细节

        类似Uniworld-V1的三阶段学习。

        Stage1:预训练,训练视觉分词器和嵌入的新图像token,冻结其他层。数据包括图像生成数据(COYO-700M,DataComp-1B,LAION-2B,并用Qwen2.5-VL-72B进行标注,美学分过滤,并进行图像缩放,短边最大384px,长边最大1152px,共600B tokens),图像理解数据(LLaVA-OneVision,BLIP3-KALE、Infinity-MM,同样的分辨率处理,共100B tokens)

        Stage2:监督微调,解冻所有参数,高质量图文对(BLIP3o-60K中的30K子集),合成文本生成(GPT-4合成的30K),预训练数据中选择美学质量HPSv2>=7.0的1.44B tokens,另外混合图像理解任务LLaVA-NeXT,Cauldron VQA数据,SFT阶段数据共1.5B tokens

        Stage3:强化学习,共180W提示,分为三类,真实用户需求(比如去广告,共80K,来自Midjourney),长文本(50K,按文本长度分桶采样),自然场景强化(50K,景观和人像提示,平衡美学与复杂度)

        在图像生成DPG eval中打败了GPT-4o,超越一众生成模型。测试复杂指令下图像生成的推理能力

        GenEval,测试生成质量上,还是没有打败GPT-4o

        理解任务中,由于奖励机制引入了OCR奖励,所以在OCRBench分数上略高。

 参考:[2507.22058] X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

[2506.03147] UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

        

http://www.xdnf.cn/news/17446.html

相关文章:

  • 数据结构(二叉树)
  • 【ee类保研面试】其他类---计算机网络
  • 机器学习之支持向量机(原理)
  • [激光原理与应用-185]:光学器件 - BBO、LBO、CLBO晶体的全面比较
  • VSCode 禁用更新检查的方法
  • 实现一个进程池(精讲)
  • 大模型量化上溢及下溢解析
  • 常见数据结构介绍(顺序表,单链表,双链表,单向循环链表,双向循环链表、内核链表、栈、队列、二叉树)
  • LeetCode 刷题【34. 在排序数组中查找元素的第一个和最后一个位置、35. 搜索插入位置】
  • Redis7集群搭建与原理分析
  • 基于Web的交互式坐标系变换矩阵计算工具
  • BGP综合实验练习作业
  • 使用OAK相机实现智能物料检测与ABB机械臂抓取
  • 从零构建TransformerP2-新闻分类Demo
  • Langchain入门:构建一个基于SQL数据的问答系统
  • 後端開發技術教學(三) 表單提交、數據處理
  • 汽车零部件深孔加工质控升级:新启航激光频率梳 3D 测量解决传统光学扫描遮挡
  • 应急响应流程
  • ADB 命令执行模块开发:双模式(普通模式Shell交互模式)实现、线程安全与资源管理优化
  • Nextcloud容器化部署新范式:Docker与Cpolar如何重塑私有云远程访问能力
  • 为什么输入 URL 后会显示页面?HTTP 协议的 “幕后操作”
  • docker缓存目录转移设置和生效过程
  • WPF 双击行为实现详解:DoubleClickBehavior 源码分析与实战指南
  • linux信号量和日志
  • 杂谈 001 · VScode / Copilot 25.08 更新
  • 【系统编程】进程初识
  • 用JOIN替代子查询的查询性能优化
  • GESP2023年12月认证C++一级( 第三部分编程题(2)小杨报数)
  • 行业速览:中国新能源汽车市场格局与关键趋势
  • 解码华为云安全“铁三角”:用“分层防御”化解安全挑战