T2I-R1:通过语义级与图像 token 级协同链式思维强化图像生成
文章目录
- 速览
- 摘要
- 1 引言
- 2 相关工作
- 统一生成与理解的 LMM(Unified Generation and Understanding LMM.)
- 用于大型推理模型的强化学习(Reinforcement Learning for Large Reasoning Models.)
- 3 方法
- 3.1 预备知识
- 3.2 语义级与令牌级 CoT
- 语义级 CoT(Semantic-level CoT)
- 令牌级 CoT(Token-level CoT)
- 3.3 BiCoT-GRPO
- 3.4 生成奖励的集成方法(Ensemble of Generation Rewards)
- 人类偏好模型(Human Preference Model)
- 目标检测器(Object Detector)
- 视觉问答模型(Visual Question Answering Model)
- 输出奖励模型(Output Reward Model)
- 4. 实验
- 4.1 实验设置
- 4.2 主要结果
- 4.3 奖励函数分析
- 4.4 消融实验
- 5 结论
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
香港中文大学 MMLab;香港中文大学 MiuLar Lab;上海人工智能实验室
arxiv’25’05
速览
动机
(1)尽管图像生成任务已取得显著进展,现有模型普遍缺乏显式推理能力,难以处理复杂提示语中的语义规划与细节对齐问题。
(2)目前在图像生成领域,还没有研究能做到将图像理解与图像生成在一个训练步骤中进行训练的,之前虽然有统一多模态模型(即拥有图像理解与图像生成的能力),但是他们都是分开训练的,且没有显示的证据证明图像理解部分对图像生成是有帮助的。
方法
(1)首先作者识别出两种对图像生成有帮助的CoT,即语义级CoT和图像Token级CoT。
(2)为了同时兼容图像生成中的语义级与令牌级 CoT,作者提出了 BiCoT-GRPO,模型在一次生成过程中进行两轮推理。指导模型首先执行语义级 CoT 以进行全局规划,然后再通过执行图像token级 CoT 深入进行局部细节生成。
(3)与 DeepSeek-R1 所用的规则奖励不同,图像生成无法靠预定义规则评估质量,因此作者引入由多位视觉专家组成的评估系统,从审美、内容与结构等多维度综合判断生成图像的优劣。
实验
实验这里有一个验证挺有意思,语义层级 CoT 被用于图像生成,但 GRPO 仅优化语义层级 CoT 而不包含 token 层级 CoT。即GRPO是否仅增强模型的高级规划能力?
实验结果显示仅优化语义层级 CoT 所带来的提升小于联合优化两种 CoT 时的提升。此外,作者发现同时优化两种 CoT 类型能够生成具有更高美学质量的图像,相较于仅优化语义层级 CoT 的情况更为优越。这表明联合优化两个层级的 CoT 是必要的。
摘要
近年来,大型语言模型在链式思维(Chain-of-Thought, CoT)和强化学习(Reinforcement Learning, RL)方面的进展表明,这些机制能够提升模型性能。然而,将此类推理策略应用于视觉生成领域仍然鲜有探索。
本文提出 T2I-R1,这是一种引入推理机制的文本生成图像模型,基于强化学习,并采用双层次的 CoT 推理过程。具体而言,我们识别出两个可以在生成的不同阶段加以利用的 CoT 层次:(1)语义级 CoT,用于提示语的高层次规划;(2)令牌级 CoT,用于逐块生成过程中的低层次像素处理。
为了更好地协调这两个层次的 CoT,我们引入 BiCoT-GRPO,它结合了多种生成奖励的集成方法,能够在同一训练步骤中无缝优化两种 CoT 推理策略。
通过将我们的推理策略应用于基础模型 Janus-Pro,我们在 T2I-CompBench 上获得了 13% 的性能提升,在 WISE benchmark 上获得了 19% 的性能提升,甚至超越了当前最先进的模型 FLUX.1。
代码开源地址为:https://github.com/CaraJ7/T2I-R1。
1 引言
先进的大型语言模型(Large Language Models, LLMs)的兴起 [45, 47, 63, 72],例如 OpenAI 的 o1 [48] 和 DeepSeek-R1 [17],已在多个领域展现出强大的推理能力,包括数学 [1, 20, 42] 和代码生成 [6, 2, 23]。借助强化学习(Reinforcement Learning, RL)[55, 56],这些模型借助完备的链式思维(Chain-of-Thought, CoT)机制 [66, 27, 19, 25, 77, 18],逐步分析问题后再给出答案,显著提升了输出结果的准确性。
CoT 推理策略也已扩展至视觉领域。近年来的大型多模态模型(Large Multi-modal Models, LMMs)[5, 43, 75, 78] 已调整该范式以适配视觉理解任务 [40, 77, 26]。这些先进的 LMMs 能够联合处理图像与其对应的文本查询,逐步分析视觉细节并结合推理步骤以推导出最终答案。同时,类 CoT 的推理机制已开始在视觉生成任务中探索,尤其是在自回归式文本生成图像(text-to-image generation)中。开创性工作 “Image Generation with CoT” [19] 将图像 token 的渐进生成类比为一种 CoT 机制,并提出优化这一中间过程以提升图像质量。
250508:自回归可以理解为条件概论的链式法则 P ( x 1 , x 2 , … , x n ) = P ( x 1 ) ⋅ P ( x 2 ∣ x 1 ) ⋅ P ( x 3 ∣ x 1 , x 2 ) ⋯ P ( x n ∣ x 1 , x 2 , … , x n − 1 ) P(x_1, x_2, \dots, x_n) = P(x_1) \cdot P(x_2 \mid x_1) \cdot P(x_3 \mid x_1, x_2) \cdots P(x_n \mid x_1, x_2, \dots, x_{n-1}) P(x1,x2,…,xn)=P(x1)⋅P(x2∣x1)⋅P(x3∣x1,x2)⋯P(xn∣x1,x2,…,xn−1),举个简单例子 P ( “I like apples” ) = P ( “I” ) ⋅ P ( “like” ∣ “I” ) ⋅ P ( “apples” ∣ “I like” ) P(\text{``I like apples''}) = P(\text{``I''}) \cdot P(\text{``like''} \mid \text{``I''}) \cdot P(\text{``apples''} \mid \text{``I like''}) P(“I like apples”)=P(“I”)⋅P(“like”∣“I”)⋅P(“apples”∣“I like”),在语言模型中,每一个词的生成,都是基于前面所有词的条件概率,这就是自回归。
250508:就像画家一笔一笔画图,每一笔都受到前一笔的影响,也可以看成是一种思考链。
尽管已有这些进展,CoT 在图像生成中的探索仍处于初级阶段。与图像理解不同,图像生成需要跨模态对齐的复杂解释以及细粒度视觉细节的综合。为应对这些挑战,我们识别出两种可用于增强图像生成的 CoT 推理机制,如图 1 所示:
-
语义级 CoT(Semantic-level CoT) 是在图像生成前进行的关于要生成图像的文本推理。语义级 CoT 设计图像的全局结构,例如每个物体的外观和位置。如图 2 所示,当提示语需要推理时,语义级 CoT 也有助于推断应生成的目标。优化语义级 CoT 可以显式地管理提示词的规划与推理,从而简化后续图像 token 的生成过程。
-
令牌级 CoT(Token-level CoT) 是图像逐块(patch-by-patch)生成的中间过程,最初在 [19] 中提出。该过程可视为 CoT 的一种形式,其在有限空间内以每个先前 token 为条件生成下一个 token,类似于文本 CoT。与语义级 CoT 不同,令牌级 CoT 聚焦于低层次细节,如像素生成和相邻 patch 之间的视觉连贯性。优化令牌级 CoT 可同时提升图像生成质量和提示词与生成图像之间的一致性。
尽管已经识别出这两个层次的 CoT,仍存在一个关键问题未被解决:我们如何增强并协调这两个 CoT 机制以适用于文本生成图像? 当前主流的生成模型 [58, 61, 53, 28] 仅针对生成目标进行训练,缺乏专门用于语义级 CoT 推理的文本理解模块。虽然引入一个专门用于提示语解析的模型(如 LLM)[9] 在技术上可行,但这将大幅增加计算成本、系统复杂性和部署难度。近期出现了一种趋势,即在同一个模型中融合视觉理解与生成。基于 LMMs,统一多模态模型(Unified LMMs, ULMs)[67, 70, 79, 7] 不仅可以理解视觉输入,还能根据文本提示词生成图像。然而,这些模型的能力依然是解耦的,通常在两个独立阶段分别进行预训练,缺乏明确证据表明理解能力能对生成任务产生正向作用。
鉴于这些潜力与问题,我们从一个 ULM 出发进行增强,将语义级与令牌级 CoT 融合到一个统一框架中,用于文本生成图像任务。
为实现我们的目标,我们引入 BiCoT-GRPO,这是一种用于联合优化 ULM 中语义级与令牌级 CoT 的强化学习(RL)方法。我们选择 RL 而非监督式微调(SFT),主要有两个原因:第一,ULM 已具备语义级和令牌级 CoT 所需的基本能力,我们的目标仅是通过引导模型的自我探索来融合这两种能力;第二,RL 方法已被证明在提升推理能力方面非常有效,而这对双层次 CoT 都至关重要。
具体而言,我们首先指导 ULM 对提示词进行想象与规划,生成图像的整体蓝图,从而获得语义级 CoT。然后,我们将该结果作为条件输入 ULM,驱动后续图像的令牌级 CoT 生成。我们会在每个提示词下同时生成多个图像,并计算组相对奖励(group-relative reward),以在同一次迭代中优化两个层次的 CoT。
与具备明确奖励规则的理解类任务不同,图像生成往往缺乏这类标准,因此我们提出采用由多位视觉专家组成的奖励模型集成方案 [68, 64, 38, 19]。这种奖励设计具有两个核心目的:一是从多维度评估生成图像,以确保质量评估的可靠性;二是作为一种正则化手段,防止 ULM 针对单一奖励模型进行“投机”训练。
通过上述推理策略,我们提出了 T2I-R1,这是首个融合语义级与令牌级 CoT 的推理增强型文本生成图像模型。实证结果表明,该方法在 T2I-CompBench 和 WISE 基准上分别相较于基线方法提升了 13% 和 19% 的性能,甚至超过了先前最先进模型 FLUX.1。
定性分析显示,我们的方法使得模型能更贴合人类意图地理解提示词背后的真实含义,并在面对罕见场景时展现出更强的鲁棒性。
我们的贡献总结如下:
-
我们在自回归图像生成任务中提出了一种双层次推理流程,通过引入语义级和令牌级 CoT,实现高层次图像规划与低层次像素生成的解耦,从而实现更可靠的生成。
-
我们提出了 BiCoT-GRPO,一个新型强化学习框架,可联合优化两个层次的 CoT 推理,利用 ULM 的理解能力实现图像生成。同时,在奖励建模中,我们设计了一个集成多位视觉专家的鲁棒奖励系统。
-
最终模型 T2I-R1 融合了两个 CoT 层次并使用 BiCoT-GRPO 进行训练,在多个已建立基准测试中表现出显著性能提升,超越了 FLUX.1。
2 相关工作
统一生成与理解的 LMM(Unified Generation and Understanding LMM.)
近年来,将图像生成与图像理解统一到同一个 LMM 中的研究受到了广泛关注。基于大型语言模型(LLMs),让多模态大模型(LMMs)理解图像并输出文本是很自然的事情 [46, 30, 81, 16, 76]。然而,如何从 LMM 中生成图像仍是一个待探索的问题。图像生成的方法大致分为两个方向。
一种方法依赖于外部图像生成模型来完成生成过程 [11, 60, 59, 34, 62, 13, 80, 29]。这类方法通常使用文本生成图像的扩散模型(diffusion models)[53, 49],因其具有强大的生成能力。为了向生成器传递生成信息,LMM 会将隐式特征或显式的图像提示词传递给生成器。例如,EMU [60] 首先训练多模态大模型(LMM)输出与输入到该模型的 CLIP [51] 图像特征相同的表示。之后,使用预训练的 UNet [54] 或 Stable Diffusion [53],将这些输出特征作为生成图像的条件。
250508:训练时,把一张图像输入 CLIP → 得到一个图像特征向量 f C L I P f_{CLIP} fCLIP,然后输入一段文本提示(prompt)给 LMM,训练它的输出结果也要尽量还原出和 f C L I P f_{CLIP} fCLIP 一模一样的图像特征向量。这样做的目的是:让 LMM 学会在脑海中“预演”图像的特征表示,为后续真正生成图像做好准备。
另一种方向试图训练 LMM 直接生成由 VQGAN [12] 提供的离散 token,从而省去额外的生成器需求。DeepSeek-R1 [65, 32] 直接采用 VQGAN 编码器作为 LMM 的图像 tokenizer。然而,由于 VQGAN 编码器仅在图像重建任务上进行预训练,其生成的视觉 token 通常对图像理解帮助有限。
250508:DeepSeek-R1 采用 VQGAN 编码器将输入图像转换为离散的视觉 token,作为多模态大模型(LMM)的输入,就像处理文本 token 一样进行统一建模。在图像生成时,LMM 依据文本提示生成一串图像 token,随后再由 VQGAN 解码器还原为完整图像。这种方式让模型能端到端地理解和生成图像,省去了额外的图像生成器。
250508:VQGAN 编码器本质上是为了 图像重建任务而训练的,即:它擅长的是“还原图像细节”,而不是“理解语义信息”。
为提升理解能力,[67, 7, 41, 36] 提出将理解与生成任务分配给不同的视觉编码器。CLIP 编码器处理图像理解,VQGAN 编码器负责图像生成。同时,一些研究 [69, 50, 57] 尝试通过联合预训练,使视觉编码器具备图像理解与图像生成的双重能力。VILA-U [69] 使用对比损失(contrastive loss)[51] 进行文本-图像理解,同时结合重建损失 [12] 来保留图像细节。在联合预训练的帮助下,视觉编码器能够生成与文本对齐的离散视觉 token,LMM 随后接收这些 token 并将其用于图像理解和图像生成。
用于大型推理模型的强化学习(Reinforcement Learning for Large Reasoning Models.)
OpenAI 的 o1 [48] 推出后,在提升大型语言模型推理能力方面受到了广泛关注。之后,DeepSeek-R1 [17] 提出了基于规则奖励与 GRPO 训练机制的方法,引导模型在生成最终答案前执行更为细致的推理过程。该奖励机制主要关注答案的正确性和逻辑推理的完整性。
近期,已有多项研究将此类方法应用于多模态语言模型 [5, 43, 73, 75, 10, 22],并引入了如正确性与 IoU [39] 等任务相关的特定奖励。这类训练机制在多个高复杂度推理任务中表现出良好效果 [52, 26, 18],包括数学求解 [20, 42, 40, 77, 78] 和代码生成 [6, 2, 23]。
3 方法
3.1 预备知识
近年来,强化学习被广泛用于激发大型模型的推理能力。[56] 引入了 GRPO,它通过以 group-relative 方式消除价值函数并估计优势函数,从而增强了 PPO。对于一个特定的提示-答案对 ( p , a ) (p, a) (p,a),从旧策略 π old \pi_{\text{old}} πold 中采样得到 G G G 个个体响应 { o i } i = 1 G \{o_i\}_{i=1}^G {oi}i=1G。每个响应会被送入奖励函数以获取个体奖励 R i \mathcal{R}_i Ri,接着通过对该组内的奖励 { R i } i = 1 G \{\mathcal{R}_i\}_{i=1}^G {Ri}i=1G 进行标准化计算第 i i i 个响应的优势值:
A i = R i − mean ( { R i } i = 1 G ) std ( { R i } i = 1 G ) . (1) A_i = \frac{\mathcal{R}_i - \text{mean}(\{\mathcal{R}_i\}_{i=1}^G)}{\text{std}(\{\mathcal{R}_i\}_{i=1}^G)}. \tag{1} Ai=std({Ri}i=1G)Ri−mean({Ri}i=1G).(1)
GRPO 采用了类似于 PPO 的裁剪目标函数。此外,当前策略 π θ \pi_\theta πθ 与参考模型 π θ ref \pi_{\theta_{\text{ref}}} πθref 之间的 KL 惩罚项也被直接加入损失函数中:
J GRPO ( θ ) = E ( q , a ) ∼ D , { o i } i = 1 G ∼ π θ old ( ⋅ ∣ q ) [ 1 ∑ i = 1 G ∣ o