当前位置：首页 > web >正文

CVPR 2025 | 港中文 MMLab 提出文生图模型 T2I-R1，文生图进入R1时刻！

web 2025/6/26 17:51:44

香港中文大学 MMLab 提出了一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型 T2I-R1，该模型结合了语义级和 token 级的链式思维（CoT）推理过程，并通过强化学习进行增强。T2I-R1 旨在通过在图像生成的不同阶段应用 CoT 推理策略，提升生成质量和文本与图像的对齐度。

论文介绍

大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提升性能。然而，将此类推理策略应用于视觉生成领域仍未得到广泛探索。本文提出了 T2I-R1，这是一种新颖的推理增强型文本到图像生成模型，它由强化学习驱动，并采用双层 CoT 推理过程。具体而言，我们确定了两个可用于增强不同生成阶段的 CoT 层级：

用于提示高级规划的语义层 CoT；
用于逐块生成过程中低级像素处理的 token 层 CoT。

为了更好地协调这两个 CoT 层级，引入了具有生成奖励集合的 BiCoT-GRPO，它可以在同一训练步骤中无缝优化两个生成 CoT。通过将推理策略应用于基线模型 Janus-Pro，该方法取得了卓越的性能，在 T2I-CompBench 上提高了 13%，在 WISE 基准上提高了 19%，甚至超越了最先进的模型 FLUX.1。

方法概述

图像理解和生成任务中认知能力（CoT）的图示。在图像理解任务中，认知能力（CoT）是文本推理过程。在自回归视觉生成任务中，我们定义了两个级别的认知能力（CoT）：语义级认知能力（CoT）和标记级认知能力（CoT）。语义级认知能力（CoT）是图像生成之前的高级规划，以文本的形式呈现。标记级认知能力（CoT）是逐个图像块（patch）的中间生成过程，关注图像块内的局部像素细节，以图像标记的形式呈现。

T2I-R1 图像生成过程可视化。所有提示都需要推理，或包含不常见的场景。我们观察到，T2I-R1 能够成功推断出提示背后的真实意图，或对不常见的场景（文中突出显示）进行合理的想象，从而与基线模型 Janus-Pro 相比，产生了令人满意的结果。

BiCoT-GRPO 框架。 在步骤 1 中，指示模型根据图像提示生成语义级 CoT。在步骤 2 中，基于图像提示和语义级 CoT 生成图像，中间生成过程作为 token 级 CoT。生成的图像由视觉专家团队评估以获得奖励。从每个提示生成 N 张图像，以计算群体相对奖励并进行 GRPO 训练。

生成奖励集合示意图。使用 GPT-4o mini 在训练前提取对象及其属性。每个专门的奖励模型都会接收定制的信息输入，用于奖励计算。将所有奖励的平均值作为最终奖励。

实验结果

可视化结果。提供了四个模型针对同一问题的图像生成结果：基础模型、仅优化语义级 CoT 的模型、仅优化 token 级 CoT 的模型以及同时优化两个级别 CoT 的模型。

单个提示图像多样性的可视化结果。展示了仅对 token 级 CoT 进行优化的结果，以及同时对语义级和 token 级 CoT 进行优化的结果。

结论

论文介绍的 T2I-R1 是首个基于双层 CoT 推理过程的推理增强型文本转图像模型。作者识别了用于高级规划的语义级 CoT 和用于逐块生成的 token 级 CoT。通过提出的 BiCoT-GRPO 进一步整合了它们，这是一个在同一训练步骤中整合了两级 CoT 的强化学习框架。通过利用同时具备视觉理解和生成能力的 ULM，提出的方法无需使用单独的专用模型，同时实现了显著的性能提升，在 T2I-CompBench 上提升了 13%，在 WISE 基准上提升了 19%，甚至超越了 FLUX.1。定性分析表明，T2I-R1 能够更好地理解复杂的提示，推理用户意图，并以更高的鲁棒性处理不常见场景，从而为以推理为中心的生成系统建立了新的范式。

查看全文

http://www.xdnf.cn/news/12544.html