当前位置: 首页 > web >正文

CVPR 2025 | 港中文 MMLab 提出文生图模型 T2I-R1,文生图进入R1时刻!

香港中文大学 MMLab 提出了一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型 T2I-R1,该模型结合了语义级和 token 级的链式思维(CoT)推理过程,并通过强化学习进行增强。T2I-R1 旨在通过在图像生成的不同阶段应用 CoT 推理策略,提升生成质量和文本与图像的对齐度。

相关链接

  • 论文:https://arxiv.org/pdf/2505.00703

  • 代码:https://github.com/CaraJ7/T2I-R1

论文介绍

大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提升性能。然而,将此类推理策略应用于视觉生成领域仍未得到广泛探索。本文提出了 T2I-R1,这是一种新颖的推理增强型文本到图像生成模型,它由强化学习驱动,并采用双层 CoT 推理过程。具体而言,我们确定了两个可用于增强不同生成阶段的 CoT 层级:

  1. 用于提示高级规划的语义层 CoT;

  2. 用于逐块生成过程中低级像素处理的 token 层 CoT。

为了更好地协调这两个 CoT 层级,引入了具有生成奖励集合的 BiCoT-GRPO,它可以在同一训练步骤中无缝优化两个生成 CoT。通过将推理策略应用于基线模型 Janus-Pro,该方法取得了卓越的性能,在 T2I-CompBench 上提高了 13%,在 WISE 基准上提高了 19%,甚至超越了最先进的模型 FLUX.1。

方法概述

图像理解和生成任务中认知能力(CoT)的图示。在图像理解任务中,认知能力(CoT)是文本推理过程。在自回归视觉生成任务中,我们定义了两个级别的认知能力(CoT):语义级认知能力(CoT)和标记级认知能力(CoT)。语义级认知能力(CoT)是图像生成之前的高级规划,以文本的形式呈现。标记级认知能力(CoT)是逐个图像块(patch)的中间生成过程,关注图像块内的局部像素细节,以图像标记的形式呈现。

T2I-R1 图像生成过程可视化。所有提示都需要推理,或包含不常见的场景。我们观察到,T2I-R1 能够成功推断出提示背后的真实意图,或对不常见的场景(文中突出显示)进行合理的想象,从而与基线模型 Janus-Pro 相比,产生了令人满意的结果。

BiCoT-GRPO 框架。 在步骤 1 中,指示模型根据图像提示生成语义级 CoT。在步骤 2 中,基于图像提示和语义级 CoT 生成图像,中间生成过程作为 token 级 CoT。 生成的图像由视觉专家团队评估以获得奖励。从每个提示生成 N 张图像,以计算群体相对奖励并进行 GRPO 训练。

生成奖励集合示意图。使用 GPT-4o mini 在训练前提取对象及其属性。每个专门的奖励模型都会接收定制的信息输入,用于奖励计算。将所有奖励的平均值作为最终奖励。

实验结果

可视化结果。提供了四个模型针对同一问题的图像生成结果:基础模型、仅优化语义级 CoT 的模型、仅优化 token 级 CoT 的模型以及同时优化两个级别 CoT 的模型。

单个提示图像多样性的可视化结果。展示了仅对 token 级 CoT 进行优化的结果,以及同时对语义级和 token 级 CoT 进行优化的结果。

结论

论文介绍的 T2I-R1 是首个基于双层 CoT 推理过程的推理增强型文本转图像模型。作者识别了用于高级规划的语义级 CoT 和用于逐块生成的 token 级 CoT。通过提出的 BiCoT-GRPO 进一步整合了它们,这是一个在同一训练步骤中整合了两级 CoT 的强化学习框架。通过利用同时具备视觉理解和生成能力的 ULM,提出的方法无需使用单独的专用模型,同时实现了显著的性能提升,在 T2I-CompBench 上提升了 13%,在 WISE 基准上提升了 19%,甚至超越了 FLUX.1。定性分析表明,T2I-R1 能够更好地理解复杂的提示,推理用户意图,并以更高的鲁棒性处理不常见场景,从而为以推理为中心的生成系统建立了新的范式。

http://www.xdnf.cn/news/12544.html

相关文章:

  • 让敏感数据在流转与存储中始终守护在安全范围
  • mysql的分页场景下,页数越大查询速度越慢的解决方法
  • K-Means颜色变卦和渐变色
  • linux系统终端远程控制和传输方式
  • 【 *p取出内容 a得到地址】
  • clickhouse 学习总结
  • KuiperInfer跟学第二课——张量的构建与实现
  • 什么是质量管理系统?质量管理系统都有哪些功能?
  • 5G网络中频段的分配
  • 无公网IP外网可访问项目研发管理软件 codes
  • AI界的“专家会诊”:MoE模型如何让AI变得更聪明?
  • Java多态机制深度解析
  • 在网页加载时自动运行js的方法(2025最新)
  • Linux 前后端项目问题排查命令手册
  • 量化面试绿皮书:5. 扑克牌游戏概率与期望值
  • 深入理解Java单例模式:确保类只有一个实例
  • android app 一个 crash的解决过程!
  • count() + case when统计问题
  • Next.js+prisma开发二
  • 【LLMs篇】14:扩散语言模型的理论优势与局限性
  • H_Prj06 8088单板机的串口
  • 贝叶斯网络_TomatoSCI分析日记
  • vanna+deepseek+chainlit 实现自然语言转SQL的精度调优
  • 一种全新的非对称加密算法
  • 豪斯多夫距离 (Hausdorff Distance)在机器人轨迹规划中的应用
  • Kubernetes指标实现有效的集群监控和优化
  • 免费批量图片格式转换工具
  • usbutils工具的使用帮助
  • 【时时三省】(C语言基础)局部变量和全局变量
  • CSDN文章下载到本地的完整指南