【T2I】DreamFuse: Adaptive Image Fusion with Diffusion Transformer
CODE:2025
DreamFuse: Adaptive Image Fusion with Diffusion Transformer
Abstract
图像融合旨在将前景对象与背景场景无缝融合,产生逼真和谐的融合图像。与直接将对象插入背景的现有方法不同,自适应和交互式融合仍然是一项具有挑战性但又吸引人的任务。它要求前景与背景环境进行调整或交互,从而实现更连贯的集成。为了解决这个问题,我们提出了一个迭代的人在循环数据生成管道,它利用有限的初始数据和不同的文本提示来生成跨各种场景和交互的融合数据集,包括放置、持有、穿着和风格转移。在此基础上,我们提出了一种基于扩散变换(Diffusion Transformer, DiT)模型的新方法DreamFuse,用于生成具有前景和背景信息的一致和谐的融合图像。DreamFuse采用位置仿射机制,将前景的大小和位置注入背景,通过共享注意力实现前景和背景的有效交互。此外,我们采用基于人类反馈的局部直接偏好优化(localization Direct Preference Optimization)对DreamFuse进行优化,增强背景一致性和前景和谐性。DreamFuse在实现和谐融合的同时,将融合结果推广到文本驱动的属性编辑。
Introduction
近年来,除了纯粹由文本提示驱动生成图像之外,越来越多的人开始关注由特定前景对象引导生成定制图像[1,27,31],或者在指定的背景区域[44]进行图像编辑和融合。进一步,有几种方法旨在通过调整细节来实现前景和背景的和谐融合,如照明[47]、阴影[33]和亮度对比度一致性[37],使融合后的图像看起来更自然。其他方法[2,7,41]通过修改前景对象的方向、姿势或样式来增强融合,同时保留其身份属性,从而更好地适应背景。然而,这些方法大多侧重于直接将前景对象放置到背景场景中。相比之下,实际场景通常涉及更多样化和互动的情况,例如部分遮挡,交替可见,或物体被握住,磨损或融入场景的交互。
处理如此复杂的融合场景的一个主要挑战是缺乏合适的数据集。我们利用gpt - 40过滤掉低质量的融合数据,如不匹配的前景或退化的图像,最终构建一个8万张高质量、多场景、多尺度融合图像样本的数据集。
图像融合的另一个关键挑战是确保背景一致性和前景和谐。一些方法[2,7]依靠蒙版或边界框来放置前景,混合蒙版外的背景以保持一致性。然而,这些方法往往不能真实地渲染阴影或遮罩之外的反射效果,限制了融合结果的真实感。其他方法[19,39]通过反演重建融合后的图像,提高了前景的和谐,但往往会损害背景的一致性。为了解决这个问题,我们提出了DreamFuse,一个基于DiT的自适应图像融合框架。通过引入共享关注,我们在融合图像生成时同时对前景和背景进行约束,同时利用位置仿射引入前景的位置和比例,而不限制其可编辑区域。此外,我们采用局部直接偏好优化(LDPO)来进一步优化融合图像的前景和背景区域,确保更好地符合人类偏好。实验结果表明,DreamFuse在各种场景下都表现得非常好。如图图所示,DreamFuse为真实世界的图像产生高度逼真的融合效果。在训练过程中,将一定比例的融合图像描述作为提示信息。当给定文本提示时,DreamFuse会有效地响应输入,并在融合的场景中启用属性修改,例如将汽车变成黄金。
贡献:
• 我们提出了一个迭代的“人在循环”数据生成管道,并构建了一个包含80k个不同融合场景的综合融合数据集。
• 我们提出了DreamFuse,一个基于DiT的融合框架,它利用位置仿射和LDPO策略更自然、更自适应地将前景融入背景。
• 我们的方法在各种基准测试中优于最先进的方法,并且在现实世界和非分布场景中仍然有效。
Related Work
Customized Image Generation. 自定义图像生成旨在基于文本提示或参考图像创建用户特定的图像。
Image Fusion. 图像融合的目标是将目标从前景图像无缝地整合到背景图像中。
Human Feedback Learning. 现在,许多方法利用人类反馈学习,使生成的图像更符合用户的偏好。一些方法[17,42,43]训练奖励模型来理解人类的偏好,并通过奖励反馈学习来提高生成质量。其他[14,36,48]利用人类比较数据直接优化最能满足人类偏好的策略。对于图像融合任务,我们提出了局部直接偏好优化,该优化侧重于特定区域的优化,以增强融合图像的背景一致性和和谐性。
Methodology
如图的数据格式所示,图像融合任务通常涉及以下类型的图像:前景图像F∈RH×W×3与掩码Fm∈RH×W,背景图像B∈RH×W×3,融合图像I∈RH×W×3,与被融合物体相关联的融合掩码Im∈RH×W。遮罩Fm和Im主要用于表示前景对象的位置和大小。在实际应用中,只需要掩模的质心和边界框。
Iterative Human-in-the-Loop Data Generation
Data Startup. 与从融合图像开始分割前景并使用inpainting生成背景的方法[7,34]不同,我们的目标是创建具有更丰富场景和更多样化前景融合的更高质量融合数据。为此,我们设计了一个迭代的、human-in-the-loop的数据生成过程。我们首先从主题驱动数据集[31]中提取一对高质量前景F和融合图像I。然后,我们手动细化绘制区域,以去除前景对象及其效果,如反射和阴影,创建高质量的背景图像b。总共收集了86个初始样本,并使用gpt - 40生成了相应的描述C。然后将这些数据输入图中所示的数据生成模型进行训练。
Data Generation Model Design. 我们采用Flux作为基本模型,分批输入我们整理好的融合样本G=(F, B, I),提示CG=(CF, CB, CI)。将图像和提示编码为图像嵌入Ei∈Rh×w×d和文本嵌入Ec,并辅以可学习的标签嵌入来区分前景和背景。在Flux的RoPE机制中,它使用一个2D位置索引Pidx = (i, j),∀i∈[0,h], j∈[0,w]来表示图像位置,我们可以选择为F、B和i引入一个Pidx的偏移量∆,如下所示:
前景图像F 背景图像B 融合图像I
在训练过程中,添加偏移量可以提高模型生成不同融合场景的能力,但在不同分辨率下表现不佳,而忽略偏移量会产生过于一致的结果,但对多尺度数据的适应性很好。在此基础上,我们使用两个模型——有和没有偏移——来生成不同的、多尺度的样本。补充材料提供了进一步的细节。
为了建立F、B和I之间的联系,我们将DiT中原有的独立注意机制修改为共享注意(SA)机制。如图图所示,每个样本的文本嵌入和图像嵌入经过调制层和线性层处理后,将它们连接起来,形成关注查询Qg = [Qc g;Qi g], g∈G,其中c和i分别表示文本和图像分量。然后,我们将所有样本中的键和值的图像分量连接起来:Kg = [Kc g;Ki F;Ki B;Ki I], Vg = [Vc g;Vi F;B;[qh]。共享注意力计算为:
在应用共享注意力后,模型获得了生成相似图像的初始能力。然后,我们使用LoRA[9]对模型进行微调,以生成高质量的图像融合样本。
场景概括性和风格可变性。我们的初始数据只包含物体放置场景。在对数据生成模型进行微调后,它展示了推广到更多不同场景提示的能力。在随后的迭代中,我们利用gpt - 40与开源提示来生成融合提示CG,扩展前景对象,包括动物,宠物,产品,肖像和徽标,同时将背景场景分类为室内和室外设置。融合场景进一步多样化,包括放置,手持,标志打印,可穿戴和风格转移。此外,我们观察到数据生成模型有效地响应现有的风格lora。因此,我们整合了微调风格的lora,如景深、现实主义和种族,以进一步增强场景多样性和艺术风格的融合数据,减轻Flux基础模型的风格偏差。这个扩展过程是迭代的:在前一步生成的数据上对模型进行微调,生成额外的数据,并手动策划高质量的融合样本,作为下一轮微调的输入。
Position Matching. 为了确定前景物体在背景中的位置,使用RoMA[4]在前景和融合图像之间进行特征匹配,将结果转换为边界框。然后利用SAM2[25]基于这些边界框从融合后的图像中分割出前景目标。对于前景对象,我们使用内部分割模型来获得Fm。然后使用Im和Fm的质心和边界框计算前景对象在背景中的位置和大小。
Adaptive Image Fusion Framework
在图像融合任务中,需要考虑三个关键方面:(1)如何建立背景、前景和融合图像之间的关系模型;(2)如何将前景物体的位置和大小信息融入背景;(3)如何保证融合图像的背景一致性和前景和谐。
Condition-aware Modeling. 受[31]工作的启发,我们将背景和前景作为条件建模,将融合后的图像作为去噪后的目标。给定一个固定的数据集D = {(ci, xf, xb, xi)},每个样本都包含融合图像ci的文本描述,以及表示前景xf,背景xb和融合图像xi的图像。我们采用基于flux的DiT架构,使用前景xf和背景xb作为固定时间步长0的条件。此外,在训练期间,大多数文本提示符ci以概率p随机删除,替换为空字符串,而保留一部分提示符以保持网络的文本响应能力。DiT网络的任务是对时间步长t的噪声融合图像xti进行去噪,定义为:
式中,xn ~ q(xn)表示噪声样本,t∈[0,1]。训练DiT模型通过最小化Flow Matching目标Lnoise(θ)来回归速度场ϵθ(xt i, xf, xb, t):
其中目标速度场为ε = xn−xi。在DiT注意机制中,所有组件被连接为[Dropout(ci, p),xi, xf, xb],从而实现联合注意计算,如图所示。该机制通过注意层有效地将背景和前景信息融合到融合图像中。
Positional Affine. 我们探索了三种整合位置信息的方法,如图图所示。最直接的方法是直接对前景进行变换,使其与背景中所需的位置和大小相匹配(图 (b))。但该方法在缩放过程中压缩了前景信息,不利于小对象的插入。另一种方法是使用前景的放置信息,例如定位后的掩模,作为条件。该信息通过标记器进行编码,并引入注意力计算(图 (c))。然而,这种方法严重依赖于标记器,需要大量的数据来优化其位置信息的表示。为了更直接有效地利用前景的相对位置关系,我们提出了位置仿射方法,如图图 (a)所示。
具体来说,前景和背景都被赋予二维位置索引,∀i∈[0,h], j∈[0,w],以表示它们在图像中的空间关系。当将前景置于背景的目标区域
时,仿射变换矩阵a的计算公式如下:
接下来,将目标区域的位置索引Pr idx通过逆仿射变换映射到前景:
我们利用Pf ' idx作为前景的新位置索引。利用这种位置仿射变换,利用DiT对位置索引的响应性,我们直接将前景的位置和大小信息合并到背景中的目标位置中。这种方法消除了对前景进行缩放或压缩的需要,使位置信息的集成更加有效和合理。
Localized Preference Optimization.
在图像融合过程中,保持背景的一致性和前景的和谐是至关重要的。当直接生成去噪融合图像时,容易出现背景不一致或前景不协调等问题。为了解决这个问题,我们提出了基于扩散- dpo的局部直接偏好优化(LDPO),使扩散网络能够在图像融合的背景下更有效地学习人类的偏好。
构建了一个由额外的融合样本对组成的数据集,其中xw i比xl i更符合人类偏好。例如,如图所示,xl i可以是通过直接将前景复制粘贴到背景上获得的融合图像。为简单起见,我们将模型输入定义为
。Diffusion-DPO通过目标LDPO(θ, xw t, xl t)优化策略以满足人的偏好:
其中ϵθ(·)和ϵref(·)分别为优化模型和参考模型的预测值,β为正则化系数,σ为sigmoid函数。最小化LDPO使预测速度场ϵθ更接近所选数据的目标速度ϵw,而偏离ϵl(被拒绝的数据)。然而,并非xl的所有方面都不符合人类的偏好。例如,在复制-粘贴融合图像中,背景的一致性更符合人类的偏好。因此,我们对xw i和xl i采用本地化DPO策略。将本地化前景区域M(f)定义为:
其中,f表示像素位置,Bbox(xf)表示前景对象边界框中的区域,α是适度扩展该区域的扩张因子。优化后的目标LLDPO(θ, xw t, xl t,M)定义为:
这种策略确保了背景的一致性,同时使前景更加和谐,并与人类的偏好保持一致。
Experiments
晚点补