【AI论文】HunyuanCustom:一种多模态驱动的定制视频生成架构
摘要:定制视频生成旨在在灵活的用户定义条件下生成特定主题的视频,但现有方法往往难以实现身份一致性和有限的输入方式。 在本文中,我们提出了HunyuanCustom,这是一个多模态定制视频生成框架,强调主题一致性,同时支持图像、音频、视频和文本条件。 基于HunyuanVideo,我们的模型首先通过引入基于LLaVA的文本图像融合模块来解决图像文本条件生成任务,以增强多模态理解,以及一个图像ID增强模块,该模块利用时间拼接来增强跨帧的身份特征。 为了实现音频和视频条件生成,我们进一步提出了特定模态的条件注入机制:一个通过空间交叉注意力实现分层对齐的AudioNet模块,以及一个通过基于补丁的特征对齐网络集成潜在压缩条件视频的视频驱动注入模块。在单主体和多主体场景下的广泛实验表明,在ID一致性、真实性和文本视频对齐方面,HunyuanCustom显著优于最先进的开源和闭源方法。 此外,我们验证了它在下游任务中的鲁棒性,包括音频和视频驱动的定制视频生成。 我们的研究结果突出了多模态调节和保持身份的策略在推进可控视频生成方面的有效性。 所有代码和模型都可以在github。Huggingface链接:Paper page,论文链接:2505.04512
研究背景和目的
研究背景
随着人工智能技术的飞速发展,视频生成领域取得了显著进展。近年来,开源和商业视频生成模型的涌现,极大地推动了视频内容创作在娱乐、教育、广告等多个领域的应用。然而,当前视频生成模型面临一个关键挑战:缺乏精确的可控性。在需要生成符合用户特定要求的视频时,现有模型往往难以满足需求,这限制了它们在需要精细定制场景中的实际应用。
可控视频生成通常聚焦于合成包含特定主体的视频,这一任务也被称为定制化视频生成。尽管已有一些方法专注于为单一人类身份生成视频,但它们无法处理任意对象。其他方法虽然扩展到了多主体生成,但在保持主体一致性和视频质量方面存在困难,且过于依赖单一模态(如图像驱动)的输入,限制了其更广泛的应用。
研究目的
本研究旨在解决上述挑战,提出一种名为HunyuanCustom的多模态定制化视频生成框架。该框架强调主体一致性,同时支持图像、音频、视频和文本等多种模态的输入条件,从而实现多模态主体中心化的视频定制生成。具体而言,本研究的目的包括:
- 提升主体一致性:通过引入文本-图像融合模块和图像ID增强模块,确保在视频生成过程中保持主体身份的一致性。
- 支持多模态输入:设计针对音频和视频模态的条件注入机制,使模型能够处理图像、音频、视频和文本等多种模态的输入条件。
- 实现精细可控的视频生成:通过多模态融合和主体中心化的视频生成方法,满足用户在不同应用场景下对视频内容的精细定制需求。
研究方法
模型架构
HunyuanCustom基于HunyuanVideo模型构建,主要包含以下几个关键模块:
- 文本-图像融合模块:利用LLaVA模型实现文本和图像的交互融合,增强模型对两种模态的理解能力。通过设计特定的模板,将图像信息嵌入到文本提示中,使模型能够同时理解文本描述和图像身份信息。
- 图像ID增强模块:通过时间维度上的图像信息拼接,利用视频模型在时间序列信息传输方面的效率,增强视频中的主体身份一致性。
- 音频条件注入机制(AudioNet):提取多级深度音频特征,并通过空间交叉注意力机制将其注入到相应的视频特征中,实现音频和视频的层次化对齐。
- 视频条件注入机制:通过压缩条件视频到潜在空间,并设计视频补丁化模块进行视频-潜在特征对齐,然后将新的身份解缠视频条件模块引入,确保视频特征能够高效地注入到潜在空间中。
数据处理
为了确保高质量的数据输入,本研究对视频数据进行了严格的处理:
- 数据筛选和预处理:使用PySceneDetect分割原始视频为单镜头片段,去除包含过多文本、字幕、水印和标志的视频片段,并对视频进行裁剪和对齐,统一视频尺寸和时长。
- 主体提取:针对单主体、非人类主体和多主体场景,分别采用不同的方法提取视频中的主要主体,并进行必要的过滤和平衡采样。
- 视频分辨率标准化和标注:计算主体联合边界框,确保裁剪区域包含至少70%的联合边界框面积,并定义多种长宽比以支持多分辨率输出。同时,使用结构化视频标注模型为视频添加详细描述信息,增强视频字幕的鲁棒性和性能。
训练过程
采用Flow Matching框架训练视频生成模型,通过最小化预测速度与真实速度之间的均方误差来优化模型参数。同时,为了赋予模型更广泛的表征能力,使其能够捕捉和学习更复杂的模式,对预训练的视频生成模型和LLaVA模型的权重进行了全面微调。
研究结果
定量评估
在单主体和多主体定制化视频生成任务中,HunyuanCustom在多个关键指标上均表现出色,包括主体一致性(Face-Sim和DINO-Sim)、文本-视频对齐(CLIP-B-T)、时间一致性(Temp-Consis)和动态程度(DD)。具体而言,HunyuanCustom在主体一致性方面显著优于其他方法,同时在文本-视频对齐和时间一致性方面也表现出色。尽管在动态程度方面略逊于某些方法,但整体而言,HunyuanCustom在定制化视频生成任务中展现了卓越的性能。
定性评估
通过可视化比较,HunyuanCustom生成的视频在主体一致性、视频质量和多样性方面均优于其他方法。特别是在多主体场景和音频驱动的视频生成任务中,HunyuanCustom能够生成高质量且主体身份保持一致的视频。此外,HunyuanCustom在虚拟人广告、虚拟试穿和歌唱虚拟人等应用场景中也展现了强大的潜力。
消融研究
通过消融研究,验证了文本-图像融合模块和图像ID增强模块在HunyuanCustom中的有效性。结果表明,移除这些模块会导致主体一致性显著下降,进一步证明了它们在保持主体身份一致性方面的重要作用。
研究局限
尽管HunyuanCustom在定制化视频生成任务中取得了显著成果,但仍存在一些局限性:
- 计算资源需求:由于HunyuanCustom支持多模态输入和复杂的模型架构,其对计算资源的需求较高,可能限制了在一些资源受限环境下的应用。
- 数据依赖:模型的性能高度依赖于训练数据的质量和多样性。在数据稀缺或质量不高的场景下,模型的性能可能会受到影响。
- 复杂场景下的挑战:在处理极其复杂或模糊的场景时,HunyyanCustom可能仍难以保持完美的主体一致性和视频质量。
未来研究方向
针对HunyuanCustom的局限性和当前研究的不足,未来的研究方向可以包括:
- 优化模型架构:探索更轻量级且高效的模型架构,以减少计算资源的需求,并提高模型在资源受限环境下的适用性。
- 增强数据多样性:通过数据增强和合成技术,丰富训练数据的多样性和质量,提高模型在复杂场景下的泛化能力。
- 深入研究多模态融合:进一步探索多模态融合的有效方法,提高模型对不同模态信息的理解和利用能力,从而实现更精细可控的视频生成。
- 拓展应用场景:将HunyuanCustom应用于更多实际场景中,如虚拟现实、增强现实和智能交互等,验证其在实际应用中的有效性和潜力。
综上所述,HunyuanCustom作为一种多模态定制化视频生成框架,在主体一致性、多模态输入支持和精细可控的视频生成方面取得了显著成果。未来的研究将致力于优化模型架构、增强数据多样性、深入研究多模态融合以及拓展应用场景,以进一步推动定制化视频生成技术的发展。