当前位置：首页 > backend >正文

【AI论文】HunyuanCustom：一种多模态驱动的定制视频生成架构

backend 2025/7/2 19:33:26

摘要：定制视频生成旨在在灵活的用户定义条件下生成特定主题的视频，但现有方法往往难以实现身份一致性和有限的输入方式。在本文中，我们提出了HunyuanCustom，这是一个多模态定制视频生成框架，强调主题一致性，同时支持图像、音频、视频和文本条件。基于HunyuanVideo，我们的模型首先通过引入基于LLaVA的文本图像融合模块来解决图像文本条件生成任务，以增强多模态理解，以及一个图像ID增强模块，该模块利用时间拼接来增强跨帧的身份特征。为了实现音频和视频条件生成，我们进一步提出了特定模态的条件注入机制：一个通过空间交叉注意力实现分层对齐的AudioNet模块，以及一个通过基于补丁的特征对齐网络集成潜在压缩条件视频的视频驱动注入模块。在单主体和多主体场景下的广泛实验表明，在ID一致性、真实性和文本视频对齐方面，HunyuanCustom显著优于最先进的开源和闭源方法。此外，我们验证了它在下游任务中的鲁棒性，包括音频和视频驱动的定制视频生成。我们的研究结果突出了多模态调节和保持身份的策略在推进可控视频生成方面的有效性。所有代码和模型都可以在github。Huggingface链接：Paper page，论文链接：2505.04512

研究背景和目的

研究背景

随着人工智能技术的飞速发展，视频生成领域取得了显著进展。近年来，开源和商业视频生成模型的涌现，极大地推动了视频内容创作在娱乐、教育、广告等多个领域的应用。然而，当前视频生成模型面临一个关键挑战：缺乏精确的可控性。在需要生成符合用户特定要求的视频时，现有模型往往难以满足需求，这限制了它们在需要精细定制场景中的实际应用。

可控视频生成通常聚焦于合成包含特定主体的视频，这一任务也被称为定制化视频生成。尽管已有一些方法专注于为单一人类身份生成视频，但它们无法处理任意对象。其他方法虽然扩展到了多主体生成，但在保持主体一致性和视频质量方面存在困难，且过于依赖单一模态（如图像驱动）的输入，限制了其更广泛的应用。

研究目的

本研究旨在解决上述挑战，提出一种名为HunyuanCustom的多模态定制化视频生成框架。该框架强调主体一致性，同时支持图像、音频、视频和文本等多种模态的输入条件，从而实现多模态主体中心化的视频定制生成。具体而言，本研究的目的包括：

提升主体一致性：通过引入文本-图像融合模块和图像ID增强模块，确保在视频生成过程中保持主体身份的一致性。
支持多模态输入：设计针对音频和视频模态的条件注入机制，使模型能够处理图像、音频、视频和文本等多种模态的输入条件。
实现精细可控的视频生成：通过多模态融合和主体中心化的视频生成方法，满足用户在不同应用场景下对视频内容的精细定制需求。

研究方法

模型架构

HunyuanCustom基于HunyuanVideo模型构建，主要包含以下几个关键模块：

文本-图像融合模块：利用LLaVA模型实现文本和图像的交互融合，增强模型对两种模态的理解能力。通过设计特定的模板，将图像信息嵌入到文本提示中，使模型能够同时理解文本描述和图像身份信息。
图像ID增强模块：通过时间维度上的图像信息拼接，利用视频模型在时间序列信息传输方面的效率，增强视频中的主体身份一致性。
音频条件注入机制（AudioNet）：提取多级深度音频特征，并通过空间交叉注意力机制将其注入到相应的视频特征中，实现音频和视频的层次化对齐。
视频条件注入机制：通过压缩条件视频到潜在空间，并设计视频补丁化模块进行视频-潜在特征对齐，然后将新的身份解缠视频条件模块引入，确保视频特征能够高效地注入到潜在空间中。

数据处理

为了确保高质量的数据输入，本研究对视频数据进行了严格的处理：

数据筛选和预处理：使用PySceneDetect分割原始视频为单镜头片段，去除包含过多文本、字幕、水印和标志的视频片段，并对视频进行裁剪和对齐，统一视频尺寸和时长。
主体提取：针对单主体、非人类主体和多主体场景，分别采用不同的方法提取视频中的主要主体，并进行必要的过滤和平衡采样。
视频分辨率标准化和标注：计算主体联合边界框，确保裁剪区域包含至少70%的联合边界框面积，并定义多种长宽比以支持多分辨率输出。同时，使用结构化视频标注模型为视频添加详细描述信息，增强视频字幕的鲁棒性和性能。

训练过程

采用Flow Matching框架训练视频生成模型，通过最小化预测速度与真实速度之间的均方误差来优化模型参数。同时，为了赋予模型更广泛的表征能力，使其能够捕捉和学习更复杂的模式，对预训练的视频生成模型和LLaVA模型的权重进行了全面微调。

研究结果

定量评估

在单主体和多主体定制化视频生成任务中，HunyuanCustom在多个关键指标上均表现出色，包括主体一致性（Face-Sim和DINO-Sim）、文本-视频对齐（CLIP-B-T）、时间一致性（Temp-Consis）和动态程度（DD）。具体而言，HunyuanCustom在主体一致性方面显著优于其他方法，同时在文本-视频对齐和时间一致性方面也表现出色。尽管在动态程度方面略逊于某些方法，但整体而言，HunyuanCustom在定制化视频生成任务中展现了卓越的性能。

定性评估

通过可视化比较，HunyuanCustom生成的视频在主体一致性、视频质量和多样性方面均优于其他方法。特别是在多主体场景和音频驱动的视频生成任务中，HunyuanCustom能够生成高质量且主体身份保持一致的视频。此外，HunyuanCustom在虚拟人广告、虚拟试穿和歌唱虚拟人等应用场景中也展现了强大的潜力。