当前位置: 首页 > ds >正文

字节:视频一致性生成论文速读

一、引言

Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment 是北京字节跳动智能创作团队提出的一种新型视频生成方法,旨在解决主体一致性视频生成的难题。该方法通过平衡文本和图像的双重模态提示,实现文本和视觉内容的深度对齐,从而生成高质量的主体一致性视频。

二、技术背景

(一)视频生成领域的挑战

视频生成相较于图像生成面临更多挑战,尤其是多帧之间的连续性和一致性。随着扩散模型的兴起,视频生成技术得到了显著发展,但仍存在一些瓶颈,如文本到视频(Text-to-Video,T2V)的随机性较大,而图像到视频(Image-to-Video,I2V)的内容丰富度受限。

(二)主体一致性视频生成的需求

主体一致性视频生成(Subject-to-Video,S2V)要求从参考图像中提取主体元素,并根据文本指令生成与主体一致的视频,这在影视制作、广告生产等领域具有广泛的应用潜力。

三、Phantom的核心贡献

Phantom 通过重新设计联合文本-图像注入模型,并利用文本-图像-视频三元组数据学习跨模态对齐,实现了高保真度的主体一致性视频生成,解决了图像内容泄露和多主体混乱等问题。其主要贡献包括:

  • 概念层面 :首次明确 S2V 任务的定义,并阐明其与 T2V 和 I2V 的关系。

  • 技术层面 :提出新的数据管道构建跨模态对齐的三元组数据,有效解决信息泄露和内容混淆问题;提供统一框架,生成单主体和多主体一致性的视频。

  • 意义层面 :生成质量优于一些闭源商业解决方案,在影视行业或广告制作等场景具有广阔的应用前景。

四、数据管道

Phantom 构建了文本-图像-视频三元组数据结构,用于跨模态学习。其数据处理流程包括:

  • 视频采样与剪切 :从 Panda70M 和内部来源采样长视频,使用 AutoShot 和 PySceneDetect 将视频剪切成单场景片段,并过滤低质量、低美学度或低运动强度的片段。

  • 字幕生成与主题提取 :利用 Gemini 为过滤后的视频片段生成字幕,重点描述主体的外观、行为和场景。然后使用 LLM 分析字幕并提取主体词汇,作为 VLM 获得参考帧中的主体检测框的提示。

  • 跨视频片段配对 :采用改进的 CLIP 架构中的图像嵌入器对不同视频中检测到的主体进行配对,去除分值过高或过低的配对,以避免简单地复制粘贴输入图像。

五、框架

Phantom 的架构包括未训练的输入头和训练好的 MMDiT 模块。其关键设计如下:

  • 输入头 :由 3D VAE 编码器和继承自视频基础模型的 LLM 组成,分别对输入视频和文本进行编码。视觉编码器包含 VAE 和 CLIP,将图像特征与视频潜在特征以及文本特征进行组合,为模型提供低级细节信息和高级语义信息。

  • MMDiT 模块 :基于预训练的 T2V 和 I2V 模型进行改进,替换全自注意力为窗口注意力。提出动态信息注入策略,在注意力计算过程中,将一个或多个参考图像的信息动态注入,实现单主体和多主体一致性视频生成的统一架构。

六、训练和推理

(一)训练设置

采用修正流(RF)构建训练目标,调整噪声分布采样。训练分为两个阶段,第一阶段在 256p/480p 分辨率下训练 50k 次迭代,第二阶段加入混合 720p 数据,再训练 20k 次迭代以提升高分辨率生成能力。由于 VAE 的像素级重建目标可能掩盖 CLIP 特征,因此在训练中设置了较高的 VAE dropout 率以达到平衡。

(二)推理设置

Phantom 推理可接受 1 到 4 个参考图像,并通过给定的文本提示生成相应视频。在推理时需先通过 rephraser 调整文本提示,使其准确描述每个参考主体的外观和行为,避免相似主体之间的混淆。使用欧拉方法进行 50 步采样,利用分类器自由引导分离图像和文本条件。

七、实验

(一)评估材料

Phantom 从任意视频生成基础模型进行微调,重点关注主体一致性生成能力,并对人脸 ID 基于的视频生成进行独立评估。考虑到 S2V 缺乏现成基准,构建了特定测试集并定义了评估指标,包括 50 张不同场景的参考图像,涵盖人类、动物、产品等,每张图像配对 3 个不同的文本提示,共生成 450 个视频。还收集了 50 张肖像参考图像,用于独立评估 ID 一致性。

(二)定量结果

将 S2V 评估指标分为视频质量、文本-视频一致性和主体视频一致性三大类别。从结果来看,Phantom 在主体一致性(身份一致性)和提示遵循方面整体指标领先。对于多主体视频生成,由于自动化主体检测和匹配的错误率较高,进行了用户研究,结果显示 Phantom 的多主体性能与商业解决方案相当,部分指标还有优势。

(三)定性结果

通过对比几种典型情况的生成视频,发现 Vidu 和 Phantom 在主体一致性、视觉效果和文本响应方面表现相对平衡,而 Pika 在主体一致性方面表现不佳。Kling 则存在类似 I2V 方法的特征,如人物视频的第一帧几乎与输入参考图像完全匹配,导致虚拟试装场景的成功率不高。

(四)消融研究

  • 视觉编码器选择 :CLIP 提取语义信息,VAE 聚焦细节信息。仅使用 CLIP 特征时,生成的面部更平滑细致,但相似度降低;仅使用 VAE 特征时,面部更清晰但可能放大不良细节。结合 VAE 和 CLIP 特征更有优势。

  • 多主体混淆问题 :通过在训练时对齐文本描述与视频主体,确保每个主体都有不同的描述,在推理时使用 rephraser 调整输入文本提示,可显著提高多主体一致性生成的成功率。

八、结论

Phantom 是一种通过文本-图像-视频三元组学习实现跨模态对齐的主体一致性视频生成方法。通过重新设计联合文本-图像注入机制和动态特征融合,Phantom 在统一的单主体 / 多主体生成和人脸 ID 保持任务中表现出色,优于商业解决方案。未来的工作将致力于增强跨模态对齐、时空解耦、偏置感知训练、粒度控制和基础模型适应等方面,以进一步提升其性能和适用性。

核心技术汇总表

在这里插入图片描述

http://www.xdnf.cn/news/2055.html

相关文章:

  • 【滑动窗口+哈希表/数组记录】Leetcode 76. 最小覆盖子串
  • kafka整合flume与DStream转换
  • Linux软硬链接和动静态库(20)
  • mac brew 无法找到php7.2 如何安装php7.2
  • 【机器学习速记】面试重点/期末考试
  • 【音视频】⾳频处理基本概念及⾳频重采样
  • 企业级智能合同管理解决方案升级报告:道本科技携手DeepSeek打造智能合同管理新标杆
  • (六)机器学习---聚类与K-means
  • 基于AI应用创业IDEA:使用百度搜索开放平台的MCP广场智能推荐MCPServices服务
  • Java 安全:如何防止 DDoS 攻击?
  • 全栈国产化信创适配,构建安全可控的呼叫中心系统
  • uniapp-商城-37-shop 购物车 选好了 进行订单确认3 支付栏
  • 【vue】 实现浏览器自动播放音频的指南
  • MongoDB Shard Cluster
  • MySQL触法器
  • Cadence学习笔记之---原理图设计基本操作
  • 电子电子架构 --- 主机厂视角下ECU开发流程
  • 统计服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
  • 【XR手柄交互】Unity 中使用 InputActions 实现手柄控制详解(基于 OpenXR + Unity新输入系统(Input Actions))
  • MySQL表的操作 -- 表的增删改查
  • Linux 权限修改详解:chmod 命令与权限数字的秘密
  • 算法 | 基于SSA-CNN-LSTM(麻雀算法优化卷积长短期记忆神经网络)的股票价格预测(附完整matlab代码,公式,原理,可用于毕业论文设计)
  • 600W电源的EMC整改心得记录(PFC+LLC)
  • 【Chrony 时间同步双实验实操】从单节点校准到本地 NTP 服务器搭建详解
  • guvcview-源码记录
  • 项目质量管理
  • 风吸式杀虫灯环保优势
  • Coze高阶玩法 | 使用Coze制作思维认知提升视频,效率提升300%!(附保姆级教程)
  • Django之旅:第七节--模版继承
  • Git基本使用(很详细)