当前位置: 首页 > news >正文

阿里视频创建和编辑的一体化模型论文速读:Wan2.1-VACE-14B

VACE: All-in-One Video Creation and Editing

一、研究背景与动机

近年来,随着扩散模型的快速发展,图像和视频生成领域取得了显著进展。从早期的文本到图像(text-to-image)和文本到视频(text-to-video)的基础预训练模型,到如今各种下游任务和应用的涌现,如重绘(repainting)、编辑(editing)、可控生成(controllable generation)、帧参考生成(frame reference generation)以及身份引用视频合成(ID-referenced video synthesis)等,这些都凸显了视觉生成领域的复杂性和多样性。

然而,现有的视频生成模型面临诸多挑战。一方面,视频生成需要兼顾时间和空间维度的一致性,这增加了生成的难度;另一方面,不同的视频任务需要多样化的输入模态,如何统一这些输入并确保时空一致性成为亟待解决的问题。此外,当前大多数视频生成方法都是针对单一任务的模型框架,缺乏统一性,难以满足复杂创意场景的需求。因此,开发一个能够整合多种视频任务的统一模型架构具有重要意义。

二、VACE 模型架构与方法

(一)多模态输入与视频任务分类

VACE 模型整合了文本、图像、视频和掩码等多模态输入,以满足不同视频生成和编辑任务的需求。研究者将现有视频任务根据多模态输入要求分为五类:

  1. 文本到视频生成(T2V) :仅以文本为输入进行基础视频创作。

  2. 引用到视频生成(R2V) :需要额外的图像作为参考输入,确保指定内容(如人脸、动物或其他物体主体或视频帧)出现在生成视频中。

  3. 视频到视频编辑(V2V) :对提供的整个视频进行更改,如色彩化、风格化、可控生成等。控制信号可以表示并存储为 RGB 视频,包括深度、灰度、姿态、涂鸦、光流和布局等类型。

  4. 掩码视频到视频编辑(MV2V) :仅在提供的三维感兴趣区域(3D ROI)内对输入视频进行更改,并与其他未更改区域无缝融合,如修复(inpainting)、外绘(outpainting)、视频扩展等。通过额外的时空掩码来表示 3D ROI。

  5. 任务组合 :涵盖上述四种视频任务的所有组合可能性,实现多条件和参考控制的长视频生成。

(二)视频条件单元(VCU)

为统一多样化的输入条件,研究者提出了视频条件单元(VCU),将文本提示、视频帧序列和掩码序列整合为统一输入格式,表示为 V = [T; F; M]。其中,T 为文本提示,F 为上下文视频帧序列,M 为掩码序列。F 和 M 在空间尺寸(h×w)和时间尺寸(n)上对齐。在不同任务中,VCU 通过插入额外的参考帧、设置掩码值等方式灵活适配,以支持任务组合,满足长视频的多条件和参考控制生成需求。

(三)模型架构

基于扩散Transformer(DiTs)结构构建 VACE 模型,使其支持多模态 VCU 输入。主要涉及以下几个关键部分:

  1. 上下文标记化(Context Tokenization)

    • 概念解耦(Concept Decoupling) :将自然视频与控制信号(如深度、姿态等)的不同视觉概念进行分离,基于掩码生成两个相同形状的帧序列:Fc = F×M(包含待更改像素的响应帧)和 Fk = F×(1−M)(包含保留像素的非活动帧)。例如,在 R2V 中,参考图像和 V2V 中未更改部分进入 Fk,控制信号和待更改像素进入 Fc。

    • 上下文潜在编码(Context Latent Encoding) :将 Fc、Fk 和 M 编码到高维特征空间,与噪声视频潜在变量 X 保持时空一致性。Fc 和 Fk 经视频 VAE 处理并映射到与 X 相同的潜在空间,参考图像单独编码后沿时间维度拼接,M 直接reshape和插值。

    • 上下文嵌入器(Context Embedder) :扩展嵌入层,将 Fc、Fk 和 M 在通道维度拼接并标记化为上下文标记,其权重部分来自原始视频嵌入器,部分初始化为零。

  2. 全面微调与上下文适配器微调(Fully Fine-Tuning and Context Adapter Tuning)

    • 全面微调(Fully Fine-Tuning) :将上下文标记与噪声标记 X 结合,训练时更新 DiT 和新引入的上下文嵌入器的所有参数。

    • 上下文适配器微调(Context Adapter Tuning) :为避免全面微调并加快收敛,提出一种 Res-Tuning 方式。从原始 DiT 中复制若干 Transformer Blocks 形成分布式级联的上下文块,处理上下文标记和文本标记,输出插入 DiT 块作为辅助信号,仅训练上下文嵌入器和上下文块,冻结 DiT 参数。

三、数据集构建与 VACE-Benchmark

(一)数据构建

为满足 VACE 模型的多任务需求,研究者进行了一系列数据处理和分析:

  1. 视频数据初步筛选与分析 :通过镜头切片,基于分辨率、审美分数和运动幅度初步过滤视频数据。

  2. 目标检测与实例级分析 :使用 RAM 和 Grounding DINO 对视频首帧进行标记和检测,结合 SAM2 的传播操作进行视频分割,获得实例级信息,并在时间维度上根据掩码面积阈值计算有效帧比率,筛选合适实例。

  3. 任务特定数据处理 :针对不同任务特点构建数据,如从过滤后的视频中预提取深度、涂鸦、姿态、光流等信息用于可控视频生成任务;对视频中的随机实例进行掩码处理构建重绘任务数据;提取关键帧支持扩展任务的多种类型;从视频中提取人脸或物体实例并进行数据增强构建引用任务数据等。同时,对所有涉及掩码的操作进行任意增强,以满足不同粒度的局部生成需求。

(二)VACE-Benchmark

为系统评估视频相关下游任务,研究者提出了 VACE-Benchmark。共收集了 240 个按来源分类的高质量视频,涵盖文本到视频、修复、外绘、扩展、灰度、深度、涂鸦、姿态、光流、布局、引用人脸和引用物体等多种任务类型,每种任务平均 20 个样本。输入模态包括输入视频、掩码和参考,并提供原始视频以便进一步处理。对于数据提示,既提供视频的原始字幕用于量化评估,也提供针对特定任务的重写提示以评估模型的创造力。

四、实验

(一)实验设置

  1. 实现细节 :VACE 基于不同规模的文本到视频扩散 Transformer 进行训练。使用 LTX-Video-2B 实现快速生成,使用 Wan-T2V-14B 用于高质量输出,支持高达 720p 的分辨率。训练分为多个阶段,先聚焦于基础任务(如修复和扩展),再逐步过渡到多输入参考帧和组合任务,最后用高质量数据和更长序列微调模型质量。模型输入支持任意分辨率、动态时长和可变帧率。

  2. 基线模型 :由于缺乏可比的统一视频生成模型,研究者将通用模型与专用任务模型进行比较。具体任务对比的模型包括:

    • 图像到视频(I2V)任务对比 I2VGenXL、CogVideoXI2V 和 LTX-Video-I2V;

    • 修复任务中,去除修复对比 ProPainter,外绘对比 Follow-Your-Canvas 和 M3DDM;

    • 可控任务下,深度条件对比 Control-A-Video、VideoComposer 和 ControlVideo,姿态条件对比 Text2Video-Zero、ControlVideo 和 Follow-Your-Pose,光流条件对比 FLATTEN;

    • 引用生成任务因无开源模型,对比商业产品 Keling1.6、Pika2.2 和 Vidu2.0。

  3. 评估方式 :采用 VACE-Benchmark 进行评估,分为自动评分和人工评估。自动评分使用 VBench 中的部分指标评估视频质量和视频一致性,包括审美质量、背景一致性、动态程度、成像质量、运动平滑度、整体一致性、主体一致性和时间闪烁等八个指标。人工评估采用平均意见得分(MOS)作为评估指标,关注提示遵循度、时间一致性和视频质量三个方面,对生成数据进行匿名化和随机分配评分。

(二)主要结果

  1. 量化评估 :VACE 综合模型在 VACE-Benchmark 上与专用方法对比,在图像到视频、修复、外绘、深度、姿态和光流等任务的八个指标中表现优于其他开源方法,归一化平均指标结果更优。部分竞品方法仅能生成 256 分辨率、生成时长短且时间一致性不稳定,在自动指标计算上表现不佳。在引用到视频任务中,小规模的 VACE 模型在指标上与商业模型存在差距,但与 Vidu2.0 的指标相当。人工用户研究结果表明,VACE 方法在多个任务的评估指标上表现更好,与用户偏好一致。

  2. 定性结果 :VACE 单模型在各种任务中展现出高质量视频和时间一致性的高性能。在组合任务中,如 “移动任何物体” 案例中,通过提供单个输入图像和运动轨迹,能够精确地按指定方向移动场景中的人物,同时保持连贯性和叙事一致性,展现出整合不同模态和任务的强大能力,实现了现有单模型或多模型无法生成的结果,体现出在视频生成和编辑领域的巨大潜力。

(三)消融研究

为深入理解不同独立模块对统一视频生成框架的影响,基于 LTX-Video 模型进行了一系列系统比较实验:

  1. 基础结构 :比较了将不同输入沿通道维度拼接并修改输入维度以实现预训练模型加载和全面微调的方法,以及引入额外训练参数的 Res-Tuning 方法。结果表明两种方法效果相似,但额外参数微调收敛更快,后续实验基于此方法。

  2. 超参数设置 :在确定的基础结构上,对加权方案、时间戳偏移和 p-zero 等超参数进行实验。

  3. 上下文适配器 :尝试找到上下文块的最佳数量和分布。对比了输入端连续块选择(前 1/4 块、1/2 块和全部块)以及均匀分布注射块的方式。结果表明,在块数量相同的情况下,浅层块的分布式排列优于连续排列,且块数量越多效果越好,但受训练资源限制,采用部分分布式块排列。

  4. 概念解耦 :引入概念解耦处理模块以进一步拆分视觉单元,明确模型需要学习修改或保留的内容。使用该模块可使损失显著降低。

五、结论

论文介绍的 VACE 是一种统一的视频生成和编辑框架,整合了各种视频任务所需的多模态输入,弥合了各个专用模型之间的差距,使大多数视频 AI 创作任务能够通过单一模型的一次推理完成。它不仅广泛覆盖各种视频任务,还支持这些任务的灵活自由组合,极大地扩展了视频生成模型的应用场景,满足了广泛的用户创意需求,为多模态输入的统一视觉生成模型的发展铺平了道路,是视觉生成领域的重要里程碑。

六、讨论

(一)局限性

  1. 生成内容的质量和整体风格常受基础模型影响。小规模模型利于快速视频生成,但视频质量和连贯性受限;大规模参数模型虽能提高创意输出的成功率,但推理速度变慢,资源消耗增加。如何平衡两者是未来工作重点。

  2. 与文本到视频生成的基础模型相比,当前统一模型缺乏大规模数据和算力训练,导致在引用生成时无法完全保持身份,在执行组合任务时对输入的控制不完全。随着统一任务开始应用扩展规律,结果前景可期。此外,统一模型的操作方法因包含时间信息和多种输入模态,给实际使用带来一定门槛,需探索如何借助现有语言模型或代理模型的能力来指导视频生成和编辑,提高生产力。

(二)社会影响

  1. 积极方面:智能视频生成和编辑为创作者提供了创新工具,激发新创意,提升视频内容的艺术性和创新性。在商业领域,视频生成技术正改变营销和广告策略,企业可快速制作高质量宣传视频,有效传递品牌信息,吸引消费者,提高效率,节省人力成本,增强市场竞争力。

  2. 挑战方面:技术的便利性可能导致虚假信息和内容传播,削弱公众对信息的信任。此外,生成内容可能无意中强化现有偏见和刻板印象,对社会文化认知产生负面影响。这促使人们反思伦理和责任问题,需要政策制定者、技术开发者和社会各界合作建立适当规范,确保技术健康发展,并在创新与社会责任之间寻求平衡,使技术更多地造福社会。

VACE 论文核心技术汇总表

在这里插入图片描述

http://www.xdnf.cn/news/487441.html

相关文章:

  • 【24真题】华中师范大学838
  • 开发工具指南
  • 深入剖析与解决:`DELETE net::ERR_CONNECTION_RESET` 错误全指南
  • 【GNN笔记】Signed Graph Convolutional Network(12)【未完】
  • 框架的源码理解——V3中的ref和reactive
  • PHP中的SPL(标准PHP库):提升开发效率的工具集
  • base64加密为何可以直接找三方网站解密
  • 2025年上软考 考试时间+准考证打印全攻略
  • 基于 Flink 的实时推荐系统:从协同过滤到多模态语义理解
  • nnUNet V2修改网络——暴力替换网络为UCTransNet
  • 分布式 ID 生成的五种方法:优缺点与适用场景
  • Windows系统功能管控指南 | 一键隐藏关机键/禁用任务管理器
  • LLM学习笔记(五)概率论
  • 深入剖析Spring Boot参数校验:实现原理、自定义注解组件与国际化多语言实践
  • SEO长尾关键词优化策略解析
  • 基于vue框架的订单管理系统r3771(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • Solon Ai Flow 编排开发框架发布预告(效果预览)
  • CSS:三大特性
  • C++性能测试工具——Vtune等的介绍
  • 嵌入式项目生命周期模型-瀑布模型
  • 嵌入式开发书籍推荐
  • SpringMVC 内容协商处理
  • python训练 60天挑战-day27
  • 【知识点】语义分割任务中有哪些损失函数?
  • 操作系统-锁/内存/中断/IO
  • 机器学习前言2
  • 如何在windows server 2022 上安装WSL
  • Seata源码—4.全局事务拦截与开启事务处理一
  • 三格电子上新了——Modbus转IEC104网关
  • mybatisPlus 新增时 其他字段的值和 id 保持一致实现方法