当前位置: 首页 > backend >正文

[2025CVPR:图象合成、生成方向]WF-VAE:通过小波驱动的能量流增强视频 VAE 的潜在视频扩散模型

论文概述

这篇论文提出了一种名为WF-VAE(Wavelet Flow VAE)​的新型视频变分自编码器(Video VAE),旨在解决潜在视频扩散模型(LVDM)中的关键瓶颈问题,包括高计算成本和潜在空间不连续性。WF-VAE利用小波变换(Wavelet Transform)来分解视频信号,并通过能量流路径优化信息编码,显著提升了效率和重建质量。同时,论文引入了Causal Cache机制,支持无损的分块推理(block-wise inference),解决了长视频处理中的闪烁和失真问题。实验表明,WF-VAE在PSNR、LPIPS等指标上优于现有方法,同时将吞吐量提高2倍、内存消耗降低4倍。


背景与动机

视频变分自编码器(Video VAE)是LVDM的核心组件,用于将视频压缩到低维潜在空间,以降低扩散模型的训练成本。然而,随着视频分辨率和时长增加,现有VAE面临两大挑战:

  • 计算瓶颈​:现有方法(如OD-VAE、Allegro)使用密集3D卷积架构,导致高内存消耗和低吞吐量。例如,处理512×512分辨率视频时,基线模型内存占用可高达55GB,而编码速度慢至0.37秒/帧。
  • 潜在空间不连续​:分块推理策略(如Open-Sora和CogVideoX所用)会导致视频重叠区域的失真和闪烁,破坏潜在空间完整性。例如,分块推理使PSNR下降高达6.4。

这些问题源于现有VAE未能有效利用视频的时空冗余信息。因此,论文提

http://www.xdnf.cn/news/16304.html

相关文章:

  • 嵌入式ADC和DMA
  • kafka的部署和jmeter连接kafka
  • 守护汽车“空中升级“:基于HSM/KMS的安全OTA固件签名与验证方案
  • JavaScript 立即执行函数(IIFE)运行时行为分析笔记
  • 建筑施工场景下漏检率↓76%!陌讯多模态融合算法在工程安全监控的落地实践
  • 上证50指数分红和股指期货有什么关系?
  • Sklearn 机器学习 数值指标 entropy熵函数
  • Qt 与 WebService 交互开发
  • 配置nodejs
  • 【CTF-WEB-SQL】SQL注入基本流程-错误注入(sql-labs的Less5)(updatexml)
  • DOM元素添加技巧全解析
  • 如果在分支A上修改了内容,想要提交更新内容的话,如何与develop上的主分支的最新的代码拉齐
  • 面试问题总结——关于OpenCV(二)
  • GStreamer与OpenCV集成
  • 网络基础19--OSPF路由业务多区域
  • 解决VSCode中Github Copilot无法登陆的问题
  • HTTPS的基本理解以及加密流程
  • 掌握JavaScript函数封装与作用域
  • 学习随笔录
  • C#与C++交互开发系列(二十四):WinForms 应用中嵌入C++ 原生窗体
  • 达梦[-2894]:间隔表达式与分区列类型不匹配
  • [硬件电路-93]:模拟器件 - 晶体管的静态工作点,让晶体管工作在其放大电路舞台的中央!!!
  • MyBatis Plus 对数据表常用注解
  • ​机器学习从入门到实践:算法、特征工程与模型评估详解
  • 计算机中的单位(详细易懂)
  • 关于数据库表id自增问题
  • MySQL存储引擎深度解析与实战指南
  • 告别虚函数性能焦虑:深入剖析C++多态的现代设计模式
  • 数组相关学习
  • 基于深度学习的胸部 X 光图像肺炎分类系统(五)