当前位置：首页 > ops >正文

（论文速读）FloVD：光流遇见视频扩散模型，开启相机控制视频生成

ops 2025/8/26 8:26:30

论文题目：FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis（FloVD:增强摄像机控制视频合成的光流满足视频扩散模型）

会议：CVPR2025

摘要：提出了一种新的视频扩散模型，用于摄像机可控视频生成。FloVD利用光流来表示相机和移动物体的运动。这种方法提供了两个关键的好处。由于光流可以直接从视频中估计，我们的方法允许使用任意训练视频，而不需要真实摄像机参数。此外，由于背景光流编码了不同视点之间的3D相关性，我们的方法可以通过利用背景运动来实现详细的相机控制。为了在支持详细的摄像机控制的同时合成自然物体运动，我们的框架采用了由光流生成和流条件视频合成组成的两级视频合成流水线。大量的实验证明了我们的方法在精确的相机控制和自然物体运动合成方面优于以往的方法。

引言

随着AIGC技术的飞速发展，视频生成已经成为计算机视觉领域最激动人心的研究方向之一。从Sora到RunwayML，各种视频生成模型层出不穷。然而，如何让AI生成的视频具备精确的相机控制能力，一直是这个领域面临的重大挑战。

最近，来自POSTECH和微软亚洲研究院的研究团队提出了FloVD（Optical Flow meets Video Diffusion），这是一个革命性的框架，它巧妙地将光流技术与视频扩散模型结合，实现了前所未有的相机控制视频生成效果。这篇论文已被CVPR 2025接收，让我们深入了解这项突破性的工作。

预备知识：什么是光流？

光流的基本概念

在深入了解FloVD之前，我们需要先理解什么是光流（Optical Flow）。

光流是指图像中像素点的运动模式，它描述了连续帧之间像素位置的变化。简单来说，光流就是"像素的运动轨迹"。

想象一下，当你看电影时，屏幕上的每个像素点在不同帧之间是如何移动的：

如果摄像机向右移动，整个画面会向左流动
如果镜头放大，画面会从中心向外扩散
如果画面中有移动的汽车，那部分像素会有独特的运动模式

光流的数学表示

光流可以用二维向量场来表示：对于图像中的每个像素点(x,y)，光流向量(u,v)表示该像素在下一帧中的位移：

新位置 = (x + u, y + v)

光流的类型

稠密光流 vs 稀疏光流：

稠密光流：计算图像中每个像素的运动向量
稀疏光流：只计算特征点的运动向量

前向光流 vs 后向光流：

前向光流：从当前帧指向下一帧
后向光流：从下一帧指向当前帧

光流的应用

光流在计算机视觉中有广泛应用：

运动检测：识别画面中的移动物体
视频压缩：利用帧间相关性减少存储空间
自动驾驶：感知周围环境的运动状态
视频稳定：补偿相机抖动
动作识别：分析人体或物体的运动模式

现有视频生成方法的挑战

控制能力的缺失

传统的视频扩散模型虽然能生成高质量视频，但在用户控制方面存在严重不足：

基础控制方法的局限性：
- 文本描述控制：只能进行高层次的描述，如"镜头向左移动"
- 用户笔画控制：通过绘制轨迹控制背景运动，但精度有限
- 这些方法只支持简单的缩放（zoom）和平移（pan）操作
参数化控制的困境：
- 直接使用相机参数的方法需要包含真实相机参数的训练数据
- 获取这样的数据集非常困难和昂贵
- 现有方法被迫使用受限数据集（如RealEstate10K），主要包含静态场景