当前位置: 首页 > backend >正文

源超长视频生成模型:FramePack

FramePack 是一种下一帧(下一帧部分)预测神经网络结构,可以逐步生成视频。

FramePack 将输入上下文压缩为固定长度,使得生成工作量与视频长度无关。即使在笔记本电脑的 GPU 上,FramePack 也能处理大量帧,甚至使用 13B 模型。

FramePack 可以使用更大的批量大小进行训练,类似于图像扩散训练的批量大小。

使用 13B 模型生成 1 分钟视频(60 秒)以 30fps(1800 帧),所需的最低 GPU 内存为 6GB。

关于速度,在 RTX 4090 台式机上,它以 2.5 秒/帧(未优化)或 1.5 秒/帧(teacache)的速度生成。在笔记本电脑上,比如 3070ti 笔记本电脑或 3060 笔记本电脑,它大约慢 4 倍到 8 倍。

操作UI如下:

图片

快速理解 FramePack:

下一个帧(或下一个帧部分)预测模型看起来是这样的:

图片

所以我们有很多输入帧,并希望扩散一些新帧。

我们可以将输入帧编码成类似这样的 GPU 布局:

图片

此图表显示了逻辑 GPU 内存布局 - 图像帧并未拼接。

或者,比如说每个输入帧的上下文长度。

每个帧都使用不同的 patchifying 内核进行编码以实现这一点。

例如,在 HunyuanVideo 中,如果使用(1, 2, 2)补丁化内核,480p 帧可能是 1536 个 token。

然后,如果改为(2, 4, 4)补丁化内核,帧将是 192 个 token。

这样,我们可以改变每个帧的上下文长度。

"更重要"的帧会分配更多的 GPU 资源(上下文长度)- 在这个例子中,F0 是最重要的,因为它是最接近"下一帧预测"目标的帧。

这是对流处理的 O(1)计算复杂度 - 是的,这是一个常数,甚至不是 O(nlogn)或 O(n)。

实际上这些是 FramePack 调度,就像这样:

图片

因此可以获取不同的压缩模式。

甚至可以让起始帧同样重要,这样图像到视频的转换会更加愉快

所有这些调度都是 O(1)的。

抗漂移采样:

漂移是任何下一何-何预测模型的常见问题,漂移指的是随着视频变长而出现的质量退化,有时这个问题也被称作误差累积或曝光偏差。

图片

(阴影方框是每次流推理中生成的帧)

注意,只有“vanilla sampling”是因果的;“anti-drifting sampling”和“inverted anti-drifting sampling”都是双向的。

“倒置反漂移采样”非常重要。这种方法是唯一一种在所有推理中始终将第一帧作为近似目标的。这种方法非常适合图像到视频。

图像到 5 秒(30fps,150 帧)视频生成:

图片

图像转 60 秒(30fps,1800 帧)视频生成:

图片

项目地址:https://github.com/lllyasviel/FramePack

模型地址:https://huggingface.co/lllyasviel/FramePackI2V_HY/tree/main

http://www.xdnf.cn/news/1218.html

相关文章:

  • 丰富多样功能的小白工具,视频提取音频,在线使用,无需下载软件
  • Vscode指定缓存路径 .vscode 路径
  • net+MySQL中小民营企业安全生产管理系统(源码+lw+部署文档+讲解),源码可白嫖!
  • spark与Hadoop之间的对比与联系
  • GTS-400 系列运动控制器板(七)----修改限位开关触发电平
  • 【STL】unordered_set
  • 为什么访问树节点用 `root->right` 这种形式
  • ANDON系统看板助力电器组装线实现智能管理
  • 鸿蒙NEXT开发权限工具类(申请授权相关)(ArkTs)
  • 如何给pip命令国内镜像源
  • Python 简介与入门
  • 轻量级别的htpp客户端--Forest
  • “多模态SCA+DevSecOps+SBOM风险情报预警 “数字供应链安全最佳管理体系!悬镜安全如何用AI守护万亿数字中国?
  • KUKA机器人KR 3 D1200 HM介绍
  • JDK版本与Spring Boot版本之间对应关系
  • 【RK3588 嵌入式图形编程】-SDL2-扫雷游戏-放置标记
  • day3 打卡训练营
  • 多表查询之嵌套查询
  • 深圳有哪些有名的PCB设计的培训班
  • 4.LinkedList的模拟实现:
  • 实践项目开发-hbmV4V20250407-Taro项目构建优化
  • 瓦瑟斯坦差分隐私中命题7对总变差TV的应用
  • vue3 组件传参
  • 2025软件测试常用面试问题及参考答案(附文档)
  • 计算机组成与体系结构:缓存(Cache)
  • TCP和UDP
  • Windows 同步-Windows 单向链表和互锁链表
  • Typebot:开源、强大、可自托管的聊天机器人构建工具
  • DES、3DES、SM4 加密算法简介
  • 查看Spring Boot项目所有配置信息的几种方法,包括 Actuator端点、日志输出、代码级获取 等方式,附带详细步骤和示例