当前位置: 首页 > backend >正文

上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型!

近年来,视频生成模型取得了显著进展,因其能够基于大规模真实世界数据训练出高度逼真的生成效果,被广泛认为有望成为模拟真实物理世界的“世界模型”。然而,要实现这一愿景,模型必须能够在长时间生成过程中保持对场景的持续记忆能力,而当前方法在这方面仍存在明显不足。

交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能“换了个世界”。这一问题严重制约了视频生成技术在游戏、自动驾驶、具身智能等下游应用的落地。今年8月初,Google DeepMind 发布的 Genie 3 因在生成长视频时展现出卓越的场景一致性,迅速引起广泛关注,被许多人视为世界模型发展中的一次质变。遗憾的是,该模型并未公开技术细节。

近日,香港大学和快手可灵团队联合发表论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》,提出一种创新性方法:将历史生成的上下文作为“记忆”(即Context-as-Memory),通过context learning 技术学习上下文条件,从而实现对长视频前后场景一致性的有效控制。研究发现:视频生成模型能够隐式学习视频数据中的 3D 先验,无需显式 3D 建模辅助,这一理念与 Genie 3 不谋而合。如下是一个结果展示:

为了高效利用理论上可无限延长的历史帧序列,论文还提出了基于相机轨迹视场(FOV)的记忆检索机制(Memory Retrieval),从全部历史帧中筛选出与当前生成视频高度相关的帧作为记忆条件,大幅提升视频生成的计算效率并降低训练成本。在数据构建上,研究团队基于 Unreal Engine 5 收集了多样化场景、带有精确相机轨迹标注的长视频,用于充分训练和测试上述技术。用户只需提供一张初始图像,即可沿设定的相机轨迹自由探索生成的虚拟世界。

【📖论文题目】: Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval

【📊项目主页】: https://context-as-memory.github.io/

【🏆论文地址】: https://arxiv.org/pdf/2506.03141

1. 能力展示

从上述视频可以观察到,Context as Memory可以在几十秒的时间尺度下保持原视频中的静态场景记忆力,并在不同场景有较好的泛化性。更多示例请访问项目主页。

2. 技术创新

尽管现有视频生成模型已能生成较长时间的视频,但在维持场景记忆方面仍表现不佳。例如,简单的摄像机转向再回正都可能导致场景完全改变,凸显出当前方法在长程一致性建模方面的局限。

这类问题的根源在于,现有方法在生成每一新帧时,仅能依赖有限数量的前一帧(如几十帧的固定窗口)作为上下文信息。以 Diffusion Forcing 为例,其上下文窗口的约束限制了长期依赖的建模能力。尽管该设置适用于短视频延续任务,却难以保障生成内容在长时间范围内的连贯性。若能使每一帧在生成时参考全部历史帧,模型便可主动从过往帧中选择并复制与当前生成相关的内容,从而显著提升长视频的场景一致性。换言之,所有先前生成的上下文可被视为一种记忆。

然而,“将所有历史上下文作为记忆”这一思路虽然直观,却存在三个主要问题:

一、计算资源消耗极大;

二、全部历史上下文中包含大量冗余,仅少数帧与当前生成真正相关;

三、无关帧的引入可能增加噪声,反而干扰生成质量。

为此,一种更合理的方式是从历史上下文中动态检索少量相关帧,作为条件引导当前帧的生成,我们将其称为“记忆检索”。针对上述问题,本研究提出“Context as Memory“方法,旨在实现无需显式三维建模的场景一致的长视频生成。该方法的核心创新包括:

  • 提出了 Context as Memory 方法,强调将历史生成的上下文作为记忆,无需显式3D建模即可实现场景一致的长视频生成。

  • 设计了Memory Retrieval方法,采用基于视场(FOV)重叠的相机轨迹规则进行动态检索,显著减少了需要学习的上下文数量,从而提高了模型训练与推理效率。

  • 实验结果表明,Context as Memory在长视频生成中的场景记忆力表现优越,显著超越了现有的SOTA方法,并且能够在未见过的开放域场景中保持记忆。

3. Context as Memory算法解读

如上图(a)所示,Context-as-Memory的长视频生成是通过基于Context learning的视频自回归生成来实现的,其中,所有历史生成的视频帧作为context,它们被视为记忆力的载体。

进一步地,如上图(b)所示,为了避免将所有历史帧纳入计算所带来的过高计算开销,提出了Memory Retrieval模块。该模块通过根据相机轨迹的视场(FOV)来判断预测帧与历史帧之间的重叠关系,从而动态筛选出与预测视频最相关的历史帧作为记忆条件。此方法显著减少了需要学习的上下文数量,大幅提高了模型训练和推理的效率。

4. 实验结果

在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。

在实验中,研究者将 Context-as-Memory 与最先进的方法进行了比较,结果表明,Context-as-Memory 在长视频生成的场景记忆力方面,相较于这些方法,表现出了显著的性能提升。

研究团队近期在世界模型与交互式视频生成领域已经积累了多篇研究成果。其中包括整理了交互式视频生成领域工作的综述论文和观点论文,系统性地总结了该领域的发展现状,还提出了世界模型的五大基础能力模块:Generation,Control,Memory,Dynamics以及Intelligence。这一框架为后续基础世界模型的研究指明了方向,具有很高的学习与参考价值。在该框架指导下,团队不仅提出了专注于 Memory 能力的 Context-as-Memory 工作,还在 ICCV 2025 上发表了 GameFactory 论文。GameFactory 聚焦于世界模型的可泛化开放域控制能力,能够生成无限可交互的新游戏,并被选为 Highlight 论文。

相关论文信息:

[1] A Survey of Interactive Generative Video. https://arxiv.org/pdf/2504.21853

[2] Position: Interactive Generative Video as Next-Generation Game Engine. https://arxiv.org/pdf/2503.17359

[3] GameFactory: Creating New Games with Generative Interactive Videos. ICCV 2025 Highlight. https://arxiv.org/pdf/2501.08325

[4] Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval. https://arxiv.org/pdf/2506.03141

更多技术细节请参阅原论文。

http://www.xdnf.cn/news/19827.html

相关文章:

  • MindNode AI:AI辅助思维导图工具,高效整理思路快速搭框架
  • React学习教程,从入门到精通, React 组件语法知识点(9)
  • 【108】基于51单片机智能输液监测系统【Proteus仿真+Keil程序+报告+原理图】
  • 浅谈linux内存管理 的RMAP机制的作用和原理
  • 指针高级(1)
  • leetcode 38 外观数列
  • 线程通信机制
  • 【程序人生】有梦想就能了不起,就怕你没梦想
  • BurpSuite_Pro_V2024.6使用教程-Burp Suite代理设置详解
  • (Me)Adobe Media Encoder 2025音视频格式转码软件及视频编码软件,全新版免激活,安装即永久使用!
  • HTTP协议——理解相关概念、模拟实现浏览器访问自定义服务器
  • 优化程序性能 | 《深入理解计算机系统》第五章笔记
  • React实现列表拖拽排序
  • LiteFlow:国产流程编排引擎体验
  • DAY20-新世纪DL(DeepLearning/深度学习)战士:终(目标检测/YOLO)3
  • 【医疗行业案例】基于 React 的预约系统:DHTMLX 助力高效排班与预约管理
  • CAD/BIM软件产品技术深度分析文章写作计划
  • 全渠道 + 低代码:如何打造 “内外协同” 的客服管理系统体系?
  • 【FastDDS】Layer DDS之Domain ( 02-DomainParticipant )
  • unity中的交互控制脚本
  • 云手机将要面临的挑战有哪些?
  • 【学习记录】github私人仓库创建和本地克隆
  • CSS 伪类与伪元素:深度解析
  • 从零构建Linux Shell解释器深入理解Bash进程创建机制
  • 【Spring Cloud微服务】11.微服务通信演义:从飞鸽传书到5G全息,一部消息中间件的进化史诗
  • Java项目打包成EXE全攻略​
  • Ubuntu22.04下编译googletest源代码生成.so动态库
  • 利用 openssl api 实现 TLS 双向认证
  • MySQL-MVCC多版本并发控制详解
  • LangChain实战(十二):自定义Tools扩展Agent能力