世界模型 World Models概述
人类的大脑并非处理世界中的每一个细微细节。相反,我们依赖过去经验形成的抽象表征——心智模型——来指导我们的决策。即使在事件发生之前,我们的大脑也会根据这些模型和先前的行为不断预测结果。
这正是人工智能中世界模型(wordl models)背后的概念。
AI 智能体并非直接在现实世界中通过反复试验进行学习,而是使用“世界模型”(一种学习到的环境模拟)来想象和探索可能的动作序列。通过内部模拟这些动作,AI 能够找到通往期望结果的路径。
这种方法具有显著的优势。首先,世界模型避免了所有可能操作的物理执行,从而大幅减少了所需的资源。更重要的是,它们使人工智能与人脑的实际运作方式更加契合——预测、设想场景并计算结果。Yann LeCun 曾表示,世界模型对于实现人类水平的人工智能至关重要,尽管完全发挥其潜力可能需要大约十年的时间。
今天,世界模型还处在早期的研究阶段。正确理解它们的机制,认识到我们现有模型的能力,并剖析其内部运作,对于未来的突破至关重要。下面展开介绍世界模型的历史背景与发展现状。
第一个世界模型的历史背景
虽然“世界模型”这一术语在过去几年中逐渐流行,但其基本概念在早期的人工智能研究中已有先例。这一理念可以追溯到1990 年Richard S. Sutton 的 Dyna 算法。它是基于模型的强化学习 (MBRL) 的一种基本方法,将模型学习与规划和反应相结合,因此使用 Dyna 的agents可以实现:
-
尝试一些动作并观察哪些有效(通过 RL 进行反复试验)。
-
随着时间的推移,学习世界的模型并构建它来预测接下来可能发生的事情(学习)。
-
使用这种心理模型在“头脑”中尝试一些事情,而不必在现实世界中真正去做(计划)。
-
如果发生了什么事情,就根据已经学到的知识立即做出反应——每次都无需停下来计划(快速反应)。
2018 年的一项后续研究名为“规划形状对高维状态空间中 Dyna 式规划的影响”,在 Arcade Learning Environment(街机学习环境)中测试了 Dyna。Arcade Learning Environment 是雅达利 2600 游戏的集合,用于从原始像素图像训练 AI agents。该研究首次表明,学习模型可以帮助提高在雅达利游戏等高维输入环境中的学习效率,并表明 Dyna 是一种可行的规划方法。
一个重要的里程碑是David Ha 和 Jürgen Schmidhuber在2018 年发表的论文《世界模型》。他们构建了一个能够在简单环境中实际运行的系统。他们训练了一个生成式循环神经网络 (RNN),以无监督的方式对流行的强化学习环境进行建模,例如赛车游戏和 2D 第一人称射击类游戏。他们的世界模型学习了游戏画面的压缩空间表征以及游戏演变的时间动态。更准确地说,这个系统由三部分组成:
-
愿景:变分自编码器 (VAE)将高维观测值(像素图像)压缩为低维潜在表示。
-
记忆:混合密度循环网络 (MDN-RNN)根据当前潜在状态和agents的动作预测下一个潜在状态。
-
控制器:获取潜在状态和 RNN 隐藏状态并输出动作。在最初的实现中,它是一个简单的线性策略,采用进化策略,以最大化奖励进行训练。
Ha 和 Schmidhuber 证明了策略(控制器)可以完全在学习模型的“梦境”中进行训练,然后成功迁移到真实的游戏环境中。这为构建能够像人类一样做梦、计划和行动的更智能的agents奠定了基础,并激发了人们对基于模型的方法的兴趣。
从那时起,很多事情都发生了变化。我们今天拥有什么?最新的世界模型是如何运作的?它们理解物理世界吗?让我们来探索一下。
总而言之,世界模型是一种生成式人工智能系统,它从各种输入数据中学习现实世界环境的内部表征,包括其物理特性、空间动态特性和因果关系(至少是基本的因果关系)。它们利用这些学习到的表征来预测未来状态,在内部模拟一系列动作,并支持复杂的规划和决策,而无需持续进行现实世界的实验。
NVIDIA 强调了构建世界模型的以下组件:
-
数据管理:数据管理对于顺利训练世界模型至关重要,尤其是在处理大型多模态数据集时。它包括过滤、标注、分类以及删除重复的图像或视频,以确保数据质量。在视频处理中,这首先要对片段进行分割和转码,然后应用质量过滤器。视觉语言模型会标注关键元素,而视频嵌入则有助于识别和删除冗余内容。
-
标记化:将高维视觉数据分解为更小、更易于管理的单元,以加速学习。它减少了像素级冗余,并创建了紧凑的语义标记,以实现高效的训练和推理。
-
离散标记化将视觉效果表示为整数。
-
连续标记化使用连续向量。
-
-
微调:基于大型数据集训练的基础模型可以针对特定的物理 AI 任务进行调整。开发者可以从头构建模型,也可以使用额外数据对预训练模型进行微调。微调使模型在机器人、自动化和其他实际用例中更加有效。
-
无监督微调使用未标记的数据进行更广泛的概括。
-
监督微调利用标记数据来关注特定任务,增强推理和模式识别。
-
-
强化学习 (RL):它通过让推理模型在互动中学习,并根据动作获得奖励或惩罚来训练推理模型。这种方法有助于人工智能随着时间的推移不断调整、规划和改进决策。强化学习对于需要在动态环境中具备复杂推理和响应能力的机器人和自主系统尤其有用。
最近的一篇综述“基础agents的进步与挑战”总结了构建人工智能世界模型的 4 种一般方法:
-
隐式模型:这类模型使用一个大型神经网络来预测未来结果,而无需区分世界的变化方式和观察方式。这些框架允许智能体使用压缩图像和预测来“设想”未来的行动。
-
显式模型:这些模型清晰地区分了世界的变化(状态转换)和智能体所见的内容(观察)。这使得系统更易于解释,也更易于调试。
-
基于模拟器的模型:这些模型并非从零开始学习,而是使用模拟器或真实环境来测试操作和结果。这种方法非常准确,但速度慢且成本高昂。
-
混合模型和指令驱动模型:这些模型将学习到的模型与外部规则、手册或语言模型相结合。这种神经预测和基于规则的指导相结合的方式,使模型在新情况下更加灵活。
知名的世界模型
Google DeepMind 的Dreamer
或许最具影响力的一系列成果之一来自 Danijar Hafner 和 Google DeepMind 的同事,他们创建了 Dreamer 系列智能体。这款通用强化学习算法的最新版本(2025 年 4 月)DreamerV3可以使用相同的设置处理 150 多种不同的任务,而无需针对每项任务进行调整。然而,最重要的是,它是第一个在 Minecraft 中从零开始收集钻石的算法,无需任何人类示例的帮助,仅使用自身的“想象力”和默认设置。这不仅是强化学习的成就,也是世界模型的成就。DreamerV3学习世界模型,并利用它来想象接下来可能发生的情况,从而找出更好的行动方式。以下是该系统的具体工作原理 。
DreamerV3由3个部分组成:
图片来源:DreamerV3 原始论文
-
世界模型——获取agents所看到的内容,例如图像或数字输入,并使用循环神经网络 ( RNN ),特别是循环状态空间模型 (RSSM),将其压缩为更简单的潜在表征。这有助于模型保留过去事件的记忆,并更好地预测未来状态。给定一个动作,该模型可以预测下一个状态、预期奖励以及该场景是否继续。(注:与许多最近的 AI 架构不同,DreamerV3不使用 Transformer,而是完全专注于循环模型。)
DreamerV3 在此介绍了几项智能增强功能:
-
KL 散度衡量预测与现实的差异程度——就像一个“现实检验”。如果预测不准确,模型就会进行相应的调整。
-
空闲位有助于防止模型过度修正细微的误差。可以理解为:“如果已经足够好了,就不要再浪费精力去追求完美了。”
-
Symlog 编码将现实世界中的大量正负信号(例如奖励和像素值)压缩为可管理的数字范围,帮助系统稳定学习。
-
双热编码将学习目标分散到两个相邻的类别中,从而平滑预测并使学习过程更容易、更稳定。
-
-
评价器——评估世界模型所设想结果的好坏。由于奖励可能存在巨大差异,DreamerV3 采用了谨慎的规范化和基于分布的评分方法,即使在奖励稀疏或不可预测的情况下也能确保稳定的性能。它还采用了参数的移动平均值来进一步稳定学习。
-
Actor——根据世界模型和批评家提供的洞察来决定最佳行动,平衡即时奖励和新策略的探索,避免陷入困境。DreamerV3 会仔细规范预测回报,即使在奖励稀少的情况下也能保持平衡的探索。
Google DeepMind 的 Genie 2
谷歌 DeepMind 在世界模型领域取得的另一个有趣进展是Genie 2,它能够为具身智能体生成多样化的训练环境。Genie 2 只需一张图像,即可创建可操作的虚拟世界,并通过键盘和鼠标控制,供人类和 AI 系统使用。它支持长时域记忆、一致的世界生成以及从共享起点进行的反事实模拟。该模型展示了一些新兴能力,例如:
-
处理角色移动
-
模拟物理动力学(重力、光照、反射)
-
建模与物体和非玩家角色(NPC)的交互
-
与 SIMA 等agents配对后,Genie 2 可以生成新的 3D 场景来测试指令遵循情况,使agents能够使用自然语言命令在新环境中导航和行动。
图片来源:Genie 2 博客
Genie 2 内部有什么可以帮助它实现这一点?
Genie 2 是一个自回归潜在扩散模型,它在大型视频数据集上进行训练,并逐帧生成视频。其流程如下:
-
Genie 2 使用自编码器将视频帧压缩到潜在空间。
-
基于 Transformer 的自回归模型根据先前的帧和agents的动作来预测下一个潜在帧。
-
应用潜在扩散过程来从潜在预测中改进并生成真实的视频帧。
-
将潜在信息解码为视觉框架。
图片来源:Genie 2 博客
这种架构使 Genie 2 能够在低维潜在空间中运行,并随时间响应用户或agents的输入,并生成逼真且一致的视频输出。因此,它为构建能够适应复杂虚拟世界中各种任务的通用系统提供了潜力。
NVIDIA 的 Сosmos World Foundation 模型
NVIDIA 对世界模型的贡献不容低估。他们致力于物理 AI,并将重心转向构建完整的模块化生态系统,即 Cosmos 世界基础模型 (WFM) 平台,旨在训练、模拟和应用基于视频的物理 AI 世界模型。我们在之前的一期节目中详细介绍了整个 Cosmos 平台的工作原理,但从那时起,更多关于 NVIDIA Cosmos 世界基础模型的信息也逐渐浮现。因此,让我们更深入地了解它们。
该平台包括三个主要模型系列,每个模型系列在实现丰富的视觉世界理解、模拟和推理方面发挥着独特但互补的作用。
-
Cosmos-Predict1:
它模拟视觉世界随时间的变化。它从超过 1 亿个视频片段中学习一般的物理世界动态,并可以使用较小的数据集针对特定任务进行微调,以便通过文本、动作或摄像头输入进行控制。有两种类型的模型:
-
扩散模型(如 Cosmos-Predict1-7B-Text2World):通过对潜在空间中的噪声进行去噪,从文本生成视频。
-
自回归模型(例如,Cosmos-Predict1-13B-Video2World):类似于 GPT,根据先前上下文逐个标记地生成视频。
-
-
Cosmos-Transfer1:
它直接构建于 Cosmos-Predict1 之上,并通过强大的自适应多模态控制对其进行了扩展。Cosmos-Transfer1 允许用户使用多种空间控制信号(例如分割图、深度图、边缘图、模糊视觉输入、高清地图和激光雷达数据)来引导世界生成。
为了有效处理不同的输入,NVIDIA为每种模态添加了单独的 ControlNet 分支,例如一个用于深度,一个用于边缘等等。这些控制分支独立训练,以提高内存效率和灵活性。它还允许进行细粒度控制——例如,强调前景中的边缘以呈现物体细节,或强调背景中的深度以呈现几何形状。
Cosmos-Transfer1 使用时空控制图来动态地为跨空间和时间的不同输入分配权重。
因此,Cosmos-Transfer1 可以在 5 秒内生成 5 秒 720p 视频,实现实时推理。
图片来源:Cosmos-Transfer1 GitHub
-
Cosmos-Reason1:
该模型系列(提供 8B 和 56B 两种参数大小)基于现实世界的物理和环境动力学,推理正在发生的事情、接下来会发生什么以及哪些行动是可行的。Cosmos-Reason1 使用 Predict1 的模拟世界和 Transfer1 的精细视觉效果来做出明智的决策,从而完善 NVIDIA 物理 AI 系统的循环。它围绕两大推理支柱:
-
物理常识:关于空间、时间、物体永久性、物理学等的一般知识。
-
具身推理:在物理约束(机器人、人类、自动驾驶汽车)下的基于agents的决策。
有趣的是,Cosmos-Reason1 使用针对长序列推理优化的混合 Mamba-MLP-Transformer 。
他们为什么要把不同的架构放在一起?
这里之所以使用它们,是因为:1)Mamba擅长捕捉长距离依赖关系——这提升了效率;2)Transformer 模块提供完全自注意力机制,这对于短距离依赖关系和高级抽象至关重要,从而提升了精度;3)最后,MLP(多层感知器)层在 Mamba 层和 Transformer 层之间提供了强大的非线性转换。它们有助于稳定学习,并成为信息整合的瓶颈,尤其是在跨模态(视频 + 文本)整合方面——这是为了灵活性而设计的。
-
图片来源:Cosmos-Reason1 原始论文
作为输出,Cosmos-Reason1 生成具有 CoT 解释和最终操作的自然语言,如上图所示。
总体而言,Cosmos-Predict1、Cosmos-Transfer1 和 Cosmos-Reason1 构成了物理 AI 的集成基础:Predict1 模拟现实世界动态,Transfer1 支持跨模态的细粒度可控视频生成,Reason1 则对物理世界进行解读和推理,从而做出具身决策。它们共同构建了一个统一的管道,赋能智能agents,使其能够观察、生成并推理复杂的现实世界环境。
我们列表中的最后一个但并非最不重要的是来自另一个人工智能巨头 Meta 的世界模型。
Meta和导航世界模型(NWM)
关于 Meta 和世界模型,首先值得注意的是,其首席人工智能科学家 Yann LeCun正在倡导世界模型。他认为,未来十年迈向人类水平的人工智能之路将依赖于开发能够进行推理和规划的世界模型。
因此,Meta 的 FAIR也转向开发世界模型,以更快地解锁其全部视角。其中之一就是与纽约大学和伯克利人工智能研究中心共同创建的导航世界模型 (NWM)。
导航是智能agents的一项关键技能,尤其是那些能够看到并移动的智能agents,例如游戏中的机器人或虚拟助手。在这里,NWM 就像一个智能视频生成器,可以根据agents之前的位置和目标位置,预测agents接下来会看到什么。它可以模拟可能的移动路径,并检查它们是否能够到达目标。对于 NWM 来说,固定规则已经过时——它可以根据新的指令或约束调整计划。
NWM 的核心是强大的条件扩散变换器 (CDiT)。CDiT 遵循基于扩散的学习过程,但它通过显著降低注意力机制的复杂度,改进了标准扩散变换器(如 DiT)。CDiT 在所有 token 上使用交叉注意力机制,而非自注意力机制,这使得它能够扩展到更长的上下文窗口和更大的模型(最多 10 亿个参数),并且 FLOP 比 DiT 少 4 倍。
图片来源:导航世界模型原始论文
NWM对于导航还有哪些其他主要优势?
-
它根据大量来自人类和机器人的第一人称视频进行训练。
-
一旦经过训练,它就可以通过模拟和检查哪些路线能够达到目标来规划新的路线。
-
该模型相当大(约 10 亿个参数),这使其能够理解复杂的场景。
-
NWM 甚至可以处理新环境——仅使用一张图像作为参考,它就可以想象完整的导航路线是什么样子。
所有这些方面使得 NWM 成为构建智能导航系统的灵活且具有前瞻性的工具。
结论:世界模型为什么重要?
我们已经介绍了许多先进的世界模型,例如 Google DeepMind 的 DreamerV3 和 Genie 2、三款 NVIDIA Cosmos WFM 以及 Meta 的导航世界模型,每个模型都有不同的骨干架构和工作原理。在这个领域还有更多值得探讨的内容。虽然已经取得了许多成就,但世界模型的发展才刚刚起步。比如,我们热切期待这些巨头以及李飞飞的世界实验室还能发明什么,以充分释放此类模型和空间智能的潜力。然而,这肯定需要时间。我们甚至可以说,世界模型的发展阶段与agents的发展阶段有些相似。这也是因为,对于物理人工智能而言,它们彼此不可或缺。
现在我们可以回答的主要问题是:世界模型为什么重要?
它们解锁了人工智能的几个关键功能:
-
规划与决策:借助世界模型,agents可以通过“想象”不同行动策略的未来状态序列并选择最佳方案来进行规划。这正是基于模型的强化学习的精髓,它能够实现高瞻远瞩的决策,并提前规划好许多步骤。
-
效率:在现实世界(或模拟器)中通过反复试验进行学习可能成本高昂或速度缓慢。世界模型允许智能体从模拟经验中学习(一种“心理练习”),从而显著减少所需的现实世界交互。
-
泛化和灵活性:一个好的世界模型能够捕捉环境的普遍属性,从而帮助智能体适应新的情境。通过理解底层动态,智能体能够通过模型推理,处理训练中从未明确遇到的情况。
-
由于世界模型可以比语言模型吸收更多的原始信息(例如视频流),因此它们有可能提供更丰富的现实基础。
-
迈向通用智能:许多研究人员将世界模型视为迈向更通用的人工智能认知的基石。它们赋予人工智能系统一种“想象力”和对世界运作方式的直觉理解——这是获得类似人类的常识、推理和解决问题能力的先决条件。
参考资料:
https://www.turingpost.com/p/topic-35-what-are-world-models