当前位置：首页 > news >正文

【三维重建】三维场景生成：综述

news 2025/8/26 8:24:47

在这里插入图片描述

标题：《3D Scene Generation: A Survey》
来源：新加坡南洋理工大学
项目：https://github.com/hzxie/Awesome-3D-Scene-Generation

文章目录

摘要
一、前言
二、准备工作
- 2.1 任务定义
- 2.2 三维场景表示
- 2.3 生成模型
三、方法：分层分类法
- 3.1 程序生成（Procedural Generation）
- - 3.1.1基于规则的生成
  - 3.1.2 基于优化的生成
  - 3.1.3 基于大语言模型的生成
- 3.2 基于神经三维生成
- - 3.2.1 场景参数（scene parameters）
  - 3.2.2 场景图（Scene Graph）
  - 3.2.3 语义布局（Semantic Layout）
  - 3.2.4 隐式布局（Implicit Layout）
- 3.3 基于图像的生成
- - 3.3.1 整体生成（Holistic Generation）
  - 3.3.2 迭代生成（Iterative Generation）
- 3.4 基于视频的生成
- - 3.4.1 两阶段生成
  - 3.4.2 一阶段生成
四、数据集
- - 4.1.1 室内数据集
  - 4.1.2 自然数据集
  - 4.1.3 城市数据集
- 4.2 评估
- - 4.2.1 基于指标的评价
  - 4.2.2 基于基准(Benchmark)的评价
  - 4.2.3 人类评价
五、应用和任务
- 5.1 三维场景编辑
- 5.2 人与场景交互
- 5.3 具身 AI
- 5.4 机器人技术
- 5.5 自动驾驶
六、挑战和未来方向
- 6.1 挑战
- 6.2 未来方向

摘要

三维场景生成旨在为沉浸式媒体、机器人技术、自动驾驶和具身人工智能等应用合成空间结构化、语义丰富且逼真的环境。早期基于程序规则的方法虽然提供了可扩展性，但多样性有限。近年来，深度生成模型（如GANs、扩散模型）和三维表示（如NeRF、三维高斯分布）的进步使得学习真实世界场景分布成为可能，提高了保真度、多样性和视角一致性。最近的进展如扩散模型通过将生成问题重新定义为图像或视频合成问题，弥合了三维场景生成与逼真度之间的差距。本综述将最先进方法分为四个范式：程序生成、基于神经网络的三维生成、基于图像的生成和基于视频的生成。我们分析了它们的技术基础、权衡因素和代表性结果，并回顾了常用的数据集、评估协议和下游应用。最后，我们讨论了生成能力、三维表示、数据和注释以及评估方面的主要挑战，并概述了有前景的方向，包括更高保真度、物理感知和交互式生成以及统一感知-生成模型。本综述整理了近期在三维场景生成方面的进展，并突出了AIGC、三维视觉和具身智能交汇处的有前景方向。

一、前言

生成三维场景的目标是创建一个空间结构合理、语义丰富且视觉逼真的三维环境。作为计算机视觉的基石，它支持广泛的应用，从沉浸式电影制作[1]，[2]到广阔的虚拟游戏世界[3][4][5]再到建筑可视化[6][7].。它还在增强现实/虚拟现实[8]，[9]，[10]，机器人模拟[11][12]，和自动驾驶[13][14]中发挥着关键作用，通过提供高保真环境来训练和测试。除了这些应用之外，三维场景生成对于推进具身人工智能[15][16][17]和世界模型[18][19][20]，至关重要，因为它们依赖于多样化的高质量场景来进行学习和评估。逼真的场景合成增强了AI代理导航、互动和适应的能力，推动了自主系统和虚拟模拟的进步。

如图1所示，近年来3D场景生成受到了广泛关注。早期的场景生成方法依赖于基于规则的算法[21]和手动设计的资产[22]，在游戏设计[23]、城市规划[24]、[25]以及建筑[26]、[27]中提供了可扩展性和控制力。然而，这些方法依赖预定义的规则和确定性算法，限制了多样性，需要大量的人工干预才能生成逼真或多样的场景[28]。深度生成模型（例如GANs [29]、扩散模型[30])的进步，使得神经网络能够通过学习现实世界的分布来合成多样且真实的三维结构。结合NeRF [31]和3D高斯分布[32]等3D表示方法的创新，基于神经网络的3D生成方法提高了几何保真度、渲染效率和视角一致性，使其成为实现照片级真实场景合成和沉浸式虚拟环境的理想选择。从单张图像出发，基于图像的场景生成方法利用相机位姿变换和图像outpaint技术，迭代合成连续视图[33][34]或全景局部环境[35][36]。基于SVD的视频生成方法将3D场景生成视为视频生成的一种形式，并通过时间建模]增强视图一致性[39]。动态3D表示的整合[40]，[41]进一步促进了沉浸式和动态环境[42]，[43].的合成。

在这里插入图片描述

与生成3D对象和虚拟形象相比，三维场景生成挑战：

1)尺寸：对象和虚拟形象通常存在于固定且有限的空间范围内，而场景则需要容纳多个实体，跨越更大、更变化的空间尺度。
2)结构复杂性：场景涉及不同对象之间的复杂空间和语义关系，要求模型确保功能的一致性和整体的合理性。
3)数据可用性：虽然大规模的对象和虚拟形象生成数据集丰富，但高质量、标注的3D场景数据集仍然稀缺且收集成本高昂。
4)细粒度控制：场景生成通常需要用户对物体放置、分区和风格等属性进行控制，这些方面难以灵活且可解释地融入模型中。

一些研究专注于特定子领域，如扩散模型[55]、文本驱动场景生成[52]或4D生成[56]，而另一些则忽视了关键表示方法，例如3D高斯分布[51]和图像序列[53][54]，以及重要的范式，如过程生成和基于视频的生成[51][53][54]。关于世界模型的综述[18][57][58]主要关注驾驶场景中的视频预测，但仅提供了部分视角。

范围。本调查主要关注生成三维场景的方法，不包括一般的视频生成[38][61]和一般的三维物体生成[62][63][64]方法，尽管它们在三维场景生成方面已展现出一定的能力。本调查补充了现有的关于三维生成模型[51][52][53][54][55]的综述，因为没有一个提供对三维场景生成及其相关见解的全面概述。

二、准备工作

2.1 任务定义

3D场景生成，使用生成模型 $G$ 将输入 $x$ （例如，随机噪声、文本、图像或其他条件）映射到3D场景表示 $S$ :

在这里插入图片描述
生成的场景S在空间上是连贯的，隐式或显式地定义3D几何，并且能够实现多视图渲染或3D重建。

2.2 三维场景表示

Voxel Grid.体素网格是一个三维数组 $V∈R^{H×W×D}$ ，每个体素存储诸如占用率或有符号距离值[65]等属性，从而实现结构化的体积场景表示。

point cloud。点云是一组无序的N个三维点 $P =$ { $p_i | p_i∈R^3$ } $^N_{i=1}$ ，用于近似物体表面。与体素网格不同，点云是稀疏的、无结构的、内存高效的，通常由深度传感器、激光雷达和运动结构[66]生成。

mesh。多边形网格 $M =$ { $M_V ,M_E,M_F$ }通过顶点 $M_V$ （空间中的点）、边 $M_E$ （顶点之间的成对连接）和面 $M_F$ （平面多边形，如三角形或四边形）定义了一个三维表面，提供了明确的连通性信息。

Neural Fields。带符号距离场（SDF）[67]和神经辐射场（NeRF）[31]是通过神经网络参数化的连续隐式函数。SDF将空间位置 $x \in R^{3}$ 映射到带符号距离 $s (x) \in R$ ，定义表面为其零水平集。NeRF将x和视图方向r∈R³映射到体积密度 $σ(x,r)∈R^+$ 和颜色 $c (x, r) \in R^{3}$ 。SDF使用球面追踪[68]渲染，而NeRF使用可微体渲染[69][70]。

3D Gaussians.3D高斯[32]使用N个3D高斯基元 $G =$ { $µ_i,Σ_i,c_i,α_i)$ } $^N_{ i=1}$ 表示3D场景，其中 $µ_i∈R^3$ 是中心， $Σ_i∈R^{3×3}$ 定义了各向异性形状， $c_i∈R^3$ 是RGB颜色， $α_i∈[0,1]$ 是透明度。图像可以通过将3D高斯渲染到2D平面上来实现。

图像序列。图像序列隐式地编码了场景的三维结构，包含来自不同视角的N张图像，例如 $C =$ { $I_i∈R^{H×W×3}$ } $^N_{i=1}$ ，是图像和视频生成方法中广泛使用的关键三维场景表示，通过多视角重建可以推断出三维结构。

2.3 生成模型

生成模型通过学习统计模式（例如，AR自回归模型、VAE[71]、GANs [29]、扩散模型[30])或应用预定义规则（例如，过程生成器）来合成数据。前者为新输出近似数据分布，后者则通过确定性或随机逻辑构建结构化的3D场景，而无需学习先验。

自回归模型(AR模型） 按顺序生成数据，每个元素都依赖于先前生成的元素。常见的AR模型建模方法是将数据的联合概率分布分解为条件概率的乘积 $\prod ^T_{t=1} p(x_t|x_{<t})$ 。这种分解直接遵循概率链式法则，确保每个元素xt都是按顺序生成的，并且依赖于所有先前的元素。条件概率 $p(x_t|x_{<t})$ 由深度生成网络[72][73]建模，这些网络学习捕捉数据之间的依赖关系。

变分自编码器（VAE） [71]是一种生成模型，它将数据编码到概率潜在空间中，再将其解码回来。给定输入x，编码器将其映射到一个由均值 $µ$ 和方差 $σ^{2}$ 参数化的潜在分布 $q (z ∣ x)$ ，其中 $z = µ + σ \cdot ϵ$ ， $ϵ \sim N (0, I)$ 。解码器则从z重建x。通过重参数化技巧，VAE实现了通过随机采样进行反向传播的能力。损失函数结合了重构损失（以保留输入特征）和KL散度（以正则化潜在空间），这使得VAE能够生成平滑且有意义的数据变化。然而，由于变分自编码器（VAEs）优化的是似然函数（平均对数似然倾向于生成“平均”样本，而不是锐利的真实样本），它们通常会将概率质量分散到真实数据流形之外（假设真实数据流形 M 是一个低维曲面，而 VAE 的解码器 $p_θ(x|z)$ 在高维空间定义了一个高斯分布。由于高斯分布有无限支撑集（即概率密度 p>0的区域覆盖整个空间），即使z采样自流形附近，解码器仍可能生成流形外的点），从而导致生成的样本模糊且缺乏细节[74][75]。

在这里插入图片描述

生成对抗网络（GANs）[29]包含两个网络——生成器G和判别器D——它们在一个最小最大博弈中竞争。生成器G接受随机噪声z并生成假数据G(z)，而判别器D则试图区分真实数据x和假数据G(z)。目标是优化生成器，使其能够生成逼真的数据，使判别器无法将其与真实数据区分开来，并训练判别器正确分类真实和假数据，这可以通过目标函数表示：

在这里插入图片描述
其中， $p_{data}(x)$ 是真实数据分布， $p_z(z)$ 是随机噪声分布。GAN的主要缺点是训练难度大，常遇到模式崩溃和不稳定等问题[76]

扩散模型[30]是一种生成模型，通过逐步向数据中添加噪声来操作，将其转化为纯噪声，然后学习逆向过程，通过去噪恢复原始数据。前向过程被建模为马尔可夫链，其中每一步xt是通过向前一步xt−1添加高斯噪声获得的，定义为 $x_t =\sqrt{1−β_t}x_{t−1}+\sqrt{β_t}ϵ_t$ ，其中 $ϵ_t$ 是高斯噪声， $β_t$ 控制噪声调度。逆向过程旨在建模 $p(x_{t−1}|x_t)$ ，学习如何逆转已添加的噪声并再生原始数据。尽管这些模型生成高质量的数据且比GAN更稳定，但由于迭代去噪过程，计算成本高昂且速度较慢[77]

程序生成器（Procedural Generators）[44]是通过迭代应用参数规则和数学运算来合成3D场景的算法系统。这些生成器将初始状态S0（例如，几何基元或空场景）通过递归或迭代过程转化为结构化的输出 $S_n$ ，该过程由 $S_{t+1}=R(S_t,Θ)$ 控制，其中R表示一组预定义的规则（例如，细分、扰动或空间划分），Θ表示可调参数（例如，种子值、扰动幅度或递归深度）。规则R定义了确定性或受约束的随机操作，当Θ固定时，确保可重复性。

三、方法：分层分类法

3.1 程序生成（Procedural Generation）

程序生成方法通过遵循预定义的规则或约束自动创建三维场景。它们在计算机图形学中广泛用于创建多样的环境，包括地形、植被、河流、道路、房间、建筑和整个城市。如表1所示，程序生成方法提供了高效率和空间一致性，但通常需要仔细调整以实现真实感和用户控制。这些方法的范式如图3所示，可以进一步分为基于规则、基于优化和基于大语言模型的生成。
在这里插入图片描述

在这里插入图片描述

3.1.1基于规则的生成

基于规则的程序生成包括一系列通过明确的规则和算法构建3D场景的方法。这些方法直接生成场景几何，然后进行渲染以供可视化。常用的技术包括基于分形、基于语法、基于模拟和基于示例的生成（ fractal-based, grammar-based,simulation-driven, 和example-based）。

分形fractal[121]、[122]、[123]是数学结构，表现出尺度上的自相似性。基于分形的方法广泛应用于地形建模和纹理合成，因为它们能够高效地生成视觉上复杂的图案，同时所需的存储空间极少。诸如中点位移[124]、[125]和分数布朗运动[126]（fBM）等技术，可以生成多尺度细节，这些细节类似于自然景观。

基于语法的方法包括一个符号字母表、初始公理和一组重写规则。每个生成的符号编码用于复杂形状生成的几何命令。CityEngine [3]扩展了L-系统[127]，用于生成道路网络和建筑几何，以创建城市。Muller等人[¨6]在形状语法[128]的基础上，建模高度详细的3D建筑。

基于模拟的程序生成通过建模自然和人工过程来创建逼真的3D环境。一些方法模拟侵蚀效果[78][129][130]和水文学[131][132][133]以高保真度生成地形。植被模拟则在资源竞争[79][134][135]和气候变化[136]下建模植物生长。在城市环境中，基于生态系统的方案用植被[137]填充城市，而其他程序神经网络3D图像视频6则模拟城市增长和资源分配，生成随时间有机演化的聚落[138][139].

基于示例example的程序方法被提出以提高可控性。这些技术利用用户提供的小样本，通过扩展其边界[140]、[141]或匹配特征[142]、[143]来生成更大的场景。逆向程序生成试图在生成过程中提供高级控制。这些方法应用优化函数从程序算法[26]、[144]中推断参数，或学习场景布局的全局分布[145]。

上述技术通常结合使用，以发挥它们的互补优势，生成大规模、多样的场景。例如，Citygen [146]集成了道路网络和建筑生成器，用于城市景观；而Infinigen [80]则结合了材质、地形、植物和生物生成器，创造出无限自然场景。

3.1.2 基于优化的生成

基于优化的生成方法将场景合成视为一个优化问题，旨在最小化编码预定义约束的目标。这些约束通常源自物理规则、功能或设计原则，并嵌入cost function中，通过随机或基于采样的方法进行优化。或者，统计方法从数据中学习空间关系，并通过概率采样指导布局过程。一些系统支持用户定义的约束和用户交互，以实现可控且语义丰富的生成。

一些方法将物理和空间约束表述为 cost function，并应用随机优化方法生成场景。物理层面的约束包括物体相互穿透、稳定性和摩擦[147]。布局层面的约束，包括功能关系（例如共现、可达性）、室内设计指南（例如对称性、对齐、共圆性）以及人类行为模式，也已被考虑[28][148][149]。高级别的约束如场景类型、大小和布局可由用户指定[15][27][150]，从而实现更可控且语义丰富的场景合成。利用现有的过程生成管道，Infinigen Indoors [81]引入了一个约束规范API，允许用户定义自定义约束并实现高度可控的场景生成。

其他方法采用数据驱动模型，从标注数据中学习物体排列模式，将场景生成转化为概率采样问题。贝叶斯网络常用于[151][152][153]捕捉物体之间的条件依赖关系，而基于图的模型[154][155][156]则建模空间层次或关系结构，以提高空间推理和物体放置的准确性。

3.1.3 基于大语言模型的生成

大语言模型[157]（LLM）和视觉语言模型[158]（VLM）通过文本驱动，实现场景合成，允许用户通过自然语言描述指定环境，为场景设计提供了更大的灵活性和用户控制。

几种方法利用大语言模型生成场景布局，例如对象参数[82][159][160][161][162][163][164][165][166]和基于场景图[167][168][169][170][171][172].。根据这些布局，可以通过对象检索或形状生成获得3D几何体。具体来说，LayoutGPT [82]使用生成提示和结构模板指导大语言模型生成用于检索资产的对象参数。CityCraft [161]利用大语言模型进行土地利用规划，并从数据库中检索建筑物资产以构建详细的都市环境。IDesign [167]和Deng等人的[168]使用基于图的对象表示更有效地建模对象间的语义关系。为了支持更加风格化和多样的场景生成，GraphDreamer [170]和Cube [172]通过大语言模型生成场景图，将节点视为对象，并通过3D对象生成模型实现组合式场景生成。scene Language [165]引入了一种基于程序、词汇和嵌入的场景表示方法，该方法可以由大语言模型生成，并使用传统、神经或混合图形管道进行渲染。

其他方法利用大语言模型作为代理，通过调整基于规则系统的参数或修改程序生成软件中的操作来控制程序生成。Liu等人[173]使用大语言模型微调基于规则的景观生成参数，利用学习到的先验知识优化程序工作流程。3D-GPT [83]和SceneCraft [174]生成Python脚本以控制现有的程序框架，如Infinigen [80]和Blender1，允许直接操作程序资产。Holodeck [175]通过与大语言模型多轮对话生成3D环境，包括地板和墙壁纹理化、门和窗户生成、对象选择和放置。CityX [24]和SceneX [84]使用多代理系统处理不同阶段的生成，通过Blender渲染生成布局、地形、建筑和道路的Python代码。WorldCraft [176]进一步集成了对象生成和动画模块。

3.2 基于神经三维生成

基于神经网络的三维生成，利用带label的数据训练生成模型，NeRF和3D高斯分布的进步进一步提高了其保真度和真实性。如表1所。这些方法有较高的视角和语义一致性，但其可控性和效率仍有限。如图4所示，根据控制生成3D场景布局的空间排列，这些方法被分为四类：场景参数scene parameters、场景图scene graph、语义布局semantic layout和隐式布局implicit layout。

在这里插入图片描述

3.2.1 场景参数（scene parameters）

场景参数提供了一种紧凑的方式来表示对象排列，隐式地捕捉了对象之间的关系，而无需依赖显式的场景图。这些参数通常包括对象的位置、大小、方向、类别和形状潜在代码。如图4a所示，这些方法首先生成场景参数作为中间表示，然后用于合成最终的三维场景

DeepSynth [85]、FastSynth [177]、Zhang等人[178]和Sync2Gen [179]采用基于CNN的架构，利用自上而下的图像场景表示，通过预测对象参数来依次插入对象。后续研究探索了更先进的模型，如Transformer和扩散模型。ATISS [86]、SceneFormer [180]、COFS [181]和Nie等人[182]使用Transformer自回归生成对象参数。RoomDesigner [183]通过解耦布局和形状生成，确保室内场景中的形状兼容性，进一步优化了这一过程。CASAGPT [184]利用立方体作为中间对象表示，更好地避免了对象碰撞。DeBaRA [185]采用扩散模型生成对象参数，而PhyScene [186]进一步结合物理约束，以提高物理合理性和交互性。

为了提高文本驱动场景生成的可控性，RelScene [187]利用BERT [188]在潜在空间中对齐文本描述与空间关系。DiffuScene [88]利用潜在扩散模型[189]从文本输入生成对象参数，随后进行对象检索。Ctrl-Room [190]和SceneFactor [191]使用LDMs从文本提示生成粗略的对象布局，分别通过全景生成和几何扩散模型获得精细外观。Epstein等人[192]、SceneWiz3D [193]和DreamScene [194]采用多阶段方法，首先生成初始对象布局，然后使用评分蒸馏采样（SDS）[195]精细化对象几何，最后进行全局精炼步骤以提高组合一致性。

人类的动作和互动常常影响环境的组织方式，其中运动模式和身体接触决定了物体和场景布局的安排。Pose2Room [196]引入了一种端到端的生成模型，能够根据人体动作预测房间内家具的边界框。SUMMON [197]和MIME [87]通过生成与人体场景接触相匹配的网格对象，进一步提高了语义一致性和物理可行性。Vuong等人提出的[198]提出了一种多条件扩散模型，结合文本提示以增强可控性。为了确保布局在物理上合理且无接触或碰撞，INFERACT [199]在优化场景布局生成的同时，利用基于物理的环境中的强化学习模拟人体运动。

3.2.2 场景图（Scene Graph）

场景图提供了一种结构化、符号化的三维场景表示方法，其中node代表对象，edge捕捉其空间关系。引入场景图使得生成模型能够强制执行空间约束并保持关系的一致性，从而有助于创建结构良好的三维环境。根据图4b所示的范式，无论是由模型生成还是作为输入提供的场景图，都充当布局先验，指导解码过程通过对象检索或形状生成来创建三维场景表示。

早期的数据驱动方法[200]，[201]，[202]，[203]使用场景图表示物体之间的空间关系，这些场景图作为通过物体检索和放置生成3D场景的蓝图。后续研究增强了图表示并引入了先进的生成模型。PlanIT [89]采用深度图生成模型来合成场景图，随后使用基于图像的网络进行物体实例化。GRAINS [90]采用递归VAE学习场景结构作为层次图，可以解码成物体边界框。3D-SLN [204]利用场景图作为3D场景布局生成的结构先验，确保空间连贯性，并进一步结合可微渲染以合成逼真的图像。Meta-Sim [205]和MetaSim2 [206]使用场景图来构建场景生成，优化参数以实现视觉真实，并使用渲染引擎合成多样化的3D场景。

先前的方法能够从场景图生成场景，但依赖于对象检索或直接合成，限制了几何多样性。为了解决这一问题，Graph-to-3D [91]引入了一种基于图的VAE，联合优化布局和形状。SceneHGN [207]将场景表示为从高层次布局到细粒度对象几何的层次图，使用层次VAE进行结构化生成。CommonScenes [92]和EchoScene [208]提出了具有双分支设计的场景图扩散模型，用于布局和形状，捕捉全局场景-对象关系和局部对象间交互。MMGDreamer [209]引入了一种混合模态图，以精细控制对象几何。

最近的方法通过整合人类输入来提高可控性。SEK [210]将场景知识编码为条件扩散模型中的场景图，用于基于草图的场景生成。InstructScene [93]将文本编码器与基于图的生成模型集成，实现基于文本的场景合成。为了将基于场景图的生成推广到更广泛的场景，Liu等人[211]将场景图映射到鸟瞰视图（BEV）嵌入图，该图指导扩散模型进行大规模户外场景合成。HiScene [212]利用VLM指导的遮挡推理和基于视频扩散的无模态补全，从单个等轴测视图生成具有组合对象身份的可编辑3D场景。

3.2.3 语义布局（Semantic Layout）

语义布局作为中间表示，编码了三维场景的结构和语义组织。它为三维场景生成提供了高层次的指导，确保物体和场景元素放置的可控性和连贯性。如图4c所示，无论是用户提供的还是自动生成的语义布局，都作为生成模型的精确约束，引导三维场景生成的同时，允许使用可选的纹理提示来控制风格。

二维语义布局由二维语义图组成，有时还包括高度图等附加地图，从俯视角度展示。CC3D [95]根据二维语义图生成三维特征体，该图作为神经渲染的NeRF。BerfScene [213]引入位置编码和低通滤波，使三维表示与BEV图保持等变性，从而实现可控且可扩展的三维场景生成。Frankenstein [214]将场景组件编码为紧凑的三平面[215]，通过扩散过程根据二维语义布局生成。BlockFusion [100]引入了一种潜在的三平面外推机制，用于无界场景扩展。将高度图与语义图结合，可以直接将二维布局转换为三维体素世界，这对于城市和自然场景尤为重要，因为建筑物结构和地形高程提供了重要的先验信息。InfiniCity [96]利用InfinityGAN [216]生成无限规模的二维布局，这些布局随后用于创建一个无缝的语义体素世界，纹理通过神经渲染合成。为了生成自然场景，SceneDreamer [97]使用神经哈希网格捕捉各种景观中的通用特征，建模出空间和场景各异的超空间。为了应对城市环境中建筑物的多样性，CityDreamer [98]和GaussianCity [217]将生成过程分解为不同的背景和建筑组件。CityDreamer4D [218]进一步整合了动态交通系统，生成了一个广阔的四维城市。

三维语义布局相比二维提供了更强的能力来表示更复杂的三维布局，通过使用体素或三维边界框提高了可控性。GANcraft [94]使用体素作为三维语义布局，通过伪真实值和对抗训练优化神经场。UrbanGIRAFFE [219]和DisCoScene [220]将场景分解为物体、天空和背景，并采用组合神经场生成场景。通过结合评分蒸馏采样（SDS）[195]，三维语义布局在文本引导的场景生成中提供了更好的控制，改善了生成场景与文本描述的一致性。Comp3D [99]、CompoNeRF [221]、Set-the-Scene [222]和Layout-your- 3D [223]使用预定义的可定制布局作为对象代理，通过组合神经场生成三维场景。SceneCraft [224]和Layout2Scene [225]通过蒸馏预训练扩散模型生成室内场景。Urban Architect [226]将几何和语义约束与SDS集成，利用可扩展哈希网格确保城市场景生成中的视图一致性。

3.2.4 隐式布局（Implicit Layout）

隐式布局是编码三维场景空间结构的特征图。如图4d所示，这些布局表现为不同维度的潜在特征。编码器学习将三维场景布局信息嵌入到潜在特征图中，然后由解码器生成以NeRF、三维高斯或体素网格形式的三维场景。

最近在NeRF和3D高斯等表示方法上的进展，使得神经网络能够直接从潜在特征图生成并渲染高保真度的RGB图像。一些方法利用这些表示，生成外观一致且具有照片级真实感的3D场景。NeRF-VAE [227]使用VAE跨多个场景编码共享信息。GIRAFFE [228]将场景表示为组合生成神经场，以分离物体与背景。GSN [101]和Persistent Nature [229]采用基于GAN的架构，生成2D潜在网格作为隐式场景布局，沿相机光线采样以指导NeRF渲染。GAUDI [102]采用扩散模型联合学习场景特征和相机姿态，将其解码为三平面和姿态，用于基于NeRF的渲染控制。NeuralField-LDM [103]将NeRF场景分解为包含3D体素、2D BEV和1D全局表示的层次潜在结构。然后在这一三潜在空间上训练层次扩散模型以生成图像。Director3D [105]使用高斯驱动的多视图潜在扩散模型，在生成轨迹上生成像素对齐且无界的3D高斯分布，随后进行SDS精炼。Prometheus [230]和SplatFlow [231]从多视图图像中学习压缩潜在空间，并将此潜在空间解码为像素对齐的3D GS表示。

另一分支的工作更侧重于生成语义结构和场景几何，通常使用体素网格作为表示。这些方法虽然无法立即渲染，但可以通过外部渲染管道进行纹理处理。Lee等人[232]引入了离散和潜在扩散模型来生成并完成由多个对象组成的三维场景，这些对象以语义体素网格的形式表示。由于体素网格带来的计算挑战，DiffInDScene [233]、PDD [234]、X 3 [104]和LT3SD [235]使用层次扩散管道高效地生成大规模和细粒度的三维场景。SemCity [236]采用三平面表示法处理三维语义场景，通过在扩散过程中操作三平面空间实现生成和编辑。NuiScene [237]将局部场景块编码为向量集，并使用扩散模型生成邻近块以生成无界户外场景。DynamicCity [238]通过采用填充展开技术将六面体[239]展开为二维特征图，并应用扩散进行去噪，从而实现四维场景生成。

3.3 基于图像的生成

基于图像的生成方法试图弥合2D和3D生成之间的差距，如表1所示，其在逐帧的处理上高效，提供了逼真度和多样性，但在深度准确性、远距离语义一致性和视图连贯性方面存在困难。这些方法分为两类：整体生成和迭代生成，如图5所示。整体生成一步生成完整的场景图像，而迭代生成则通过外推逐步扩展场景，生成一系列图像。

在这里插入图片描述

3.3.1 整体生成（Holistic Generation）

如图5a，整体生成通常依赖于全景图像，这些图像提供了完整的360°×180°视场，确保了空间连续性和明确的几何约束，减少了透视视图中出现的场景不一致。

给定一张RGB图像，早期方法[240][241][242][243][244][245]使用GAN进行图像outpainting，以填充全景图中的mask区域。更近的方法则采用先进的生成模型（如CoModGAN [246]和VQGAN [247])，以实现更大的多样性和内容控制。ImmerseGAN [106]利用CoModGAN进行用户可控的生成。OmniDreamer [248]和Dream360 [249]使用VQGAN生成多样且高分辨率的全景图。通过利用潜在扩散模型的进展，（LDM）[189]，PanoDiffusion [250]通过将深度整合到双模态扩散框架中，增强了场景结构感知能力。

Text-to-image模型（如CLIP [251]，LDM [189])能够实现基于文本的全景生成。Text2Light [35]使用CLIP进行基于文本的生成，并利用层次采样器根据输入文本提取并拼接全景patch。一些方法[252][253]利用扩散模型生成高分辨率平面全景图。然而，这些方法无法保证图像边界处的连续性，这是创建无缝观看体验的关键。为了解决这一问题，MVDiffusion [36]、DiffCollage [254]和CubeDiff [255]生成多视角一致的图像，并将其对齐成闭环全景图以实现平滑过渡。StitchDiffusion [256]、Diffusion360 [257]、PanoDiff [258]和PanFusion [107]在边界处采用填充和裁剪策略以保持连续性。

最近的方法将单视图全景生成扩展到多视图，以实现沉浸式场景探索，主要采用两种策略：一种是直接使用扩散模型生成多视图全景图像[259 DiffPano]，另一种则是应用3D重建技术（例如表面重建[190]，[260]，[261]，NeRF [108]和3D高斯喷溅[109]，[262]，[263]，[264]，[265])作为后处理）。在此背景下，LayerPano3D [109]将生成的全景图分解为基于深度的层，填充未见内容，帮助创建复杂的场景层次结构。

另一研究方向集中在从卫星图像生成几何一致的街景全景图。一些方法[266][267][268]将几何先验整合到基于GAN的框架中，以学习跨视图映射。其他方法[269][270][271]则从卫星图像中估计3D结构，并合成渲染街景全景图所需的纹理。

3.3.2 迭代生成（Iterative Generation）

如图5b，迭代始于一个初始的二维图像（图像可以由用户提供或根据文本提示生成）。首先沿着预定义的轨迹，逐步外推至大场景。通过逐步扩展和优化内容，不断优化三维场景表示，增强几何和结构的一致性。

给定单个图像，早期方法推理出三维场景表示，并渲染新视图。表示包括点云[110][272][273][274]、多平面图像[275][276]、深度图[277]和网格[278]。尽管能够实现快速渲染，但这些表示由于其有限的空间范围限制了相机移动。为了实现不受限制的相机移动，Infinite Nature [33]、InfiniteNature-Zero [34]、Pathdreamer [279]和SGAM [280]采用“render-refine-repeat”的方式，迭代地wrap先前的视图并 outpaint 缺失区域。DiffDreamer [281]通过使用扩散模型对多个过去和未来的帧进行条件化，提高了多视图的一致性。GFVS [111]和LOTR [282]不使用显式的三维表示，而是直接编码图像和相机姿态，利用变换器生成新颖视图。Tseng等人[283]、Photoconsistent-NVS [284]和ODIN [285]通过姿态引导的扩散模型改进了长期视图合成的一致性。CAT3D [286]使用多视图LDM从输入图像生成新颖视图，随后进行3D重建以实现交互式渲染。类似地，Bolt3D [287]通过多视图扩散生成场景外观和几何结构，直接输出3D高斯函数以避免耗时的优化。

基于文本的场景生成，利用预训练的 text-to-image 扩散模型[189][288]，提高了多样性和可控性。这些方法无需大量领域特定的训练，即可迭代地调整相机视角，根据文本提示输出图像。PanoGen [289]、AOG-Net [290]、PanoFree [291]、OPaMa [292]和Invisible Stitch [293]等方法在透视视图中迭代地输出图像，并无缝拼接成全景场景。其他方法则利用深度估计器[294][295][296]将RGB图像融合成统一的3D场景。SceneScape [297]、Text2Room [113]和iControl3D [298]使用3D网格作为中介代理，迭代地将扩散生成的图像融合成连贯的3D场景表示。WonderJourney [115]采用点云表示，并利用VLM引导的再生成策略确保视觉保真度。Text2NeRF [114]和3D-SceneDreamer [299]采用基于NeRF的表示方法，以减少几何和外观中的误差累积，提高在各种场景下的适应性。Scene123 [300]进一步通过使用GAN框架增强照片级真实感，其中判别器将视频生成器的输出与场景生成器的输出进行比较。通过引入3D高斯喷溅[32]，LucidDreamer [116]、Text2Immersion [301]、WonderWorld [302]、RealmDreamer [303]、BloomScene [304]和WonderTurbo [305]采用了3D高斯作为3D场景的表示方法，以实现更高质量和更快的渲染。利用最近在强大大型重建模型方面的进展[306][307][308][309][310]，SynCity [311]通过迭代执行图像outpainting、3D对象生成和拼接，实现了无需训练即可生成高质量3D场景的能力。

另一研究方向同时进行迭代视图合成和图像动画，以单张图像构建动态3D场景。3D Cinemagraphy[112]和Make-It-4D [312]使用分层深度图像（LDI）来构建特征点云，并通过运动估计和3D场景流来动画化场景。3D-MOM [313]首先通过从单张图像生成多视角图像来优化3D高斯模型，然后通过跨视角估计一致运动来优化4D高斯模型[40]。

3.4 基于视频的生成

近期视频扩散模型[38][61]在生成高质量视频内容方面取得了显著进展。在此基础上，基于视频的3D场景生成方法能够生成图像序列，实现沉浸式和动态环境的合成。如表1，这些方法通过连续生成提供高度的真实性和多样性，得益于帧间的时间连贯性。然而，它们在确保视图一致性方面面临挑战。这些方法可以分为两阶段和一阶段两类，如图6所示。
在这里插入图片描述

3.4.1 两阶段生成

如图6a，两个阶段分别针对多视角空间一致性和多帧时间连贯性。为了进一步提高视角一致性，这些生成的序列随后用于优化动态3D场景表示（例如，4D高斯[40]，可变形高斯[41])。VividDream [314]首先通过迭代图像outpaint来构建静态3D场景，然后渲染覆盖整个场景的多视角视频，并应用时间反转[315]来动画化它们，从而在各个视角上创建动态视频。PaintScene4D [316]首先根据文本描述使用视频扩散生成视频，然后通过在每个时间戳进行迭代变形和修复来精炼视频，以保持多视角一致性。同样，4Real [117]、DimensionX [42]和Free4D [317]首先生成连贯的参考视频，然后使用帧条件视频生成扩展视角角度。

3.4.2 一阶段生成

如图6b，单阶段生成将生成过程整合为单一流程，隐式地捕捉时空一致性，从而从统一模型中的任意视角和时间步长生成单视图或多视图视频。一些方法[318][319][320][321][322][323][324][325]采用视频扩散模型进行迭代视图 extrapolation，随后通过3D生成优化构建静态场景。为了生成动态场景，GenXD [119]和CAT4D [326]采用不同的多视图-时间策略，构建能够生成所有时间点的所有视图的多视图视频模型。StarGen [327]和Streetscapes [328]使用过去帧作为视频生成的指导，通过自回归方法增强长距离场景合成。利用全景图像的自然多视图3D先验，4K4DGen [43]从静态全景中采样视角图像，将其动画化并排列成动态全景。360DVD [329]、Imagine360 [330]、Genex [331]和DynamicScaler [332]将全景约束整合到视频扩散模型中，以生成球面一致的全景视频。

在视频游戏和自动驾驶的场景生成中，这些方法通过整合各种控制信号作为条件，增强了控制性和真实感。在开放世界游戏环境中，庞大的数据集包含用户输入和渲染视频，使得像DIAMOND [333]、GameNGen [334]、Oasis [335]、GameGenX [120]和WORLDMEM [336]这样的模型能够根据用户互动预测未来的帧，创建响应式的虚拟环境，作为神经游戏引擎。在自动驾驶领域，诸如DriveDreamer [337]、MagicDrive [39]、DriveWM [338]和GAIA-1 [339]等模型利用文本、边界框、鸟瞰图（BEV）地图和驾驶员动作等输入来控制复杂驾驶场景的视频生成。最近的研究进一步增强了视图一致性[340][341][342][343][344][345][346][347][348][349][350]，扩展了控制能力[118][351][352][353][354]，通过 occupancy 实现三维级控制[355][356][357][358][359]，支持多模态输出[360][361][362]，并提高了生成速度[363]和序列长度[364][365][366][367]。

四、数据集

表3总结了3D场景生成的常用数据集，按场景类型分为三类：室内、自然和城市

4.1.1 室内数据集

真实世界数据集 通过深度、DSLR或全景相机等传感器从物理场景中捕获。早期的数据集提供带有语义标签的RGB-D或全景图像（例如，NYUv2 [369]、2D-3D-S [372])，而近期的数据集如ScanNet [375]和Matterport3D [374]则提供了具有密集网格和实例级注释的3D重建。

• SUN360 [368]包含67,583张高分辨率360°×180°的全景图像，采用等距矩形格式，手动分类为80种场景类型。
• NYUv2 [369]提供了来自464个室内场景的1,449张密集标注的RGBD图像，涵盖像素级语义和实例级别的对象。
• SUN-RGBD [370]提供了10,335张RGB-D图像和重建的点云，包含丰富的标注信息，如房间类型、二维多边形、三维边界框、相机姿态和房间布局。
• SceneNN [371]提供了来自100个室内场景的502K张RGB-D帧，包含重建的网格、纹理模型、相机姿态以及面向对象和轴向对齐的边界框。
• 2D-3D-S [372]包含来自六个室内区域的超过70,000张全景图像，包括对齐的深度、表面法线、语义标签、点云、网格、全局XYZ地图和完整的相机元数据。
• Laval Indoor [373]提供2.2K高清室内全景图（7768×3884），采用HDR灯光，涵盖家庭、办公室和工厂等多种场景。
• Matterport3D [374]包含来自90座建筑的194,400张RGB-D视图中的10,800张全景图像，包含密集的相机轨迹、对齐的深度图和语义标签。
• ScanNet [375]提供1,513次扫描中的2.5M张RGB-D帧，涵盖707个不同空间，包含相机姿态、表面重建、密集的3D语义标签和对齐的CAD模型。
• Replica [377]提供18个场景中35个房间的高质量3D重建，具有PBR纹理、HDR灯光和语义注释。
• RealEstate10K [376]包含来自10K YouTube视频的1000万帧，涵盖室内和室外场景，并包含每帧的相机参数。
• 3DSSG [378]提供了来自3RScan [398]的478个室内房间的场景图，包含93个对象属性、40种关系类型和534个语义类别。
• HM3D [379]提供了1,000个高分辨率的室内空间3D重建，涵盖住宅、商业和公共建筑。
• ScanNet++ [380]包含使用激光扫描仪、DSLR和iPhone RGB-D捕获的1,000+场景，涵盖细粒度语义和长尾类别。
• DL3DV-10K [381]包含来自65个室内和半室外地点的10,510条视频序列中的51.2M帧，展示多种视觉条件，如反射和不同光照。

合成室内数据集 克服了现实世界中的局限性，如多样性有限、遮挡和标注成本高昂。通过设计布局和纹理化的3D资产，像SUNCG [382]和3D-FRONT [385]这样的数据集提供了大规模、多样化的场景。一些[383]和[384]利用先进的渲染技术，生成具有精确2D标签的逼真图像。

• SceneSynth [152]包含130个室内场景（如书房、厨房、客厅），来自谷歌3D仓库的1,723个独特模型。
• SUNCG [382]提供45,622个手动设计的场景，包含404,000个房间和570万个对象实例，涵盖84类别中的2,644个网格。
• Structured3D [383]包含196,500张来自3,500座专业设计房屋的图像，配有详细的3D注释（如线条、平面）。
• Hypersim [384]提供77,400张具有PBR材质和照明的逼真渲染图，用于生成逼真的视图合成。
• 3D-FRONT [385]提供6,813座专业设计的房屋和18,797个装饰各异的房间，填充了来自3D-FUTURE [399]的高质量纹理3D对象。
• SG-FRONT [92]通过场景图注释增强3D-FRONT。

4.1.2 自然数据集

自然场景数据集有限，主要是由于在开放的户外环境中大规模收集和标注的困难。

• Laval Outdoor [386]提供了205幅高分辨率HDR全景图，涵盖多种自然和城市景观。
• LHQ [387]汇集了来自Unsplash和Flickr的91,693张精心挑选的风景图片，专为高质量图像生成任务设计。
• ACID [33]包含210万张由无人机拍摄的海岸地区YouTube视频帧，通过结构光技术获取3D摄像机轨迹。

4.1.3 城市数据集

真实世界的数据集 主要集中在驾驶场景上，如KITTI [388]、Waymo [391]和nuScenes [392]，这得益于过去十年自动驾驶领域受到的广泛关注。另一个重要来源是谷歌的街景视图和航拍图像，例如HoliCity [393]和Google Earth[98]。这些数据集提供了丰富的标注，包括语义分割和实例分割。

• KITTI [388]，在卡尔斯鲁厄捕获，包括立体和光流对、39.2公里的视觉里程计数据以及200K+的3D物体标注，使用了Velodyne激光雷达、GPS/IMU和带有灰度及彩色相机的立体相机系统。
• SemanticKITTI [390]扩展了KITTI，为完整的360°激光雷达扫描提供密集的点级语义。
• KITTI-360 [395]扩展了KITTI，提供了73.7公里的驾驶数据、150K+的图像、1B个3D点以及密集的2D/3D标签，使用了两个180°鱼眼侧置摄像头、一个前置立体相机和两个激光雷达。
• Cityscapes [389]提供来自50个城市的街景视频，具有5K像素级和20K粗略标注，适用于强监督和弱监督。
• Waymo [391]提供1150个20秒场景（总计6.4小时）的100万帧图像，包含1200万个3D框和990万个2D框，这些数据是在旧金山、山景城和菲尼克斯收集的，使用了5个激光雷达和5个高分辨率针孔相机。
• nuScenes [392]提供来自波士顿和新加坡1000个20秒场景的140万张图像和39万个激光雷达扫描数据，使用了6个摄像头、1个激光雷达、5个雷达、GPS和IMU，并进行了23类别的3D框跟踪。
• HoliCity [393]将6,300幅高分辨率全景图（13312×6656）与伦敦市中心的CAD模型进行图像-CAD融合。
• OmniCity [394]提供来自纽约市25,000个地点的100K+像素标注的街道、卫星和全景图像。
• GoogleEarth [98]提供来自400条Google Earth轨迹的24K纽约图像，包含2D/3D语义和实例掩码以及相机参数。
• OSM数据集[98]来自Open street Map，提供全球80+城市的鸟瞰视图语义地图、高度场和道路、建筑及土地利用的矢量数据。

现实世界的标注既昂贵又视角受限。像CARLA [13]和CityTopia [218]这样的 合成数据集 ，由游戏引擎构建，提供了多样化的街道和无人机视角，并附有丰富的2D/3D标注。

• CARLA [13]是基于虚幻引擎的开源模拟器，提供多样的城市环境、传感器模拟（摄像头、激光雷达、雷达）以及可定制的驾驶场景，控制天气、光照、交通和行人行为，支持无限渲染RGB图像及其相应的2D/3D注释。
• CarlaSC [397]提供了来自8张地图的24条序列中的43.2K帧语义场景，这些场景由虚拟LiDAR传感器在不同交通条件下捕捉。
• Virtual-KITTI-2 [396]使用Unity复制了5条KITTI序列，提供在不同条件下的逼真视频，包含深度、分割、光流和物体跟踪的密集注释。
• CityTopia [218]在虚幻引擎中提供了来自11个程序化城市的37.5K帧逼真图像，并附有精细的2D/3D注释，展示多变的光照和空中/街景视角。

在这里插入图片描述

4.2 评估

4.2.1 基于指标的评价

Fidelity（保真度），即图像和视频生成的指标，特别是对于可渲染输出如NeRF、3D高斯或图像序列。Frechet Inception Dis- ´
tance (FID) [400], Kernel Inception Distance （KID）[401]和Inception Score（IS）[402]广泛用于评估渲染图像与真实样本之间的分布相似性。FID和KID计算从预训练的内皮斯网络中提取特征分布之间的统计距离，而IS则基于分类置信度测量图像质量和多样性。SwAVFID [403]、FDD [404]和FIDCLIP [405]探索替代特征空间，以更好地与人类评价相关。无参考图像质量指标如自然图像质量评估器（NIQE）[406]、盲/无参考图像空间质量评估器（BRISQUE）[407]用于直接从图像统计中估计感知质量。CLIP-IQA [408]结合CLIP特征与学习的IQA模型，以更好地在文本或语义条件下与人类感知对齐。为了评估三维空间中的照片级真实感，F3D [234]是FID的3D版本，基于预训练的自动编码器和3D卷积神经网络架构。除了感知评分外，一些指标还评估生成样本与真实样本之间的分布对齐情况。最小匹配距离（MMD）[409]衡量了不同分布中最接近点之间的平均成对距离，覆盖率（COV）[409]测量生成样本覆盖目标分布的程度，而最近邻准确性（1-NNA）[410]通过使用最近邻检索分类样本来估计模式塌陷或过拟合。

Spatial Consistency（空间一致性） 指标评估生成场景的三维几何和多视角对齐。对于深度误差，可以使用最先进的单目深度估计模型获得伪真实深度图，而场景的深度图则可以通过可靠的结构从运动（SfM）管道如COLMAP [66]获得。对于相机姿态误差，COLMAP还用于从渲染序列中估计相机轨迹。这些预测值与真实值之间的距离使用距离函数计算，例如L2距离、RMSE和尺度不变均方根误差（SI-RMSE）[411]。

Temporal Coherence（时间连贯性） 是评估生成的3D场景随时间变化的关键指标，尤其适用于动态场景或基于视频的输出。流变形误差（FE）[412]通过计算两帧之间光流的变形误差来衡量视频的时间稳定性。弗雷歇视频距离（FVD）[413]基于FID的基本原理，引入了一种不同的特征表示方法，不仅捕捉每帧的质量，还捕捉视频的时间连贯性。专注于生成视频中的复杂运动模式，弗雷歇视频运动距离（FVMD）[414]设计了基于关键点跟踪的显式运动特征，通过弗雷歇距离测量这些特征之间的相似性，以评估生成视频的运动连贯性。

Controllability（可控性） 评估了对用户输入做出响应的能力。CLIP Score [415]利用预训练的CLIP模型来衡量生成图像与条件文本之间的匹配度，反映了生成内容是否忠实地遵循用户指定的提示。

Diversity（多样性） 指的是产生多种输出的能力。类别分布KL散度（CKL）[177]将合成场景中的对象类别分布与训练集进行比较，较低的散度表示更好的多样性。场景分类准确性（SCA）[177]使用训练好的分类器来区分真实场景和生成场景，衡量合成场景的分布与真实场景的分布匹配程度。

Plausibility（合理性） 衡量生成场景是否符合物理和语义约束。碰撞率衡量场景中所有生成对象中发生碰撞的对象比例。超出范围对象区域（OBA）评估场景中累积的超出范围对象区域。

4.2.2 基于基准(Benchmark)的评价

为了促进对各种3D场景生成方法的公平、可重复和全面评估，近期研究越来越多地采用标准化基准测试套件，这些套件整合了多种指标、任务配置和质量维度。这一趋势标志着从仅依赖孤立的定量指标转向采用更全面、与任务对齐的评估方法，更好地反映现实应用的复杂性。

Q-Align [416]采用大型多模态模型（LMMs）来预测与人类判断一致的视觉质量评分。它涵盖了三个核心维度：图像质量评估（IQA）、图像美学评估（IAA）和视频质量评估（VQA）。在推理过程中，收集平均意见得分并重新加权以获得LMM预测的评分。

VideoScore [417]通过在大规模的人工反馈数据集上训练AI评估模型来替代人工评分，实现视频质量评估。它提供了五个方面的评估：视觉质量（VQ）、时间一致性（TC）、动态程度（DD）、文本到视频对齐（TVA）和事实一致性（FC）。

VBench [418]和VBench++ [419]是全面且多功能的视频生成基准测试套件。它们涵盖了视频生成中的16个维度（例如，主体身份不一致、运动平滑度、时间闪烁和空间关系等）。VBench-2.0 [420]进一步应对了与内在忠实度相关的更复杂挑战，包括常识推理、基于物理的真实感、人体运动和创意构图。

WorldScore [421]统一了对3D、4D和视频模型的评估，以测试它们根据指令生成世界的能力。它将3D场景生成的评估转化为一系列由摄像机轨迹引导的下一场景生成任务，同时测量了可控性、质量和动态性的各种细粒度特征。

4.2.3 人类评价

用户研究仍然是捕捉3D场景生成的主观品质的重要组成部分，这些品质很难通过自动指标量化，如视觉吸引力、真实性和感知一致性。参与者通常被要求根据多个方面对生成的场景进行排名或评分，包括照片真实性、美学、输入一致性（例如文本或布局）、视图间的3D一致性以及物理或语义上的合理性。理想情况下，参与者应包括领域专家（如3D艺术家、设计师、研究人员）和普通用户。他们的反馈提供了互补的观点：专家可能提供更批判性和结构化的见解，而非专家则更好地反映了普通用户的印象。

尽管人工评估具有资源密集性和固有的主观性，但它们提供了重要的定性见解，通过捕捉现实世界中的用户偏好，补充了其他评估方法。像Prolific4和Amazon Mechanical Turk（AMT）这样的平台促进了多样化的参与者招募，并使用户研究能够高效地扩展。

五、应用和任务

5.1 三维场景编辑

3D场景编辑涉及改变场景的外观和结构，从单个对象修改到完整环境定制。它广泛包括纹理编辑，重点是生成风格化或逼真的表面外观，以及布局编辑，涉及以物理和语义上合理的方式排列对象

Texturing and stylization 旨在根据用户需求创建美观且时尚的外观。尽管最近的技术在扫描网格[422][423][424]或合成室内数据集[425][426][427]，上取得了令人印象深刻的效果，但这些方法受到重建或大量手动建模导致的几何不完整性的限制。为了克服这些局限，近期的方法利用3D场景生成技术来合成完整且语义一致的场景，直接支持纹理生成任务。例如Ctrl-Room [190]、ControlRoom3D [261]、RoomTex [428]和DreamSpace [429]等方法采用整体生成技术创建全景房间纹理，随后进行详细优化。除了直接生成外，3D场景生成还促进了纹理化方法的评估。InstanceTex [430]在现有数据集和由EchoScene [208]生成的新场景中生成纹理，提高了基准评估的多样性和鲁棒性。

三维场景布局编辑 专注于在场景中排列对象，以生成具有语义意义且物理上合理的配置。几种方法，如LEGO-Net [431]、CabiNet [432]和DeBaRA [185]，解决了现有场景的重新排列问题。这些方法利用对象级别的属性，如类别标签、位置和方向，来产生更加有序和规则的布局。一些方法支持更互动和动态的布局编辑。例如，SceneExpander [433]和SceneDirector [434]通过直观的用户交互实现实时编辑，如修改房间形状或移动对象，并自动更新周围对象以保持空间连贯性。最近在组合生成NeRF方面的进展进一步推动了布局控制的边界，使得可以编辑隐式表示。DisCoScene [220]、Neural Assets [435]和Lift3D [436]通过调整控制信号，如空间位置或潜在特征，实现了对象级别的编辑，允许灵活且可控的场景操作。

5.2 人与场景交互

人机场景交互（HSI）专注于建模人类如何与环境互动并影响环境。逼真的角色动画和行为建模需要合成虚拟角色与其环境之间可信的互动。近年来，HSI在生成三维环境中真实且物理上合理的动作方面取得了显著进展[437]、[438]、[439]，同时在创建符合特定动作序列的场景方面也取得了进展[87]、[197]、[198]。

为了生成基于场景环境的人类运动，一些方法[437][440][441][442]直接从包含扫描室内场景和捕捉到的人类运动的数据集中学习[443][444][445].然而，这些数据集通常在可扩展性方面有限制，并且仅限于静态场景，无法建模动态的人物与物体之间的互动。其他一些研究[438][439][446][447][448]则利用强化学习的模拟环境来生成物理上合理的运动。然而，由于高昂的设置成本，这些模拟往往依赖于简化的场景，导致合成训练与现实应用之间存在差距，而现实世界中的环境更为复杂多变。

最近的工作GenZI [449]，最初通过将生成的人类在二维图像中提升到三维，实现了对新场景的零样本泛化。尽管GenZI仍然依赖预先设计的合成场景进行评估，但它突显了将场景生成与动作生成相结合以更有效地扩展高光谱影像数据的潜力。整合高质量的三维场景生成对于推进可扩展且逼真的高光谱研究至关重要，特别是通过联合考虑人类的能力、动作可行性以及场景语义。

5.3 具身 AI

在具身智能中，智能体与环境互动，以发展高级语义理解和目标导向行为。3D场景生成通过提供视觉和功能丰富的环境来支持这一点，这些环境能够实现导航、探索和指令跟随等任务，重点在于认知推理而非精确的物理控制。

模拟环境通常基于重建的真实世界数据[379]、[450]或手动设计的场景[451]、[452]构建，但两种方法都有局限性：真实世界的数据库存在质量和标注问题，而手动创建则劳动密集且难以扩展。在这种背景下，3D场景生成为体感AI研究提供了可扩展、多样且物理上合理的替代方案。对于室内环境，ProcTHOR [15]使用过程生成技术来制作遵循真实布局和物理约束的场景。Holodeck [175]利用大语言模型自动生成符合用户提供的提示的3D环境。InfiniteWorld [453]进一步扩展资产，使用不同的纹理以创造更多样化和时尚的场景。PhyScene [186]将物理和交互约束整合到条件扩散模型中，合成出合理互动的环境。Architect [454]采用迭代图像修复技术，填充大型家具和小型物品，丰富场景复杂度。除了室内环境之外，程序化方法还实现了城市规模的模拟。MetaUrban [17]、GRUtopia [16]和URBAN-SIM [455]构建了多样化的大型城市环境，供具身代理使用。EmbodiedCity [456]基于真实城市提供高质量的三维现实环境，支持各种代理、连续决策和系统基准任务，助力具身智能的发展。

5.4 机器人技术

在机器人领域，3D场景生成使机器人能够在物理上逼真的环境中学习操作和控制等低级技能。这些场景通常嵌入到模拟器中，在模拟器中，动力学和接触的精确建模对于训练机器人感知、规划和有效行动至关重要。

模拟环境已成为开发机器人能力的核心工具，涵盖各种任务，包括复杂的操作和移动。然而，最近的机器人学习方法[457][458][459][460][461][462]需要大量的人力来构建这些环境及其相应的演示，这限制了即使在模拟世界中机器人的学习可扩展性。RoboGen [463]和RoboVerse [464]通过一个 propose-generate-learn 循环自动化任务、场景和监督的生成过程，在此过程中，代理提出技能，生成具有合理物体布局的环境，并以最少的人工输入进行学习。Eurekaverse [465]进一步通过使用大语言模型逐步生成多样且越来越具挑战性的地形，形成适应性的跑酷训练课程。

除了明确构建模拟环境外，3D场景生成还作为世界模型，用于预测未来帧，这些帧以视觉方式表示预期的动作，使机器人能够在虚拟环境中模拟和预测复杂的操作任务。专注于机器人的视频生成模型[466][467][468][469][470][471][472][473][474][475][476]旨在根据文本或图像等输入合成视频，特别是帮助机器人通过预测未来动作序列来可视化和规划复杂的操作任务，以物理上合理的方式进行。一些方法[477]，[478]，[479]不直接生成视频帧，而是利用NeRFs和动态3D高斯分布捕捉现实世界的时空复杂性和语义信息，从而实现更精确的运动估计和规划。

5.5 自动驾驶

3D场景生成能够提供可控、可扩展且多样的真实环境模拟。这些功能有助于克服现实数据集和环境的局限性。它支持自动驾驶系统的关键组件，如预测建模和数据生成。

几种3D场景生成方法作为自动驾驶的世界模型，能够实现未来的场景预测、风险预判以及更安全、更高效行动的规划。一些[39][118][337][338][339][355][364][366]专注于预测未来的视频帧，而另一些[480][481][482][483][484]则生成3D占用图以显式建模环境。通过高保真生成，DriveArena [351]和DrivingSphere [359]引入了闭环模拟器，用于训练和评估自动驾驶代理，使代理能够在闭环环境中持续学习和进化。

自动驾驶需要大量多样化的数据集，但像nuScenes [392]、KITTI [388]和Waymo [391]这样的真实世界数据集成本高昂且很少能捕捉到关键的边缘情况。可控视频生成方法如[341][343][344][345]和[353]通过合成多样的驾驶场景来解决这一问题，这些方法可以灵活控制天气、光照和交通状况，特别是针对罕见和安全至关重要的事件。

六、挑战和未来方向

6.1 挑战

生成能力。现有的生成模型在同时满足照片级真实感、三维一致性和可控性方面存在权衡。基于程序和神经网络的3D方法擅长生成几何连贯且空间布局可控的场景，但在产生照片级真实的纹理和光照方面往往力不从心。相比之下，基于图像和视频的生成模型虽然实现了高度视觉真实感，但在保持三维一致性方面却难以应对，导致诸如几何扭曲、物体交互不真实或物理动态不合理等问题。因此，当前模型仍难以合成既视觉上合理又物理上可信的复杂多对象场景。

三维表示。该发展经历了从以几何为中心的格式，如体素网格和点云，这些格式难以捕捉照片级的真实外观，到NeRFs，后者提高了视觉质量但仍然效率低下且缺乏明确的几何结构。最近的进展，如3D高斯泼溅，提供了更好的效率，但仍缺乏几何基础，限制了它们在重光照或物理交互等任务中的应用。 Mesh- and Bezier-triangle-based 方法[485-487：EdgeRunner（CVPR, 2024），BG-Triangle（CVPR, 2025），TetSphere Splatting（ICLR, 2025）]部分解决了这些局限性，通过引入显式的表面表示，但它们主要局限于对象级别的生成。紧凑、物理上有意义且视觉上真实的场景级别表示仍然是一个开放的挑战，阻碍了可控和可泛化的三维场景生成的进步。

数据与注释。3D场景生成的进步紧密依赖于数据集的质量。合成数据集提供了精确的注释，但由于当前游戏引擎的渲染限制，内容多样性有限且照片级真实度欠佳。相比之下，现实世界的扫描提供了视觉上逼真的图像，但往往缺乏足够的注释。虽然基于图像和视频的生成方法减轻了注释需求，但仍难以捕捉准确的3D几何结构，常导致空间扭曲。此外，现有数据集很少包含丰富的元数据，如物理可用性、材质属性或交互提示，这阻碍了其在机器人技术、具身人工智能和物理模拟等领域的广泛应用。

评估。三维场景生成中一个持续的挑战是缺乏统一的评估协议。方法通常依赖于不同的指标，阻碍了一致性的比较。基于基准的工作[420][421]已经部分解决了这一问题，通过引入标准化和人类对齐的评估框架。然而，当前的基准主要依赖于文本或图像，对布局、动作或轨迹等其他输入的支持有限。此外，评估仍然主要集中在图像和视频保真度上，未能充分评估底层的三维几何结构和物理合理性。最近的工作如Eval3D [488]引入了一个开始解决三维结构、语义和几何一致性问题的基准，尽管它仍局限于对象级别的生成，缺乏场景级别的复杂性。

6.2 未来方向

更好的保真度。高保真3D场景生成需要几何、纹理、光照和多视角的一致性。虽然当前方法通常在几何精度和视觉丰富性之间做出权衡，但未来的模型应致力于弥合这一差距，同时考虑结构和外观。关键目标包括改进材质和光照建模、跨视角保持物体身份的一致性，以及捕捉阴影和遮挡等细微线索。实现场景级别的保真度还意味着将局部细节与全局空间和语义连贯性对齐，从而创建更真实且有用的3D环境。

物理感知生成。尽管视觉技术取得了显著进步，但当前的方法往往忽视了生成场景的物理合理性。为了确保物体放置和动作符合物理规律，未来的研究应将物理先验、约束或模拟纳入生成过程。新兴方法，如基于物理反馈的可微模拟器[489]，为联合优化结构、语义和物理行为提供了有希望的途径。这些能力对于具身人工智能和机器人技术尤为重要，因为代理需要依赖物理一致的环境来进行有效的规划和控制。

交互式场景生成。近年来，4D场景生成技术的进步使得动态环境的创建成为可能，这些环境中包含可移动物体。然而，这些场景大多不具备互动性，物体不会响应用户输入或环境变化。因此，当前的生成模型产生的体验往往是被动而非主动的。未来的一个关键方向是交互式场景生成，在这种场景中，物体能够有意义地回应物理互动、用户指令或情境变化。要实现这一点，模型需要超越几何和运动，融入关于物体功能、因果关系和多智能体动态的推理。

统一感知生成。一个有前景的前沿领域在于将感知和生成统一在一个共享模型下。诸如分割、重建和场景合成等任务可以从共同的空间和语义先验中受益。此外，生成任务本质上需要理解输入模态。统一架构可以利用双向能力：通过感知基础增强生成性能，并通过生成建模提高场景理解。这样的模型可以作为具身代理的一般用途骨干，支持视觉、语言和三维空间表示之间的联合推理。