当前位置：首页 > news >正文

CVPR 2025最佳论文详解｜VGGT：纯前馈Transformer架构，3D几何感知「大一统」模型来了！

news 2025/6/17 11:36:22

论文出处：CVPR2025

论文标题：VGGT: Visual Geometry Grounded Transformer

论文作者：Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

项目地址：https://github.com/facebookresearch/vggt

编译：阿豹

导读

在3D视觉领域，不同任务之间往往被模型架构所隔离——估相机、做深度、建点云，各用各的网络，协同效率低下。而这篇来自Meta AI的研究打破了传统界限，提出了一个统一的几何感知框架 VGGT（View Generalizable Geometry Transformer），可以从任意数量的视图中直接推理出相机参数、点云、深度图、三维轨迹等全部关键3D属性。

与依赖繁琐几何优化的传统方法不同，VGGT 是一个纯前馈网络，既快速又简洁——重建一张图像只需不到1秒，却在多个任务上都刷新了性能指标。无论是单张图像还是上百张图像，它都能完成从2D到3D的高质量几何理解。

更重要的是，作者还证明 VGGT 不仅可用于标准几何任务，在作为特征骨干网络时，同样能大幅提升点跟踪与新视角合成等下游任务表现。这是向“通用3D视觉模型”迈出的关键一步，也为多视角几何推理开辟了更高效、更统一的道路。

图1｜方法概述：VGGT 是一个大规模的前馈式 Transformer 网络，几乎不依赖三维归纳偏置，完全通过海量带有三维标注的数据进行训练。它能够同时处理多达数百张图像，并在不到一秒的时间内为每一张图像预测相机参数、点图、深度图和三维点追踪结果。即使无需任何后处理，其性能也常常超越依赖优化算法的现有方法©️【深蓝AI】编译

引入

该研究聚焦于一个核心问题：能否利用一个前馈神经网络，直接从一组图像中推理出完整的三维场景属性，包括相机参数、点图、深度图以及三维点轨迹。传统三维重建方法通常依赖于视觉几何技术，如捆绑调整（Bundle Adjustment）等迭代优化手段。虽然近年来机器学习在特征匹配、单目深度预测等任务中取得了巨大突破，并被逐步引入几何建模流程中，但视觉几何仍然是大多数三维重建系统的核心组成部分，这不仅增加了系统复杂度，也带来了不小的计算开销。

在神经网络能力日益增强的今天，该研究提出一个关键疑问：三维建模是否可以完全由神经网络端到端完成，而无需再依赖复杂的几何后处理？

已有一些研究朝这个方向迈出尝试，例如 DUSt3R 和 MASt3R，但它们仍局限于处理两帧图像，并需依赖多阶段融合操作来完成更多图像的重建。这篇文章在此基础上更进一步，提出了一种全新的方法 —— VGGT（Visual Geometry Grounded Transformer），一个前馈式大模型架构，可以从任意数量的输入视图中直接预测一整套三维属性，包括相机内外参、深度图、点云图和三维点轨迹，而且只需一次前向推理，速度可控制在几秒之内。

令人惊讶的是，即使不进行后处理，VGGT 的预测结果在多个任务上依然超过了依赖几何优化的主流方法。这表明，构建三维神经模型并不需要特别定制的几何结构或归纳偏置。事实上，VGGT 使用的是一种标准的大型 Transformer 架构，仅引入帧级与全局注意力交替机制，通过在多个公开3D数据集上训练而获得通用三维建模能力。

与 GPT、CLIP、DINO、Stable Diffusion 等通用模型类似，VGGT 被设计为一个可泛化的3D视觉骨干网络。实验表明，它所提取的特征不仅能用于三维重建，还能显著提升下游任务如动态点跟踪和新视角合成的性能。

尽管也有其他大型三维神经网络被提出，如 DepthAnything、MoGe 和 LRM，但它们通常聚焦于单一任务，例如单目深度估计或新视图合成。而 VGGT 则采用统一的共享骨干结构，同时预测多个三维属性，利用它们之间的内在联系来提升整体精度。此外，在推理阶段，该方法甚至可以从已预测的深度图和相机参数中重新计算点图，相比直接使用专门的点图预测头还获得了更高的精度。

总结来说，该研究的贡献包括：

1. 提出了 VGGT：一个大型前馈 Transformer 网络，能从单张图像、少量图像，甚至上百张图像中直接预测全部核心三维属性（包括相机参数、深度图、点图和三维轨迹），且推理效率极高；

2. 展示了该网络的预测结果可以直接使用，性能与需要复杂后处理的主流方法相比具有显著优势；

3. 表明将 VGGT 与几何优化方法（如 BA）结合时，能进一步在多个任务上取得领先效果，甚至超过了专门针对某一子任务设计的模型。

该研究已公开发布所有代码与模型，旨在为计算机视觉社区提供一种快速、可靠、通用的三维重建基础能力，推动该方向的进一步发展与应用。

图2｜全文方法总览：该模型首先通过 DINO 将输入图像划分为图像 token，并附加相机 token 以用于相机参数预测。随后，模型在帧级自注意力与全局自注意力层之间交替处理信息。相机预测由专门的相机头完成，用于输出相机的内参和外参；而所有稠密预测（如深度图、点图等）则由 DPT 头完成©️【深蓝AI】编译

具体方法与实现

该研究提出了一个前馈式 Transformer 网络 VGGT，目标是从一组图像中直接预测场景的三维几何属性。输入是一组 RGB 图像序列 $(I_i)_{i=1}^{N}$ ，它们观察的是同一个三维场景。VGGT 将其映射为对应的一组输出结果：

●相机参数 $g_i$ ：包括旋转（四元数）、平移向量和视场角。
●深度图 $D_i$ ：为图像中每个像素赋予深度值。
●点图 $P_i$ ：将每个像素映射为 3D 空间点，所有点都以第一帧相机坐标系为基准。
●三维特征图 $T_i$ ：用于后续的点追踪任务。

特别地，为支持三维点追踪，VGGT 还提供了一个特征模块，用于从查询图像中的任意像素位置出发，找出其在其他图像中的对应点。该过程由另一个模块 T 实现，整个网络是端到端联合训练的。

此外，虽然 VGGT 同时预测了多个互相关联的几何属性（例如深度与点图可通过相机参数互推），但实验表明，显式预测这些冗余量反而有助于性能提升。

图3｜VGGT方法与 DUSt3R 在真实图像上的三维点预测结果进行了定性对比。如第一行所示，VGGT的模型成功还原了油画的几何结构，而 DUSt3R 仅预测出一个略微扭曲的平面。第二行展示了两张完全无重叠区域的图像，VGGT的方法依然能够准确恢复出对应的三维场景，而 DUSt3R 则未能成功重建。第三行是一个具有重复纹理的复杂场景，VGGT的模型仍然输出了高质量的预测结果。需要说明的是，由于 DUSt3R 无法在超过 32 帧的输入下运行，VGGT未展示更多视角的预测样例©️【深蓝AI】编译

特征主干网络设计（Transformer 架构）

VGGT 并未引入过多几何归纳偏置，而是依赖大规模数据驱动学习。其主干结构为一个 Transformer 网络：

● 每张图像首先被分割为若干图像 patch，提取 token 表征，使用的是 DINO 编码器；

● 所有图像的 token 被统一输入主网络，经过 交替注意力（Alternating Attention）机制 处理。

交替注意力机制 是该网络的核心创新之一：

● 帧内注意力：在每张图像内部进行局部建模；

● 全局注意力：跨图像进行特征整合。

这种结构既保留了局部图像结构，又能统一理解跨视角几何关系，网络总计采用了 24 层注意力模块。需要指出的是，VGGT 并不采用交叉注意力层，全部依赖自注意力建模

多头预测模块（Prediction Heads）

在主干 Transformer 之后，VGGT 会为每张图像增加：

● 一个 相机 token（用于预测相机参数）；

● 四个 注册 token（辅助融合场景语义）；

● 图像 token 自身。

这些 token 会统一送入 Transformer 编码器，其中第一帧的 token 被设置为特殊可学习变量，用于区分参考坐标系。网络最终输出以下几种内容：

相机参数预测

通过额外的自注意力层和全连接层，网络将相机 token 映射为每一帧图像的相机内外参。

密集预测模块

图像 token 被解码为稠密特征图（通过 DPT 层），再经过卷积得到：

●深度图 $D_i$ ；
●点图 $P_i$ ；
●点追踪特征 $T_i$ ；
●每像素的不确定性估计

点追踪模块（CoTracker2 实现）
使用 CoTracker2 架构完成三维点跨视角跟踪：
●以任意图像中一个查询点为起点；
●通过双线性采样与特征对齐，获得其在所有图像中的对应点位置；
●输出全帧一致的 2D 轨迹。
这种设计可泛化至任意输入图像集，无需假设时间顺序

网络训练与数据集
损失函数设计
整个网络采用多任务损失联合训练：

● ${L} = \mathcal{L}_{camera} + \mathcal{L}_{depth} + \mathcal{L}_{pmap} + \lambda \mathcal{L}_{track}$ 相机损失：使用 Huber Loss 衡量预测相机参数与真实值差异；
●深度图与点图损失：引入 aleatoric 不确定性权重，并加入梯度损失；
●点追踪损失：计算预测点与真实点在每帧图像上的欧式距离；
●另包含可见性损失（是否出现在某帧图像中）。
坐标归一化策略
为了去除尺度和坐标系模糊性，训练数据会统一对齐到第一帧相机坐标系，并进行单位化归一化。与以往方法不同，VGGT 选择让网络自行学习归一化，而非在输出时进行变换。
实现细节
●模型参数量约为 12亿；
●总共训练 16 万步，采用 AdamW 优化器；
●使用 64 张 A100 GPU 训练 9 天；
●支持 bfloat16 精度与梯度检查点以节省显存；
●每批次随机抽取 2–24 帧图像训练。
训练数据来源
VGGT 训练使用了20余个多样化数据集，涵盖室内、室外、真实、合成场景，包括：
●Co3Dv2、BlendMVS、DL3DV、MegaDepth、Kubric、ScanNet、Habitat 等；
●同时还包括基于 SfM 推理或合成引擎构建的三维标注数据。
数据集数量和多样性与 MASt3R 相当，是目前训练 3D Transformer 的典型范式之一

实验

研究首先在两个常用数据集 CO3Dv2 和 RealEstate10K 上对 VGGT 进行相机位姿估计评测。采用指标 AUC@30（越高越好）衡量角度误差分布，考虑旋转与平移精度。结果显示：
●VGGT 在无需几何优化的前提下，仅通过一次前向推理，就已大幅超越包括 VGGSfM、DUSt3R、MASt3R 在内的优化型方法；
●在速度方面，VGGT 仅需 0.2 秒完成重建，而其他方法常需 7~20 秒；
●即使在未见过的 RealEstate10K 数据集上，VGGT 仍具良好泛化性；
●若结合 BA（Bundle Adjustment）进行进一步优化，VGGT 表现更佳，但即便不优化也能稳定胜出。
结论：VGGT 不仅快，而且准，突破了传统几何优化与端到端模型之间的性能边界。