当前位置: 首页 > news >正文

CVPR 2025最佳论文详解|VGGT:纯前馈Transformer架构,3D几何感知「大一统」模型来了!

论文出处:CVPR2025

论文标题:VGGT: Visual Geometry Grounded Transformer

论文作者:Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea VedaldiChristian Rupprecht, David Novotny

项目地址:https://github.com/facebookresearch/vggt

编译:阿豹

导读

在3D视觉领域,不同任务之间往往被模型架构所隔离——估相机、做深度、建点云,各用各的网络,协同效率低下。而这篇来自Meta AI的研究打破了传统界限,提出了一个统一的几何感知框架 VGGT(View Generalizable Geometry Transformer),可以从任意数量的视图中直接推理出相机参数、点云、深度图、三维轨迹等全部关键3D属性。

与依赖繁琐几何优化的传统方法不同,VGGT 是一个纯前馈网络,既快速又简洁——重建一张图像只需不到1秒,却在多个任务上都刷新了性能指标。无论是单张图像还是上百张图像,它都能完成从2D到3D的高质量几何理解。

更重要的是,作者还证明 VGGT 不仅可用于标准几何任务,在作为特征骨干网络时,同样能大幅提升点跟踪与新视角合成等下游任务表现。这是向“通用3D视觉模型”迈出的关键一步,也为多视角几何推理开辟了更高效、更统一的道路。

图1|方法概述:VGGT 是一个大规模的前馈式 Transformer 网络,几乎不依赖三维归纳偏置,完全通过海量带有三维标注的数据进行训练。它能够同时处理多达数百张图像,并在不到一秒的时间内为每一张图像预测相机参数、点图、深度图和三维点追踪结果。即使无需任何后处理,其性能也常常超越依赖优化算法的现有方法©️【深蓝AI】编译

引入

该研究聚焦于一个核心问题:能否利用一个前馈神经网络,直接从一组图像中推理出完整的三维场景属性,包括相机参数、点图、深度图以及三维点轨迹。传统三维重建方法通常依赖于视觉几何技术,如捆绑调整(Bundle Adjustment)等迭代优化手段。虽然近年来机器学习在特征匹配、单目深度预测等任务中取得了巨大突破,并被逐步引入几何建模流程中,但视觉几何仍然是大多数三维重建系统的核心组成部分,这不仅增加了系统复杂度,也带来了不小的计算开销。

在神经网络能力日益增强的今天,该研究提出一个关键疑问:三维建模是否可以完全由神经网络端到端完成,而无需再依赖复杂的几何后处理?

已有一些研究朝这个方向迈出尝试,例如 DUSt3R 和 MASt3R,但它们仍局限于处理两帧图像,并需依赖多阶段融合操作来完成更多图像的重建。这篇文章在此基础上更进一步,提出了一种全新的方法 —— VGGT(Visual Geometry Grounded Transformer),一个前馈式大模型架构,可以从任意数量的输入视图中直接预测一整套三维属性,包括相机内外参、深度图、点云图和三维点轨迹,而且只需一次前向推理,速度可控制在几秒之内。

令人惊讶的是,即使不进行后处理,VGGT 的预测结果在多个任务上依然超过了依赖几何优化的主流方法。这表明,构建三维神经模型并不需要特别定制的几何结构或归纳偏置。事实上,VGGT 使用的是一种标准的大型 Transformer 架构,仅引入帧级与全局注意力交替机制,通过在多个公开3D数据集上训练而获得通用三维建模能力。

与 GPT、CLIP、DINO、Stable Diffusion 等通用模型类似,VGGT 被设计为一个可泛化的3D视觉骨干网络。实验表明,它所提取的特征不仅能用于三维重建,还能显著提升下游任务如动态点跟踪和新视角合成的性能。

尽管也有其他大型三维神经网络被提出,如 DepthAnything、MoGe 和 LRM,但它们通常聚焦于单一任务,例如单目深度估计或新视图合成。而 VGGT 则采用统一的共享骨干结构,同时预测多个三维属性,利用它们之间的内在联系来提升整体精度。此外,在推理阶段,该方法甚至可以从已预测的深度图和相机参数中重新计算点图,相比直接使用专门的点图预测头还获得了更高的精度。

总结来说,该研究的贡献包括:

1. 提出了 VGGT:一个大型前馈 Transformer 网络,能从单张图像、少量图像,甚至上百张图像中直接预测全部核心三维属性(包括相机参数、深度图、点图和三维轨迹),且推理效率极高;

2. 展示了该网络的预测结果可以直接使用,性能与需要复杂后处理的主流方法相比具有显著优势;

3. 表明将 VGGT 与几何优化方法(如 BA)结合时,能进一步在多个任务上取得领先效果,甚至超过了专门针对某一子任务设计的模型。

该研究已公开发布所有代码与模型,旨在为计算机视觉社区提供一种快速、可靠、通用的三维重建基础能力,推动该方向的进一步发展与应用

2|全文方法总览该模型首先通过 DINO 将输入图像划分为图像 token,并附加相机 token 以用于相机参数预测。随后,模型在帧级自注意力与全局自注意力层之间交替处理信息。相机预测由专门的相机头完成,用于输出相机的内参和外参;而所有稠密预测(如深度图、点图等)则由 DPT 头完成©️【深蓝AI】编译

具体方法与实现

该研究提出了一个前馈式 Transformer 网络 VGGT,目标是从一组图像中直接预测场景的三维几何属性。输入是一组 RGB 图像序列$(I_i)_{i=1}^{N}$,它们观察的是同一个三维场景。VGGT 将其映射为对应的一组输出结果:

●相机参数$g_i$:包括旋转(四元数)、平移向量和视场角。
●深度图$D_i$:为图像中每个像素赋予深度值。
●点图$P_i$:将每个像素映射为 3D 空间点,所有点都以第一帧相机坐标系为基准。
●三维特征图$T_i$:用于后续的点追踪任务。

特别地,为支持三维点追踪,VGGT 还提供了一个特征模块,用于从查询图像中的任意像素位置出发,找出其在其他图像中的对应点。该过程由另一个模块 T 实现,整个网络是端到端联合训练的。

此外,虽然 VGGT 同时预测了多个互相关联的几何属性(例如深度与点图可通过相机参数互推),但实验表明,显式预测这些冗余量反而有助于性能提升。
 

3VGGT方法与 DUSt3R 在真实图像上的三维点预测结果进行了定性对比。如第一行所示,VGGT的模型成功还原了油画的几何结构,而 DUSt3R 仅预测出一个略微扭曲的平面。第二行展示了两张完全无重叠区域的图像,VGGT的方法依然能够准确恢复出对应的三维场景,而 DUSt3R 则未能成功重建。第三行是一个具有重复纹理的复杂场景,VGGT的模型仍然输出了高质量的预测结果。需要说明的是,由于 DUSt3R 无法在超过 32 帧的输入下运行,VGGT未展示更多视角的预测样例©️【深蓝AI】编译

特征主干网络设计(Transformer 架构)

VGGT 并未引入过多几何归纳偏置,而是依赖大规模数据驱动学习。其主干结构为一个 Transformer 网络:

● 每张图像首先被分割为若干图像 patch,提取 token 表征,使用的是 DINO 编码器;

● 所有图像的 token 被统一输入主网络,经过 交替注意力(Alternating Attention)机制 处理。

交替注意力机制 是该网络的核心创新之一:

● 帧内注意力:在每张图像内部进行局部建模;

● 全局注意力:跨图像进行特征整合。

这种结构既保留了局部图像结构,又能统一理解跨视角几何关系,网络总计采用了 24 层注意力模块。需要指出的是,VGGT 并不采用交叉注意力层,全部依赖自注意力建模

多头预测模块(Prediction Heads)

在主干 Transformer 之后,VGGT 会为每张图像增加:

● 一个 相机 token(用于预测相机参数);

● 四个 注册 token(辅助融合场景语义);

● 图像 token 自身。

这些 token 会统一送入 Transformer 编码器,其中第一帧的 token 被设置为特殊可学习变量,用于区分参考坐标系。网络最终输出以下几种内容:

相机参数预测

通过额外的自注意力层和全连接层,网络将相机 token 映射为每一帧图像的相机内外参。

密集预测模块

图像 token 被解码为稠密特征图(通过 DPT 层),再经过卷积得到:

●深度图$D_i$
●点图$P_i$
●点追踪特征$T_i$
●每像素的不确定性估计

点追踪模块(CoTracker2 实现)
使用 CoTracker2 架构完成三维点跨视角跟踪:
●以任意图像中一个查询点为起点;
●通过双线性采样与特征对齐,获得其在所有图像中的对应点位置;
●输出全帧一致的 2D 轨迹。
这种设计可泛化至任意输入图像集,无需假设时间顺序

网络训练与数据集
损失函数设计
整个网络采用多任务损失联合训练:

${L} = \mathcal{L}_{camera} + \mathcal{L}_{depth} + \mathcal{L}_{pmap} + \lambda \mathcal{L}_{track}$相机损失:使用 Huber Loss 衡量预测相机参数与真实值差异;
●深度图与点图损失:引入 aleatoric 不确定性权重,并加入梯度损失;
●点追踪损失:计算预测点与真实点在每帧图像上的欧式距离;
●另包含可见性损失(是否出现在某帧图像中)。
坐标归一化策略
为了去除尺度和坐标系模糊性,训练数据会统一对齐到第一帧相机坐标系,并进行单位化归一化。与以往方法不同,VGGT 选择让网络自行学习归一化,而非在输出时进行变换。
实现细节
●模型参数量约为 12亿;
●总共训练 16 万步,采用 AdamW 优化器;
●使用 64 张 A100 GPU 训练 9 天;
●支持 bfloat16 精度与梯度检查点以节省显存;
●每批次随机抽取 2–24 帧图像训练。
训练数据来源
VGGT 训练使用了20余个多样化数据集,涵盖室内、室外、真实、合成场景,包括:
●Co3Dv2、BlendMVS、DL3DV、MegaDepth、Kubric、ScanNet、Habitat 等;
●同时还包括基于 SfM 推理或合成引擎构建的三维标注数据。
数据集数量和多样性与 MASt3R 相当,是目前训练 3D Transformer 的典型范式之一
 

实验

研究首先在两个常用数据集 CO3Dv2 和 RealEstate10K 上对 VGGT 进行相机位姿估计评测。采用指标 AUC@30(越高越好)衡量角度误差分布,考虑旋转与平移精度。结果显示:
●VGGT 在无需几何优化的前提下,仅通过一次前向推理,就已大幅超越包括 VGGSfM、DUSt3R、MASt3R 在内的优化型方法;
●在速度方面,VGGT 仅需 0.2 秒完成重建,而其他方法常需 7~20 秒;
●即使在未见过的 RealEstate10K 数据集上,VGGT 仍具良好泛化性;
●若结合 BA(Bundle Adjustment)进行进一步优化,VGGT 表现更佳,但即便不优化也能稳定胜出。
结论:VGGT 不仅快,而且准,突破了传统几何优化与端到端模型之间的性能边界。

4CO3Dv2与Re10K对比实验结果©️【深蓝AI】编译

多视角深度估计实验中,作者在 DTU 数据集上评估 VGGT 的多视角深度预测能力。采用三项指标:准确率(Accuracy)、完整率(Completeness)与总体评分(Chamfer 距离)。结果显示:

● VGGT 在不使用真实相机参数的前提下,表现优于 DUSt3R,并接近使用 GT 相机的 MASt3R 与 GeoMVSNet;

● 显示 VGGT 已具备原生三角化能力,无需显式构建代价体或执行相机对齐。

结论:VGGT 学会了从多个图像中直接理解三维结构,具备良好的空间几何感知

5多视角深度估计实验结果©️【深蓝AI】编译

6点图预测实验结果©️【深蓝AI】编译

点图预测实验:在 ETH3D 数据集上,VGGT 生成的三维点云在精度与完整性上均超过 MASt3R 和 DUSt3R:

● 不同于其他方法需做“全局对齐”,VGGT 的预测是纯前向推理;

● 将深度图与相机参数联合反投影,比直接预测点图精度更高;

● 实验强调了“复杂任务拆解为子任务”带来的性能优势。

结论:VGGT 的预测不仅快,而且通过模块组合达成更高的重建精度。

7作者对于动态点追踪的实验可视化©️【深蓝AI】编译

图像匹配方面,虽然 VGGT 并未专门为两视图匹配设计,其追踪模块在 ScanNet-1500 数据集上的表现依然优于当前最强方法 Roma:

● 在 AUC@5、AUC@10、AUC@20 三项指标上全面领先;

● 表明 VGGT 的通用特征具有极强的几何一致性。

结论:VGGT 的追踪特征具备强几何表征能力,可泛化至匹配任务。

8图像匹配实验结果©️【深蓝AI】编译

在消融实验中,作者设置了以下两种实验:

架构设计对比

作者验证了交替注意力(Alternating-Attention)机制相较于其他注意力结构(如仅全局注意力或交叉注意力)的优势:

● 在 ETH3D 上点图估计更准(误差从 1.061 降至 0.709);

● 架构仍然保持纯自注意力,不引入高复杂度的交叉计算。

9架构设计消融实验结果©️【深蓝AI】编译

多任务学习优势

虽然点图、深度图与相机参数之间存在冗余,但实验显示联合预测这些信息能显著提升最终三维重建性能。

结论:VGGT 设计不仅结构合理,且任务协同训练机制有效提升整体性能。

10多任务学习消融实验结果©️【深蓝AI】编译

总结

本文提出了一种名为 Visual Geometry Grounded Transformer(VGGT) 的前馈神经网络架构,能够直接从多达数百个视角中推理出场景的全部关键三维属性。该模型在多个核心3D任务上均取得了当前最先进的性能,包括:相机参数估计、多视角深度预测、稠密点云重建以及三维点追踪。

与依赖优化与后处理的传统视觉几何方法不同,VGGT 提倡一种更为简洁、高效的“纯神经网络”范式。其结构简单,推理快速,能够在无需复杂后处理的前提下,生成高质量、任务泛化能力强的三维预测结果。这种高效端到端的设计,使得 VGGT 尤其适用于对响应时间要求较高的实时三维感知应用场景。

http://www.xdnf.cn/news/1057537.html

相关文章:

  • 精益数据分析(108/126):媒体网站用户参与时间优化与分享行为解析
  • 【Unity笔记】Unity URP 渲染中的灯光数量设置— 场景、使用方法与渲染原理详解
  • Python 列表与元组的性能差异:选择合适的数据结构
  • 人机交互的趋势判断-范式革命的推动力量
  • SCRM客户关系管理软件的界面设计原则:提升用户体验与交互效率
  • 【Mysql】MySQL的MVCC及实现原理,核心目标与全流程图解
  • 获取ip地址安全吗?如何获取静态ip地址隔离ip
  • 常见航空数码相机
  • 基于SpringBoot的民宿管理平台-037
  • 【Linux指南】文件内容查看与文本处理
  • 操作系统引导和虚拟机(包含os结构,选择题0~1题无大题)
  • 编译链接实战(27)动态库实现变了,可执行程序需要重新编译吗
  • 互联网思维概念和落地
  • 如何写一个简单的python类class
  • 影视剧学经典系列-梁祝-《闲情赋》
  • 如何让DeepSeek-R1-Distill-Qwen-32B支持Function calling
  • 学习昇腾开发的第三天--将服务器连接网络
  • 【锂电池剩余寿命预测】XGBoost锂电池剩余寿命预测(Pytorch完整源码和数据)
  • 外观模式Facade Pattern
  • 02- 六自由度串联机械臂(ABB)运动学分析
  • C++面向对象编程:简洁入门
  • RPG29:制作ui基础
  • YoloV12改进策略:Block改进|MKP,多尺度卷积核级联结构,增强感受野适应性|即插即用|AAAI 2025
  • 命令模式Command Pattern
  • 多线程并发编程硬核指南:从互斥锁到生产者模型的全场景实战与原理揭秘
  • C++(初阶)(二十一)——unordered_set和unordered_map
  • Addressable-引用计数
  • DDD领域驱动设计学习路线
  • VS202静态库制作和使用指南
  • 【Android】输入路由