当前位置：首页 > backend >正文

论文阅读：WildGS-SLAM：Monocular Gaussian Splatting SLAM in Dynamic Environments

backend 2025/7/15 12:57:36

WildGS-SLAM 是一种面向广义场景感知（Generalized Scene Perception）的 SLAM（Simultaneous Localization and Mapping）系统，具有较强的泛化能力，适用于室内、室外、多模态等多种复杂环境。

论文地址：WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

代码地址：GitHub - GradientSpaces/WildGS-SLAM: [CVPR 2025] WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

前言

🧠 一、研究背景（Research Background）

🌟 二、概要（Overview）

🎯 三、Motivation（研究动机）

🧱 四、系统结构概述（System Overview）

🔄 五、详细流程（Pipeline）

🧪 六、技术细节亮点（Technical Details）

📈 七、实验评估

✅ 八、总结（Conclusion）

前言

📌 推测特性（基于命名和研究趋势）

方向	说明

Wild

暗示系统可在“野外”或未结构化场景下稳定工作，具有强鲁棒性和泛化能力。

GS	可能代表 Generalized Scene（广义场景）、Gaussian Splatting（高斯投影）等含义。若是后者，可能融合了 3D Gaussian Splatting 渲染/建图技术。

SLAM

表明该系统可实现同时定位与建图，可能融合视觉、IMU、深度等多源数据进行优化。

WildGS-SLAM是一个针对动态环境设计的单目视觉SLAM（Simultaneous Localization and Mapping）系统。该项目通过先进的单目高斯散点SLAM技术，能够准确跟踪相机轨迹并重建静态元素的3D高斯地图，同时有效移除所有动态干扰成分。WildGS-SLAM不仅适用于静态场景，更在存在动态干扰的复杂环境中展现出卓越性能，为机器人导航、增强现实等领域提供了强大的技术支持。

🧠 一、研究背景（Research Background）

传统 SLAM 方法通常假设场景是静态的，然而在现实世界中，经常存在动态干扰（moving distractors）如人群、车辆等，导致特征匹配失效、跟踪漂移等问题。

以往的动态环境 SLAM 方法尝试通过语义分割、运动分割、光流估计等手段解决此问题，但它们：

通常依赖于深度相机或语义先验；
泛化能力差；
在真实世界的复杂动态环境中表现不佳。

WildGS-SLAM 针对这一难题提出了纯几何、单目输入、可处理高动态场景的全新解决方案。

🌟 二、概要（Overview）

WildGS-SLAM 是一种基于 3D Gaussian Splatting（3DGS）表示的单目视觉 SLAM 系统，具备以下核心能力：

在动态环境下实现稳健的相机跟踪与三维重建；
利用预训练的 DINOv2 图像特征和浅层 MLP 预测像素级不确定性，以此弱化动态目标对跟踪与建图的干扰；
构建高质量、可渲染的静态场景 3D 高斯地图；
支持高保真视角合成，无伪影渲染效果。

关联关键词解析：

        SLAM（Simultaneous Localization and Mapping，同时定位与建图）：SLAM是一种用于机器人、无人机和增强现实等领域的关键技术，旨在同时构建环境地图并估计设备在其中的位置。WildGS-SLAM是SLAM的一种改进版本，特别适用于动态环境。
        不确定性图（Uncertainty Map（用于表示场景中各点的不确定性程度））：不确定性图是WildGS-SLAM的核心组件之一，用于指导动态物体的移除。它通过MLP和DINOv2特征生成，为系统提供了对场景中不确定性的量化描述，从而优化了跟踪和映射过程。
        DINOv2（DIstilled Non-parametric Optimization v2，蒸馏非参数优化v2）：DINOv2是一种基于自监督学习的视觉特征提取方法，在WildGS-SLAM中被用来生成不确定性图。它的高性能特征提取能力为系统的动态物体移除提供了重要支持。
        密集束调整（Dense Bundle Adjustment（用于优化三维重建和相机姿态估计的方法））：密集束调整是SLAM系统中常用的优化技术，用于提升重建精度和相机位姿估计的准确性。WildGS-SLAM通过不确定性图增强了这一过程，从而在动态环境中表现出色。
        高斯地图优化（Gaussian Map Optimization（用于优化基于高斯分布的地图表示的技术））：高斯地图优化是WildGS-SLAM中用于提高地图质量的重要步骤。通过结合不确定性图，系统能够更准确地表示场景的几何结构，减少重建误差。
        动态环境（Dynamic Environments（包含移动物体或变化条件的场景））：动态环境是WildGS-SLAM的主要应用场景，与传统SLAM系统假设静态场景不同，WildGS-SLAM通过不确定性感知技术成功应对了动态场景中的挑战。

🎯 三、Motivation（研究动机）

现实场景中动态目标普遍存在，使得传统静态假设的 SLAM 方法不可用。
需要无需语义先验、无需深度输入，即可从 RGB 视频中提取可靠几何信息。
借助不确定性建模，有望更好地区分静态与动态区域，实现更鲁棒的建图。
3D Gaussian Splatting 作为新兴表示方式，能支持快速优化、高质量渲染和增量建图，适合在线 SLAM 系统。

🧱 四、系统结构概述（System Overview）

上图是系统概述。WildGS-SLAM以一系列RGB图像作为输入，同时估计相机的姿态，并构建静态场景的3D高斯地图G。由于包含不确定性估计模块，我们的方法在动态环境中更加鲁棒。该模块首先使用预训练的DINOv2模型提取图像特征。随后，一个不确定性多层感知机（MLP）P利用这些提取的特征预测每个像素的不确定性。在跟踪过程中，我们利用预测的不确定性作为密集束调整（DBA）层中的权重，以减轻动态干扰物的影响。此外，我们进一步使用单目度量深度来辅助姿态估计。在建图模块中，预测的不确定性被整合到渲染损失中以更新G。同时，不确定性损失被并行计算以训练P。需要注意的是，P和G是独立优化的，如灰色虚线所示的梯度流。为了确保匿名性，面部已被模糊处理。

WildGS-SLAM 的主要模块如下：

输入：单目 RGB 视频序列
↓
1. 图像特征提取：DINOv2（预训练）
2. 不确定性预测：MLP 网络
3. 跟踪模块：- DROID-SLAM 主体- 深度与不确定性加权的稠密束调（DBA）
4. 建图模块：- 基于 3D Gaussian 表示构图- 不确定性引导的渲染损失优化
5. 并行优化：- 相机轨迹优化- 高斯图优化- 不确定性 MLP 优化
输出：静态 3D Gaussian 地图 + 相机轨迹 + 可合成视图

🔄 五、详细流程（Pipeline）

特征提取：
- 使用 DINOv2 提取 2D 图像特征。
- 输入到浅层 MLP，预测每个像素的不确定性（越动态，越高）。
跟踪阶段：
- 使用 DROID-SLAM 框架进行稠密 BA（DBA）。
- 融合 Metric3D V2 估计的深度信息。
- 使用不确定性 β 作为 DBA 中的权重抑制动态区域对 pose 优化的干扰。
- 引入视差正则项进一步稳定跟踪。
建图阶段：
- 构建 3D Gaussian 地图：每个点包含颜色、透明度、均值和协方差。
- 通过不确定性加权的渲染损失优化 Gaussian 参数。
- 引入各项正则项（颜色、深度、各向同性）进行约束。
- MLP 与 Gaussian 图同步但独立优化，避免梯度冲突。

WildGS-SLAM 的系统的工作原理

该系统旨在解决动态环境下的相机姿态跟踪和场景重建问题，主要目标是处理场景中的移动物体以提高精度。原文分四步详细阐述了其核心工作流程：

1. 场景重建与相机姿态跟踪：

系统首先接收一系列RGB帧，并在重建场景的静态部分为3D高斯地图的同时，跟踪相机的姿态。这一步骤强调的是静态场景的建模，忽略了动态的内容。

2. 逐像素不确定性解码：

为了应对动态环境中移动物体对跟踪和重建的干扰，系统引入了基于深度学习技术的DINOv2特征提取模块，并结合浅层MLP（多层感知机）来生成逐像素的不确定性。这一过程的核心是识别哪些区域受到移动物体的影响，从而降低其权重或剔除其影响。

3. 不确定性整合到光流跟踪：

上述逐像素不确定性被整合到基于光流的跟踪组件中，以提升跟踪的鲁棒性（Robustness）。这一步骤确保动态物体不会对相机姿态的估计产生显著干扰。

4. 不确定性驱动的3D高斯地图优化：

在与跟踪并行的过程中，系统利用不确定性信息来逐步扩展和优化3D高斯地图。通过引入不确定性感知（Uncertainty-aware）的损失函数，系统能够更准确地表示场景的静态部分，同时减少动态物体的干扰。

关联关键词解析：

WildGS-SLAM（WildGS-SLAM）： WildGS-SLAM 是一种用于动态环境的SLAM（Simultaneous Localization and Mapping，同时定位与地图构建）系统。它结合了光流跟踪、3D高斯地图重建以及逐像素不确定性估计，旨在应对动态场景中的挑战，特别是在存在移动物体的情况下。
DINOv2（DINOv2）： DINOv2 是一种自监督学习方法，用于提取图像特征。在WildGS-SLAM中，DINOv2 被用来生成逐像素的不确定性，从而帮助系统识别和排除动态物体的影响。
MLP（Multi-Layer Perceptron，多层感知机）： MLP 是一种常见的神经网络结构，通常由多个全连接层组成。在这里，浅层MLP被用来解码DINOv2提取的特征，生成逐像素的不确定性。
Optical Flow（光流）：光流是一种计算机视觉技术，用于估计连续帧之间的像素运动。在WildGS-SLAM中，光流被用作跟踪组件的基础，通过整合逐像素不确定性来提高跟踪精度。
3D Gaussian Map（3D高斯地图）： 3D高斯地图是一种用于表示场景几何和外观的数学模型。在WildGS-SLAM中，它被用来重建场景的静态部分，并通过不确定性感知的损失函数进行优化。
Uncertainty-aware Loss Functions（不确定性感知的损失函数）：不确定性感知的损失函数是一种优化策略，能够在训练过程中考虑数据的不确定性。在WildGS-SLAM中，这些损失函数被用来逐步优化3D高斯地图，使其更准确地反映场景的静态部分。
Dynamic Environment（动态环境）：动态环境是指包含移动物体或变化条件的场景。WildGS-SLAM 的设计目标正是在这种复杂环境中实现鲁棒的相机姿态跟踪和场景重建。

🧪 六、技术细节亮点（Technical Details）

模块	技术
表示	3D Gaussian Splatting（支持可微渲染）
不确定性建模	DINOv2 + MLP 联合训练，输出 per-pixel β
跟踪算法	改进的 DROID-SLAM + Uncertainty-weighted DBA
深度估计	使用 Metric3D v2 单目深度增强优化
建图优化	渲染损失由 L1、SSIM、深度差和不确定性联合构成
并行机制	MLP 与 Gaussians 图分别优化，互不干扰
初始化	使用前 12 帧双阶段初始化关键帧与不确定性预测器
数据集	Wild-SLAM Dataset（自建，含 MoCap 真值）

📈 七、实验评估

数据集：
- Wild-SLAM Dataset（自建，包含 MoCap 真值）
- Bonn RGB-D 动态数据集
- TUM RGB-D 动态数据集
评估指标：
- ATE RMSE（相机轨迹误差）
- PSNR / SSIM / LPIPS（视角合成质量）
对比方法：
- 传统方法：ORB-SLAM2, DROID-SLAM, DSO 等；
- 动态 SLAM：DynaSLAM, DG-SLAM, DDN-SLAM 等；
- 3DGS 系列：MonoGS, Splat-SLAM；
- 最新方法：MonST3R, MegaSaM
结果总结：
- WildGS-SLAM 在所有评估中表现最优或次优；
- 能够从单目输入中实现对动态目标的鲁棒规避；
- 保持高质量渲染和重建精度。