当前位置：首页 > news >正文

【论文简读】LongSplat

news 2025/8/5 9:16:02

在这里插入图片描述

今天刷到一篇在arxiv上的文章，依旧是关于Generalizable 3D Gaussian Splatting的，感觉是对标的FreeSplat，都是要解决长序列高斯重建的问题。

文章链接：arxiv

文章目录

Abstract
1 Introduction
2 Related Work
3 Method
- 3.1 Vanilla 3D Gaussian Splatting
- 3.2 LongSplat Pipeline
- - History Fusion
  - Compressed Module
- 3.3 Gaussian-Image Representation (GIR)
- 3.4 Training
4 Experiments
5 Conclusion

Abstract

3D-GS在在线长序列重建场景下存在限制，现有方法依赖缓慢的逐场景优化，难以实时处理，或缺乏高效的增量更新机制，导致高斯冗余累积，内存和计算成本过高。LongSplat是一种面向长序列图像输入的实时在线重建框架。作者提出，采用流式更新机制（Streaming Update），逐帧融合当前视角信息，并压缩历史冗余Gaussians；引入Gaussian-Image Representation (GIR)，将3D Gaussians映射为2D图像结构，支持高效融合、冗余压缩和 2D 监督。实验效果说高斯数量减少 44%，仍能保持高保真度。

1 Introduction

作者的思路是，我们要解决两个问题，一个是如何自适应压缩已经存在的高斯，一个是我们如何在线添加新的高斯。基于此，文章提出了高斯更新机制，逐帧融合当前帧信息并压缩历史冗余Gaussians，并且提出Gaussian-Image Representation (GIR)将3D高斯映射为2D图像结构，支持高效的历史融合、压缩和监督。

2 Related Work

介绍了传统的3D-GS、Generalizable 3D-GS和室内场景重建。

FreeSplat：latent GS表达，计算代价依旧高；
Long-LRM：批量处理固定数量视图，缺乏灵活性；
Zpressor：压缩存储，但仍依赖逐帧预测；
LongSplat：真正支持在线长序列重建，具有高效压缩和更新机制。

3 Method

3.1 Vanilla 3D Gaussian Splatting

介绍了标准3D-GS的内容。

3.2 LongSplat Pipeline

在这里插入图片描述
这个pipeline中有两套特征，一个是从当前帧及邻近帧提取的多视图特征，一个是历史上下文特征。为了保持长时间序列的信息，引入了GIR来把全局高斯投影到当前视图，并通过浅层CNN编码为历史上下文特征。

History Fusion

使用Transformer模块融合多视图特征 $F_{c}$ 和全局特征 $F_{h}$ 得到增强的特征 $F_{f}$ ，然后从这个编码了当前appearance和上下文的特征中预测更新per-pixel权重图 $M~t\tilde{M}_{t}$ ，值在0-1之间。

Compressed Module

基于权重图 $M~t\tilde{M}_{t}$ 生成二维mask $M_{t}$ ，用于保留高置信度高斯或者删除冗余/低置信度高斯。被筛选过后的特征，再经过lightweight transformer和共享高斯head生成当前frame的高斯。

3.3 Gaussian-Image Representation (GIR)

在这里插入图片描述

这个算是最直接的创新点，GIR将3D高斯表示转化为2D结构化表示，使得：

历史Gaussians可投影到当前视角并与图像特征对齐
压缩和更新可以在2D局部操作完成（避免全局 3D 遍历）
监督可以在2D空间进行

对于每个像素 $(u, v)$ ， $Gv∈RH×W×10\mathbf{G}_{v} \in \mathbb{R}^{H \times\ W \times 10}$ 存储了projected 2D position $μuv\mu^{uv}$ ，协方差矩阵 $vech(Σuv)vech(\Sigma^{uv})$ （用上三角向量vech压缩表示），opacity $αuv\alpha^{uv}$ 还有一个Gaussian ID $ID^{uv}$ 。

特点：

每个像素对应一个显式高斯（非累加式体渲染），便于后续卷积、掩码操作
保留Gaussian ID，可实现“身份感知”的冗余压缩与历史融合

GIR的核心在于如何从3D Gaussians生成2D GIR图。作者提出两种策略：

Nearest Rendering：选择当前视线下第一个可见的Gaussian，类似于深度优先的原则
Most-Contributive Rendering：选择颜色贡献最大的Gaussian，避免透明度混合模糊，更利于监督与压缩

更进一步，GIR不仅是数据表示，还支撑了LongSplat的关键机制：

历史融合（History Fusion）
- 将上一帧的Gaussians投影为GIR，获得历史上下文特征
- 与当前帧的图像/几何特征在 2D 空间融合（Transformer）
- 解决长序列场景下的时序一致性问题
冗余压缩（Identity-Aware Compression）
- 通过ID追踪跨帧的Gaussians
- 在2D局部区域内比较重叠度（3D IoU），删除冗余高斯
- 避免全局点云遍历，大幅降低计算量
2D 空间监督
- 通过GIR，原本需要3D运算的损失（如几何一致性、掩码）转化为2D
  Geometry Loss：预测 Gaussians 与压缩数据集（LightGaussian）的像素级对齐
  Mask Loss：基于 Gaussian ID 的3D IoU 计算，生成学习式压缩掩码
  RGB Loss：直接在2D图像空间计算渲染误差。
轻量3D IoU计算
- 借助GIR的ID映射，只需在局部像素邻域比较高斯的3D OBB（Oriented Bounding Box）
- 避免全局点云两两比较，大幅降低冗余检测开销