【论文简读】LongSplat
今天刷到一篇在arxiv上的文章,依旧是关于Generalizable 3D Gaussian Splatting的,感觉是对标的FreeSplat,都是要解决长序列高斯重建的问题。
文章链接:arxiv
文章目录
- Abstract
- 1 Introduction
- 2 Related Work
- 3 Method
- 3.1 Vanilla 3D Gaussian Splatting
- 3.2 LongSplat Pipeline
- History Fusion
- Compressed Module
- 3.3 Gaussian-Image Representation (GIR)
- 3.4 Training
- 4 Experiments
- 5 Conclusion
Abstract
3D-GS在在线长序列重建场景下存在限制,现有方法依赖缓慢的逐场景优化,难以实时处理,或缺乏高效的增量更新机制,导致高斯冗余累积,内存和计算成本过高。LongSplat是一种面向长序列图像输入的实时在线重建框架。作者提出,采用流式更新机制(Streaming Update),逐帧融合当前视角信息,并压缩历史冗余Gaussians;引入Gaussian-Image Representation (GIR),将3D Gaussians映射为2D图像结构,支持高效融合、冗余压缩和 2D 监督。实验效果说高斯数量减少 44%,仍能保持高保真度。
1 Introduction
作者的思路是,我们要解决两个问题,一个是如何自适应压缩已经存在的高斯,一个是我们如何在线添加新的高斯。基于此,文章提出了高斯更新机制,逐帧融合当前帧信息并压缩历史冗余Gaussians,并且提出Gaussian-Image Representation (GIR)将3D高斯映射为2D图像结构,支持高效的历史融合、压缩和监督。
2 Related Work
介绍了传统的3D-GS、Generalizable 3D-GS和室内场景重建。
FreeSplat:latent GS表达,计算代价依旧高;
Long-LRM:批量处理固定数量视图,缺乏灵活性;
Zpressor:压缩存储,但仍依赖逐帧预测;
LongSplat:真正支持在线长序列重建,具有高效压缩和更新机制。
3 Method
3.1 Vanilla 3D Gaussian Splatting
介绍了标准3D-GS的内容。
3.2 LongSplat Pipeline
这个pipeline中有两套特征,一个是从当前帧及邻近帧提取的多视图特征,一个是历史上下文特征。为了保持长时间序列的信息,引入了GIR来把全局高斯投影到当前视图,并通过浅层CNN编码为历史上下文特征。
History Fusion
使用Transformer模块融合多视图特征FcF_{c}Fc和全局特征FhF_{h}Fh得到增强的特征FfF_{f}Ff,然后从这个编码了当前appearance和上下文的特征中预测更新per-pixel权重图M~t\tilde{M}_{t}M~t,值在0-1之间。
Compressed Module
基于权重图M~t\tilde{M}_{t}M~t生成二维maskMtM_{t}Mt,用于保留高置信度高斯或者删除冗余/低置信度高斯。被筛选过后的特征,再经过lightweight transformer和共享高斯head生成当前frame的高斯。
3.3 Gaussian-Image Representation (GIR)
这个算是最直接的创新点,GIR将3D高斯表示转化为2D结构化表示,使得:
- 历史Gaussians可投影到当前视角并与图像特征对齐
- 压缩和更新可以在2D局部操作完成(避免全局 3D 遍历)
- 监督可以在2D空间进行
对于每个像素(u,v)(u, v)(u,v),Gv∈RH×W×10\mathbf{G}_{v} \in \mathbb{R}^{H \times\ W \times 10}Gv∈RH× W×10存储了projected 2D position μuv\mu^{uv}μuv,协方差矩阵vech(Σuv)vech(\Sigma^{uv})vech(Σuv)(用上三角向量vech压缩表示),opacity αuv\alpha^{uv}αuv 还有一个Gaussian ID IDuvID^{uv}IDuv。
特点:
- 每个像素对应一个显式高斯(非累加式体渲染),便于后续卷积、掩码操作
- 保留Gaussian ID,可实现“身份感知”的冗余压缩与历史融合
GIR的核心在于如何从3D Gaussians生成2D GIR图。作者提出两种策略:
- Nearest Rendering:选择当前视线下第一个可见的Gaussian,类似于深度优先的原则
- Most-Contributive Rendering:选择颜色贡献最大的Gaussian,避免透明度混合模糊,更利于监督与压缩
更进一步,GIR不仅是数据表示,还支撑了LongSplat的关键机制:
-
历史融合(History Fusion)
- 将上一帧的Gaussians投影为GIR,获得历史上下文特征
- 与当前帧的图像/几何特征在 2D 空间融合(Transformer)
- 解决长序列场景下的时序一致性问题
-
冗余压缩(Identity-Aware Compression)
- 通过ID追踪跨帧的Gaussians
- 在2D局部区域内比较重叠度(3D IoU),删除冗余高斯
- 避免全局点云遍历,大幅降低计算量
-
2D 空间监督
- 通过GIR,原本需要3D运算的损失(如几何一致性、掩码)转化为2D
Geometry Loss:预测 Gaussians 与压缩数据集(LightGaussian)的像素级对齐
Mask Loss:基于 Gaussian ID 的3D IoU 计算,生成学习式压缩掩码
RGB Loss:直接在2D图像空间计算渲染误差。
- 通过GIR,原本需要3D运算的损失(如几何一致性、掩码)转化为2D
-
轻量3D IoU计算
- 借助GIR的ID映射,只需在局部像素邻域比较高斯的3D OBB(Oriented Bounding Box)
- 避免全局点云两两比较,大幅降低冗余检测开销
3.4 Training
介绍了用到的各种loss函数。
4 Experiments
数据集:DL3DV-10K
硬件:8 × RTX 4090 + 4 × H100
结果:相较 DepthSplat,PSNR 提升 +3.6 dB,高斯数量减少 44%。