当前位置: 首页 > news >正文

【论文简读】LongSplat

在这里插入图片描述

今天刷到一篇在arxiv上的文章,依旧是关于Generalizable 3D Gaussian Splatting的,感觉是对标的FreeSplat,都是要解决长序列高斯重建的问题。

文章链接:arxiv

文章目录

  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Method
    • 3.1 Vanilla 3D Gaussian Splatting
    • 3.2 LongSplat Pipeline
      • History Fusion
      • Compressed Module
    • 3.3 Gaussian-Image Representation (GIR)
    • 3.4 Training
  • 4 Experiments
  • 5 Conclusion

Abstract

3D-GS在在线长序列重建场景下存在限制,现有方法依赖缓慢的逐场景优化,难以实时处理,或缺乏高效的增量更新机制,导致高斯冗余累积,内存和计算成本过高。LongSplat是一种面向长序列图像输入的实时在线重建框架。作者提出,采用流式更新机制(Streaming Update),逐帧融合当前视角信息,并压缩历史冗余Gaussians;引入Gaussian-Image Representation (GIR),将3D Gaussians映射为2D图像结构,支持高效融合、冗余压缩和 2D 监督。实验效果说高斯数量减少 44%,仍能保持高保真度。

1 Introduction

作者的思路是,我们要解决两个问题,一个是如何自适应压缩已经存在的高斯,一个是我们如何在线添加新的高斯。基于此,文章提出了高斯更新机制,逐帧融合当前帧信息并压缩历史冗余Gaussians,并且提出Gaussian-Image Representation (GIR)将3D高斯映射为2D图像结构,支持高效的历史融合、压缩和监督。

2 Related Work

介绍了传统的3D-GS、Generalizable 3D-GS和室内场景重建。

FreeSplat:latent GS表达,计算代价依旧高;
Long-LRM:批量处理固定数量视图,缺乏灵活性;
Zpressor:压缩存储,但仍依赖逐帧预测;
LongSplat:真正支持在线长序列重建,具有高效压缩和更新机制。

3 Method

3.1 Vanilla 3D Gaussian Splatting

介绍了标准3D-GS的内容。

3.2 LongSplat Pipeline

在这里插入图片描述
这个pipeline中有两套特征,一个是从当前帧及邻近帧提取的多视图特征,一个是历史上下文特征。为了保持长时间序列的信息,引入了GIR来把全局高斯投影到当前视图,并通过浅层CNN编码为历史上下文特征。

History Fusion

使用Transformer模块融合多视图特征FcF_{c}Fc和全局特征FhF_{h}Fh得到增强的特征FfF_{f}Ff,然后从这个编码了当前appearance和上下文的特征中预测更新per-pixel权重图M~t\tilde{M}_{t}M~t,值在0-1之间。

Compressed Module

基于权重图M~t\tilde{M}_{t}M~t生成二维maskMtM_{t}Mt,用于保留高置信度高斯或者删除冗余/低置信度高斯。被筛选过后的特征,再经过lightweight transformer和共享高斯head生成当前frame的高斯。

3.3 Gaussian-Image Representation (GIR)

在这里插入图片描述
在这里插入图片描述
这个算是最直接的创新点,GIR将3D高斯表示转化为2D结构化表示,使得:

  • 历史Gaussians可投影到当前视角并与图像特征对齐
  • 压缩和更新可以在2D局部操作完成(避免全局 3D 遍历)
  • 监督可以在2D空间进行

对于每个像素(u,v)(u, v)(u,v)Gv∈RH×W×10\mathbf{G}_{v} \in \mathbb{R}^{H \times\ W \times 10}GvRH× W×10存储了projected 2D position μuv\mu^{uv}μuv,协方差矩阵vech(Σuv)vech(\Sigma^{uv})vech(Σuv)(用上三角向量vech压缩表示),opacity αuv\alpha^{uv}αuv 还有一个Gaussian ID IDuvID^{uv}IDuv

特点:

  • 每个像素对应一个显式高斯(非累加式体渲染),便于后续卷积、掩码操作
  • 保留Gaussian ID,可实现“身份感知”的冗余压缩与历史融合

GIR的核心在于如何从3D Gaussians生成2D GIR图。作者提出两种策略:

  • Nearest Rendering:选择当前视线下第一个可见的Gaussian,类似于深度优先的原则
  • Most-Contributive Rendering:选择颜色贡献最大的Gaussian,避免透明度混合模糊,更利于监督与压缩

更进一步,GIR不仅是数据表示,还支撑了LongSplat的关键机制:

  • 历史融合(History Fusion)

    • 将上一帧的Gaussians投影为GIR,获得历史上下文特征
    • 与当前帧的图像/几何特征在 2D 空间融合(Transformer)
    • 解决长序列场景下的时序一致性问题
  • 冗余压缩(Identity-Aware Compression)

    • 通过ID追踪跨帧的Gaussians
    • 在2D局部区域内比较重叠度(3D IoU),删除冗余高斯
    • 避免全局点云遍历,大幅降低计算量
  • 2D 空间监督

    • 通过GIR,原本需要3D运算的损失(如几何一致性、掩码)转化为2D
      Geometry Loss:预测 Gaussians 与压缩数据集(LightGaussian)的像素级对齐
      Mask Loss:基于 Gaussian ID 的3D IoU 计算,生成学习式压缩掩码
      RGB Loss:直接在2D图像空间计算渲染误差。
  • 轻量3D IoU计算

    • 借助GIR的ID映射,只需在局部像素邻域比较高斯的3D OBB(Oriented Bounding Box)
    • 避免全局点云两两比较,大幅降低冗余检测开销

3.4 Training

介绍了用到的各种loss函数。

4 Experiments

数据集:DL3DV-10K

硬件:8 × RTX 4090 + 4 × H100

结果:相较 DepthSplat,PSNR 提升 +3.6 dB,高斯数量减少 44%。

在这里插入图片描述
在这里插入图片描述

5 Conclusion

http://www.xdnf.cn/news/1241137.html

相关文章:

  • Claude Code深度操作指南:从零到专家的AI编程助手实战
  • MAC-Spring Cloud + Spring Boot + RocketMQ集成
  • 链表问题解决分析框架
  • SP20D120CTU:1200 V/20 A SiC肖特基二极管的TO-263封装升级版,数据工程师必看!
  • 政府财政行业云原生转型之路
  • Maya 2024安装指南及安装包下载
  • 车载通信架构 ---车内通信的汽车网络安全
  • Linux中netstat详细使用指南
  • 【Linux】System V - 基于建造者模式的信号量
  • DP-v2.1-mem-clean学习(3.6.8.2-3.6.8.3)
  • Linux文件权限管理与ACL配置指南
  • wpf Image 转 90 度
  • 9.感知机、神经网络
  • 国产化Word处理控件Spire.Doc教程:Python提取Word文档中的文本、图片、表格等
  • Excel商业智能分析报表 【销售管理分析仪】
  • 百度翻译详解:包括PaddleNLP、百度AI开放平台、接口逆向(包括完整代码)
  • Android工程命令行打包并自动生成签名Apk
  • Go语言高并发价格监控系统设计
  • 向量空间模型
  • 从exec到Shell:深度解析Linux进程等待,程序替换与自主Shell实现
  • 抛出自定义异常
  • Android UI 组件系列(九):ListView 性能优化与 ViewHolder 模式实战
  • 复现论文《A Fiber Bragg Grating Sensor System for Train Axle Counting》
  • 多级表头的导出
  • 如何使用EF框架操作Sqlite
  • 多租户字典管理系统完整设计
  • TCP 协议的“无消息边界”(No Message Boundaries)特性
  • shell脚本tcpdump抓取数据解析执行关机指令
  • PyCharm代码规范与代码格式化插件安装与使用:pylint和autopep8
  • 质押和抵押有什么区别