当前位置: 首页 > web >正文

【论文简读】MuGS

在这里插入图片描述

今天读一篇ICCV 2025的文章,关注的是Generalizable Gaussian Splatting,作者来自华中科技大学。

文章链接:arxiv
代码仓库:https://github.com/EuclidLou/MuGS(摘要中的链接,但暂时404)

文章目录

  • 1 Introduction
  • 2 Related Work
  • 3 Preliminary
  • 4 Method
    • 4.2 MDE-based Depth Refining
      • (a) Projection & Sampling Consistency
      • (b) Probability Refinement
    • 4.3 Feature Enhancement & Gaussian Regression
      • (a) Feature Enhancement
      • (b) Expectation & Heads
    • 4.4 Multi-View Rendering & Reference Loss
  • 5 Experiments
    • 5.1 Settings
    • 5.2 结Results
    • 5.3 Ablation

1 Introduction

3D-GS渲染高效,但传统做法需逐场景优化;已有可泛化方法通常只对小基线大基线其中一种场景友好,跨基线(不同相机间基线长度差异大)时效果不稳。

  • 核心目标:提出一个无需per-scene优化、能在稀疏视角下同时适配小/大基线通用3D-GS重建框架。
  • 关键思路:以深度准确性为切入点,联合利用MVS的几何一致性与单目深度(MDE)的先验鲁棒性;通过投影-采样一致性细化粗深度概率体,使高斯的空间放置更稳定,从而提升跨基线泛化与渲染质量。
  • 主要贡献
    1. 多基线通用的可泛化3D-GS pipeline(纯前向推理)
    2. 投影-采样一致性模块,细化深度概率体
    3. 特征增强(融合MVS/MDE特征)→ 稳定回归高斯参数
    4. 参考视角监督(Reference-view loss)→ 强化几何 & 加速收敛

2 Related Work

  • 传统/学习式MVS:前者依赖手工相似度与随机扰动;后者用代价体+网络正则,效率/泛化与精度存在权衡。跨大基线时,遮挡/视差分布与重叠区域不足会削弱匹配可靠性。
  • 可泛化NVS/3D-GS:已有方法多在深度估计不稳(尤其低纹理、镜面、宽基线)时退化,导致高斯位置/尺度不准、渲染模糊。
  • 单目深度(MDE):提供结构先验,但存在尺度/偏移误差;直接用作几何会引入系统性偏差。MuGS通过与MVS的投影-采样一致性来“相互校正”。

3 Preliminary

4 Method

在这里插入图片描述

  • 输入:参考视角(目标渲染视角)+ 若干源视角(通常稀疏,多基线分布)。
  • 双分支特征与深度
    • MVS 分支:构建目标视角的粗深度概率体 (V_p)(基于多视角特征/代价体)。
    • MDE 分支:对每个源视角输出单目深度图 (D_i) 与单目特征
  • 投影-采样一致性:把 (V_p) 中候选深度点投影到各源视角,与 (D_i) 上采样到的深度对比,得到一致性线索,用于细化 (V_p\rightarrow V_p^{\text{fine}})
  • 特征增强与回归
    • 将 MVS 与 MDE 特征对齐聚合为VfV_fVf
    • VpfineV_p^{\text{fine}}Vpfine的分布在深度维求期望,获得期望深度/特征
    • 通过多头 MLP 回归每像素的高斯参数 {μ,s,r,α,c}\{\mu,s,r,\alpha,c\}{μ,s,r,α,c}
  • 渲染与监督:渲染目标视角与若干源视角(参考监督),计算重建损失

4.2 MDE-based Depth Refining

(a) Projection & Sampling Consistency

  • 对粗概率体 VpV_pVp 中的每个候选点 PPP(在目标视角坐标系):
    1. 投影到源视角 (i)
      Pi∗⋅dpi=Ki(RiP+ti)P_{i}^{*} \cdot d_{p}^{i} = K_{i} (R_{i} P + t_{i})Pidpi=Ki(RiP+ti)
      得到投影深度dpid_{p}^{i}dpi与像素Pi∗P_{i}^{*}Pi
    2. 在单目深度图DiD_iDiPi∗P_{i}^{*}Pi双线性采样得到采样深度dsid_s^idsi
    3. 一致性线索:利用 (dpi,dsi,dsi/dpi)(d_{p}^{i}, d_{s}^{i}, d_{s}^{i}/d_{p}^{i})(dpi,dsi,dsi/dpi) 以及区域上下文,经卷积网络得到体素级一致性体VciV_{c}^{i}Vci
  • 直觉:若候选点靠近真实表面,投影深度 ≈ 采样深度;偏离表面时差异增加。一致性越高,越应当提升该深度候选的概率。

(b) Probability Refinement

  • 聚合多视角一致性。
  • VcV_cVc作为Query、VpV_pVp作为Key/Value做深度向注意力(或门控融合):
    Vpfine=Attention(Vc,Vp,Vp)+VpV_{p}^{\text{fine}}=\text{Attention}(V_c, V_p, V_p)+V_pVpfine=Attention(Vc,Vp,Vp)+Vp
    在保留可靠 MVS 证据的同时,重点提高接近真实表面的概率质量。

4.3 Feature Enhancement & Gaussian Regression

(a) Feature Enhancement

  • 将源视角的 MDE 特征MVS 特征 扭曲对齐到目标视角的等深平面/锥体,再沿视角维/深度维做聚合,得到特征体。
  • VpfineV_p^{\text{fine}}Vpfine 提供几何先验,引导VfV_fVf的深度选择与融合。

(b) Expectation & Heads

  • 期望深度/特征:以VpfineV_p^{\text{fine}}Vpfine作为权重,在深度维求期望获得D^\hat{D}D^F^\hat{F}F^
  • 逐像素回归高斯参数(多头 MLP):
  • 几何放置:将像素(u,v)(u,v)(u,v)结合D^\hat{D}D^反投影到3D得中心 μ\muμ,与 (s,r,α,c)(s,r,\alpha,c)(s,r,α,c)共同组成像素对齐高斯用于渲染。

4.4 Multi-View Rendering & Reference Loss

  • 目标视角损失:颜色重建L1L_1L1、结构相似LSSIML_{\text{SSIM}}LSSIM、感知损失LLPIPSL_{\text{LPIPS}}LLPIPS等。
  • 参考视角损失:用目标视角生成的高斯直接渲染源视角图像,施加L1L_1L1等重建约束,从而:
    • 强化跨视角几何一致性
    • 在相同训练步数下更快收敛(显著提升早期PSNR)。

5 Experiments

5.1 Settings

  • 数据:小基线(如 DTU)、大基线(如 RealEstate10K 两帧间隔大)、以及零样本评测(LLFF / Mip-NeRF360)。
  • 单目分支:采用强鲁棒的通用单目深度(如 Depth-Anything v2)以增强先验泛化。
  • 评价:渲染质量(PSNR/SSIM/LPIPS)、几何(深度误差/F-score)、速度(FPS/吞吐)。

5.2 结Results

  • 小基线(DTU):在 2/3 视角输入下较既有可泛化方法取得更高 PSNR/SSIM,边缘与细节更干净。
  • 大基线(RealEstate10K):在 2 视角且帧间距很大时,仍保持清晰结构与正确尺度关系,PSNR 明显领先。
  • 零样本(LLFF / Mip-NeRF360):无需微调即具备稳定质量与几何一致性,表明跨场景泛化良好。
  • 速度与稳定性:显式高斯渲染带来较高推理效率;参考监督帮助训练更快到达高质量解。

5.3 Ablation

  • 去除投影-采样一致性:深度概率体变宽/错峰,几何抖动增大,PSNR/深度精度明显下降。
  • 去除特征增强:颜色一致性与纹理细节降低,边界模糊。
  • 去除参考监督:相同训练步数下 PSNR 降低、收敛变慢;最终几何也更差。
http://www.xdnf.cn/news/19245.html

相关文章:

  • 《开发避坑指南:从异常中读懂系统的“求救信号”》
  • 基于脚手架微服务的视频点播系统界面布局部分(一):首页及播放界面布局
  • Windows Command Line Windows 命令行
  • 鸿蒙Next导航与路由指南:组件导航与页面路由的完美协作
  • 导入自定义模块的过程中出现ModuleNotFoundError错误
  • 新手法务合同审查,有什么建议?
  • 构建稳定和可扩展云基础设施的首选服务:AWS的EC2实例
  • 前端工程化深度实践:从构建优化到CI/CD的完整解决方案
  • vue3跨层级传递数据,比如:祖->孙
  • JS循环方法
  • kimi浏览器助手-月之暗面推出的智能浏览器扩展
  • 晨控CK-FR102ANS与欧姆龙NX系列PLC配置EtherNet/IP通讯连接手册
  • 过滤器和拦截器的区别?
  • 数据结构(C语言篇):(六)单链表算法题(下)
  • LinuxC语言系统开发——网络编程
  • 英文版在线客服系统支持海外客户的实时聊天解决方案
  • 透视文件IO:从C库函数的‘表象’到系统调用的‘本质’
  • PS的基础操作与图片常用知识
  • 【LeetCode 热题 100】62. 不同路径——(解法二)递推
  • 国务院提出“人工智能+”行动,容智智能体引领产业变革发展
  • Linux下的软件编程——数据库
  • 【备战2025数模国赛】(三)数模常见赛题类型及解决办法
  • 《Unity Shader入门精要》学习笔记三(复杂的光照)
  • 神经网络基础
  • C++中类,this指针,构造函数,析构函数。拷贝构造函数,初步理解运算符重载,初步理解赋值运算符重载
  • 数据结构——线性表(链表,力扣中等篇,增删查改)
  • AWS集成开发最佳实践:构建高效可靠的云管理平台
  • React前端开发_Day4
  • 2025年06月 Python(四级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • SyncBack 备份同步软件: 使用 FTPS、SFTP 和 HTTPS 安全加密传输文件