【论文简读】MuGS
今天读一篇ICCV 2025的文章,关注的是Generalizable Gaussian Splatting,作者来自华中科技大学。
文章链接:arxiv
代码仓库:https://github.com/EuclidLou/MuGS(摘要中的链接,但暂时404)
文章目录
- 1 Introduction
- 2 Related Work
- 3 Preliminary
- 4 Method
- 4.2 MDE-based Depth Refining
- (a) Projection & Sampling Consistency
- (b) Probability Refinement
- 4.3 Feature Enhancement & Gaussian Regression
- (a) Feature Enhancement
- (b) Expectation & Heads
- 4.4 Multi-View Rendering & Reference Loss
- 5 Experiments
- 5.1 Settings
- 5.2 结Results
- 5.3 Ablation
1 Introduction
3D-GS渲染高效,但传统做法需逐场景优化;已有可泛化方法通常只对小基线或大基线其中一种场景友好,跨基线(不同相机间基线长度差异大)时效果不稳。
- 核心目标:提出一个无需per-scene优化、能在稀疏视角下同时适配小/大基线的通用3D-GS重建框架。
- 关键思路:以深度准确性为切入点,联合利用MVS的几何一致性与单目深度(MDE)的先验鲁棒性;通过投影-采样一致性细化粗深度概率体,使高斯的空间放置更稳定,从而提升跨基线泛化与渲染质量。
- 主要贡献:
- 多基线通用的可泛化3D-GS pipeline(纯前向推理)
- 投影-采样一致性模块,细化深度概率体
- 特征增强(融合MVS/MDE特征)→ 稳定回归高斯参数
- 参考视角监督(Reference-view loss)→ 强化几何 & 加速收敛
2 Related Work
- 传统/学习式MVS:前者依赖手工相似度与随机扰动;后者用代价体+网络正则,效率/泛化与精度存在权衡。跨大基线时,遮挡/视差分布与重叠区域不足会削弱匹配可靠性。
- 可泛化NVS/3D-GS:已有方法多在深度估计不稳(尤其低纹理、镜面、宽基线)时退化,导致高斯位置/尺度不准、渲染模糊。
- 单目深度(MDE):提供结构先验,但存在尺度/偏移误差;直接用作几何会引入系统性偏差。MuGS通过与MVS的投影-采样一致性来“相互校正”。
3 Preliminary
4 Method
- 输入:参考视角(目标渲染视角)+ 若干源视角(通常稀疏,多基线分布)。
- 双分支特征与深度:
- MVS 分支:构建目标视角的粗深度概率体 (V_p)(基于多视角特征/代价体)。
- MDE 分支:对每个源视角输出单目深度图 (D_i) 与单目特征。
- 投影-采样一致性:把 (V_p) 中候选深度点投影到各源视角,与 (D_i) 上采样到的深度对比,得到一致性线索,用于细化 (V_p\rightarrow V_p^{\text{fine}})。
- 特征增强与回归:
- 将 MVS 与 MDE 特征对齐聚合为VfV_fVf
- 以 VpfineV_p^{\text{fine}}Vpfine的分布在深度维求期望,获得期望深度/特征
- 通过多头 MLP 回归每像素的高斯参数 {μ,s,r,α,c}\{\mu,s,r,\alpha,c\}{μ,s,r,α,c}
- 渲染与监督:渲染目标视角与若干源视角(参考监督),计算重建损失
4.2 MDE-based Depth Refining
(a) Projection & Sampling Consistency
- 对粗概率体 VpV_pVp 中的每个候选点 PPP(在目标视角坐标系):
- 投影到源视角 (i):
Pi∗⋅dpi=Ki(RiP+ti)P_{i}^{*} \cdot d_{p}^{i} = K_{i} (R_{i} P + t_{i})Pi∗⋅dpi=Ki(RiP+ti)
得到投影深度dpid_{p}^{i}dpi与像素Pi∗P_{i}^{*}Pi∗ - 在单目深度图DiD_iDi的Pi∗P_{i}^{*}Pi∗处双线性采样得到采样深度dsid_s^idsi。
- 一致性线索:利用 (dpi,dsi,dsi/dpi)(d_{p}^{i}, d_{s}^{i}, d_{s}^{i}/d_{p}^{i})(dpi,dsi,dsi/dpi) 以及区域上下文,经卷积网络得到体素级一致性体VciV_{c}^{i}Vci。
- 投影到源视角 (i):
- 直觉:若候选点靠近真实表面,投影深度 ≈ 采样深度;偏离表面时差异增加。一致性越高,越应当提升该深度候选的概率。
(b) Probability Refinement
- 聚合多视角一致性。
- 以VcV_cVc作为Query、VpV_pVp作为Key/Value做深度向注意力(或门控融合):
Vpfine=Attention(Vc,Vp,Vp)+VpV_{p}^{\text{fine}}=\text{Attention}(V_c, V_p, V_p)+V_pVpfine=Attention(Vc,Vp,Vp)+Vp
在保留可靠 MVS 证据的同时,重点提高接近真实表面的概率质量。
4.3 Feature Enhancement & Gaussian Regression
(a) Feature Enhancement
- 将源视角的 MDE 特征 与 MVS 特征 扭曲对齐到目标视角的等深平面/锥体,再沿视角维/深度维做聚合,得到特征体。
- VpfineV_p^{\text{fine}}Vpfine 提供几何先验,引导VfV_fVf的深度选择与融合。
(b) Expectation & Heads
- 期望深度/特征:以VpfineV_p^{\text{fine}}Vpfine作为权重,在深度维求期望获得D^\hat{D}D^与F^\hat{F}F^。
- 逐像素回归高斯参数(多头 MLP):
- 几何放置:将像素(u,v)(u,v)(u,v)结合D^\hat{D}D^反投影到3D得中心 μ\muμ,与 (s,r,α,c)(s,r,\alpha,c)(s,r,α,c)共同组成像素对齐高斯用于渲染。
4.4 Multi-View Rendering & Reference Loss
- 目标视角损失:颜色重建L1L_1L1、结构相似LSSIML_{\text{SSIM}}LSSIM、感知损失LLPIPSL_{\text{LPIPS}}LLPIPS等。
- 参考视角损失:用目标视角生成的高斯直接渲染源视角图像,施加L1L_1L1等重建约束,从而:
- 强化跨视角几何一致性;
- 在相同训练步数下更快收敛(显著提升早期PSNR)。
5 Experiments
5.1 Settings
- 数据:小基线(如 DTU)、大基线(如 RealEstate10K 两帧间隔大)、以及零样本评测(LLFF / Mip-NeRF360)。
- 单目分支:采用强鲁棒的通用单目深度(如 Depth-Anything v2)以增强先验泛化。
- 评价:渲染质量(PSNR/SSIM/LPIPS)、几何(深度误差/F-score)、速度(FPS/吞吐)。
5.2 结Results
- 小基线(DTU):在 2/3 视角输入下较既有可泛化方法取得更高 PSNR/SSIM,边缘与细节更干净。
- 大基线(RealEstate10K):在 2 视角且帧间距很大时,仍保持清晰结构与正确尺度关系,PSNR 明显领先。
- 零样本(LLFF / Mip-NeRF360):无需微调即具备稳定质量与几何一致性,表明跨场景泛化良好。
- 速度与稳定性:显式高斯渲染带来较高推理效率;参考监督帮助训练更快到达高质量解。
5.3 Ablation
- 去除投影-采样一致性:深度概率体变宽/错峰,几何抖动增大,PSNR/深度精度明显下降。
- 去除特征增强:颜色一致性与纹理细节降低,边界模糊。
- 去除参考监督:相同训练步数下 PSNR 降低、收敛变慢;最终几何也更差。