当前位置：首页 > web >正文

【论文简读】MuGS

web 2025/8/30 11:02:06

在这里插入图片描述

今天读一篇ICCV 2025的文章，关注的是Generalizable Gaussian Splatting，作者来自华中科技大学。

文章链接：arxiv
代码仓库：https://github.com/EuclidLou/MuGS（摘要中的链接，但暂时404）

1 Introduction

3D-GS渲染高效，但传统做法需逐场景优化；已有可泛化方法通常只对小基线或大基线其中一种场景友好，跨基线（不同相机间基线长度差异大）时效果不稳。

核心目标：提出一个无需per-scene优化、能在稀疏视角下同时适配小/大基线的通用3D-GS重建框架。
关键思路：以深度准确性为切入点，联合利用MVS的几何一致性与单目深度（MDE）的先验鲁棒性；通过投影-采样一致性细化粗深度概率体，使高斯的空间放置更稳定，从而提升跨基线泛化与渲染质量。
主要贡献：
1. 多基线通用的可泛化3D-GS pipeline（纯前向推理）
2. 投影-采样一致性模块，细化深度概率体
3. 特征增强（融合MVS/MDE特征）→ 稳定回归高斯参数
4. 参考视角监督（Reference-view loss）→ 强化几何 & 加速收敛

传统/学习式MVS：前者依赖手工相似度与随机扰动；后者用代价体+网络正则，效率/泛化与精度存在权衡。跨大基线时，遮挡/视差分布与重叠区域不足会削弱匹配可靠性。
可泛化NVS/3D-GS：已有方法多在深度估计不稳（尤其低纹理、镜面、宽基线）时退化，导致高斯位置/尺度不准、渲染模糊。
单目深度（MDE）：提供结构先验，但存在尺度/偏移误差；直接用作几何会引入系统性偏差。MuGS通过与MVS的投影-采样一致性来“相互校正”。

在这里插入图片描述

输入：参考视角（目标渲染视角）+ 若干源视角（通常稀疏，多基线分布）。
双分支特征与深度：
- MVS 分支：构建目标视角的粗深度概率体 (V_p)（基于多视角特征/代价体）。
- MDE 分支：对每个源视角输出单目深度图 (D_i) 与单目特征。
投影-采样一致性：把 (V_p) 中候选深度点投影到各源视角，与 (D_i) 上采样到的深度对比，得到一致性线索，用于细化 (V_p\rightarrow V_p^{\text{fine}})。
特征增强与回归：
- 将 MVS 与 MDE 特征对齐聚合为 $V_f$
- 以 $VpfineV_p^{\text{fine}}$ 的分布在深度维求期望，获得期望深度/特征
- 通过多头 MLP 回归每像素的高斯参数 ${μ,s,r,α,c}\{\mu,s,r,\alpha,c\}$
渲染与监督：渲染目标视角与若干源视角（参考监督），计算重建损失

聚合多视角一致性。
以 $V_c$ 作为Query、 $V_p$ 作为Key/Value做深度向注意力（或门控融合）：
$Vpfine=Attention(Vc,Vp,Vp)+VpV_{p}^{\text{fine}}=\text{Attention}(V_c, V_p, V_p)+V_p$
在保留可靠 MVS 证据的同时，重点提高接近真实表面的概率质量。

期望深度/特征：以 $VpfineV_p^{\text{fine}}$ 作为权重，在深度维求期望获得 $D^\hat{D}$ 与 $F^\hat{F}$ 。
逐像素回归高斯参数（多头 MLP）：
几何放置：将像素 $(u, v)$ 结合 $D^\hat{D}$ 反投影到3D得中心 $μ\mu$ ，与 $(s,r,α,c)(s,r,\alpha,c)$ 共同组成像素对齐高斯用于渲染。

目标视角损失：颜色重建 $L_1$ 、结构相似 $LSSIML_{\text{SSIM}}$ 、感知损失 $LLPIPSL_{\text{LPIPS}}$ 等。
参考视角损失：用目标视角生成的高斯直接渲染源视角图像，施加 $L_1$ 等重建约束，从而：
- 强化跨视角几何一致性；
- 在相同训练步数下更快收敛（显著提升早期PSNR）。