当前位置：首页 > ai >正文

Mip-splatting

ai 2025/8/29 17:56:56

论文名称：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu Anpei Chen Binbin Huang Torsten Sattler Andreas Geiger

论文地址：arxiv.org/pdf/2311.16493

Motivation：

经典3DGS训练的时候会学出来许多很薄的高斯，但在屏幕空间里再用2D dilation把能量铺开，在训练分辨率下看不到问题；但是一旦改变采样率就会出现 zoom-in、zoom-out、高频振铃等伪影。作者把这个问题归结到了：

没有3D频率约束+2D dilation不符合物理积分

3D频率约束：

针孔模型里面，在相机深度为d的位置，一个像素对应的世界尺度大概是T=d/f（f是相机焦距）。

所以相机只能可靠的看到 $v_{max}=\frac{1}{2T}$ 与 $\frac{f}{d}$ 成正比的世界频率

对于单个的Gaussian 不管是做傅里叶变换还是高斯，越窄（Σ的特征值越小）就代表频谱越宽。更精确地说：

沿着某个特征向量e的空间标准差时 $\sigma=\sqrt{\lambda}$ （λ是该方向的特征值），这个方向上的有效带宽大致与 $\frac{1}{\sigma}$ 成正比

所以对于针一样的Gaussian：空间域很尖-->频域极宽，包含一堆超过 $v_{max}$ 的高频
而对于片状或者薄壳结构：在较薄的法向上也是同理的，也会带来超带宽

经典的3DGS的训练目标是图像域的重建损失（MSE/LPIPS等）,没有对3D模型在世界域的频率进行限制，

不论是在边缘处不断地 densification&split 还是把相近的Gaussian染上交错的颜色，都会导致超带宽的发生

所以标准的3DGS训练会导致学出比T还要精细的结构，结果就是：

在训练视角下，看可能起来还行

但缩放分辨率后，超出采样带宽的细节就会以亮度漂移、锯齿、闪烁的方式表现出来

2D dilation不符合物理积分：

理想的针孔成像模型中，一个像素p的读数不是在像素中心取样，而是对其面积进行积分：

$I[p] = \iint_{\Omega_p} L(u,v) \, du \, dv$ $\Omega_p$ 是p的足迹

由采样定理得知的是，当一个连续信号离散化时，如果直接在中心点取样，就会把超过带宽的高频混叠到低频，就会表现出相应的锯齿、闪烁、亮度漂移。

而在传统的3DGS中，是直接进行了dilation，也就是

也就是人工将屏幕核放大。但这不是面积积分

Methods：

对于3D频率问题

做法是给每一3D高斯与一个各向同性的3D低通高斯做卷积。两个高斯经过卷积仍然是高斯，等价于给协方差加上一个各项同性项，并用一个行列式比值做能量归一。

具体来说：

先寻找最大采样率，对于第k个高斯中心 $p_k$ ，在训练集的N个相机里取可见视角的v的最大值为 $\hat v_{k}$

之后进行低通卷积

这样虽然协方差变“胖”，但是前面的行列式比值项保证了整体能量的守恒

这个卷积是怎么做的？

可以从一维进行拓展到高维，实际结果是均值相加，方差/协方差相加

简单的做法是推导高斯的特征函数，在相应的协方差矩阵后加上A（Σ的分解上三角矩阵）

令X=μ+AU U服从I的正态分布，之后进行简单的指数运算就可以得到

在高维下，结果依然成立

对于2D dilation 问题

其中s的单位是$pixel^2 I是2*2单位阵

其实整体思路是一致的，前面的行列式比值项同样是为了保证能量守恒

后面是使用一个同位置的标准差为0.3~0.5的各向同性高斯（近似1px的盒滤）与投影到屏幕上的2D Gaussain做卷积运算，来近似真实的像素面积积分，这样达到更精准的目的

Train

Train上简单的来说也就只是将传统的2D dilation更换为像素足迹积分，并周期性的进行3D频率限制

Result

就是通过这样简单的操作，却取得了优秀的效果

查看全文

http://www.xdnf.cn/news/18924.html

GCC版本和C语言标准版本的对应关系

java去图片水印的方法

生产环境Vue组件报错：Cannot access before initialization

使用qianjkun uniapp 主应用集成 vue微应用

8.28作业

可改善能源利用水平、削减碳排放总量，并为可再生能源规模化发展提供有力支撑的智慧能源开源了

Python Imaging Library (PIL) 全面指南：Python Imaging Library (PIL)基础图像处理入门

【图像处理基石】DCT在图像处理中的应用及实现

从零开始学习JavaWeb-20

第二十节：3D文本渲染 - 字体几何体生成与特效

Node.js终极文本转图指南

使用 Action 自动部署 VuePress 到 GitHub Pages

Webdriver-Manager 4.0.1启动错误解决

Komo Searc-AI驱动的搜索引擎

区块链+隐私计算护航“东数西算”数据安全报告

20.22 QLoRA微调实战：中文语音识别数据准备全流程解密

hintcon2025No Man‘s Echo

国产芯力量！贴片式SD卡搭载北京君正Rk瑞芯微，打造嵌入式存储低延迟+高可靠黄金组合

《从应用到内核：三种流量转发方案深度对比》

手机上访问你电脑上的前端项目

机器学习和高性能计算中常用的几种浮点数精度

突破RAG知识库中的PDF解析瓶颈：从文本错乱到多模态处理的架构跃迁

面试tips--JVM(2)--对象创建的过程

SLF4J和LogBack

工业级TF卡NAND + 北京君正 + Rk瑞芯微的应用

@Jenkins 介绍、部署与使用标准作业程序

Gin Validator 错误信息翻译与自定义校验规则详解

VS2022+QT6.7+Multimedia（捕获Windows音频数据，生成实时频谱）

浅谈JMeter Listener

安宝特方案丨AR异地专家远程支持平台，适合：机电运维、应急处置、监造验收