当前位置：首页 > java >正文

GaussianLSS

java 2025/8/20 8:27:38

背景

BEV感知能够聚合多个传感器输入得到统一的空间表征，在3D感知、下游应用以及跨模态融合中发挥重要作用。现有的BEV感知分为2D反投影（LSS）以及3D投影（BEVFormer），其中3D投影依赖于3D体素的投影，这导致BEV网格分辨率不能太大，否则计算代价高。本文提出了基于2D反向投影方法，在准确度与计算效率间取得平衡并满足实时性要求。

主要工作

深度不确定性建模

LSS的主要问题：1、离散深度导致稀疏BEV，空间覆盖率低。2、不稳定的深度分布，softmax得到的深度概率即使两个bin靠近也可能大不相同，从而导致BEV特征不一致，这是由于softmax会是大的更大，小的更小，深度值轻微的不同可能导致不成比例的深度关注度。
本文是在预测的深度分布的基础上计算它的均值与方差，使用错误容忍因子得到[u-kσ，u+kσ]的范围，这个范围考虑了深度不确定性，实现更灵活可靠的深度投影。
在这里插入图片描述

3D不确定性变换

对得到的深度范围点，通过内外参转换到自车坐标系下，计算出每个像素对应的均值与协方差，公式如下：
$\mu _{3d} = \sum _{i=0}^{B-1} P_i(p) \, p^{3d}_i$
$\Sigma = \sum_{i=0}^{B-1} P_i(p) \, (p^{3d}_i - \mu_{3d})(p^{3d}_i - \mu_{3d})^T$
使用马氏距离定义置信范围，利用了上面使用过的错误容忍系数，公式如下：
$\mu_{3d})^T \Sigma^{-1} (x - \mu_{3d}) \leq k^2$

BEV Features Splatting

在这里插入图片描述

对于提取的特征分别输出context，opacity与depth，其中depth通过3D不确定性变换得到两个参数作为后续的输入，利用Gaussian Splatting投射到BEV视角。
$FBEV(x)=∑i∈GBEVFiαiexp⁡(−12(x−μi)⊤Σi−1(x−μi))F_{BEV}(x) = \sum_{i \in G_{BEV}} F_i \alpha_i \exp\left(-\frac{1}{2} (x - \mu_i)^\top \Sigma_i^{-1} (x - \mu_i)\right)$
此外考虑到相邻像素深度上的差异性，使用了多尺度BEV进行处理，最后进行上采样。

实验结果

在这里插入图片描述

总结

GaussianLSS通过创新性地结合深度不确定性建模与高效的多尺度BEV特征渲染，成功解决了深度模糊性的固有挑战。这种方法不仅在基于反投影的方法中实现了最先进的性能，还在降低计算资源需求方面表现出色，使其特别适合自动驾驶的实时应用场景。
GaussianLSS的成功证明了显式不确定性建模在提升空间感知任务性能中的价值，为未来BEV感知系统的发展提供了新的研究方向。

查看全文

http://www.xdnf.cn/news/18195.html