当前位置：首页 > ds >正文

[2025CVPR-目标检测方向]FSHNet：一种用于3D物体检测的全稀疏混合网络。

ds 2025/7/19 9:25:51

1. 简介

论文提出了FSHNet（Fully Sparse Hybrid Network），一种用于3D物体检测的全稀疏混合网络。FSHNet旨在解决现有稀疏3D检测器的两大核心问题：长距离交互能力弱和网络优化困难。稀疏检测器（如VoxelNeXt和SAFDNet）虽能高效处理点云数据（仅操作非空体素），但在长距离检测任务中表现不足。FSHNet通过结合稀疏卷积的高效性和注意力机制的长距离交互能力，实现了在多个基准数据集（Waymo、nuScenes、Argoverse2）上的SOTA性能。主要创新包括SlotFormer块、动态稀疏标签分配策略和稀疏上采样模块。

2. 核心问题与动机

稀疏3D检测器仅从非空体素提取特征，导致两个关键挑战：

长距离交互弱（Long-range interaction weakness）：稀疏体素间的交互依赖于卷积核的局部范围，当体素距离超出核尺寸时（例如，两个遥远体素无法通过中间空体素桥接），特征提取能力受限。这削弱了全局场景感知，尤其影响大型物体（如车辆）的检测。
中心特征缺失（Center feature missing）：物体中心区域常为空体素（尤其在大物体中），但中心特征对对象检测至关重要（如作为代理）。缺失中心特征阻碍网络优化，导致训练不稳定和性能下降。

图1直观比较了稀疏与稠密检测器的体素交互差异：在稀疏检测器中，遥远体素无交互；在稠密检测器中，空体素充当“桥梁”，实现扩散交互。

传统解决方案（如增大卷积核）会增加计算开销，而基于Transformer的方法（如DSVT）受限于窗口尺寸。FSHNet通过混合架构解决这些问题。

3. FSHNet方法细节

FSHNet的整体框架如图2所示，包括输入处理、稀疏卷积编码器、SlotFormer块、稀疏上采样模块和动态稀疏头。框架以点云为输入，转换为稀疏体素后，通过多阶段处理生成预测。

3.1 SlotFormer块（解决长距离交互问题）

核心思想：SlotFormer取代传统窗口分区，使用“槽位分区”（slot partition）。每个槽沿X或Y轴覆盖整个场景（无限边长），提供更大的感受野（全局范围）。相比窗口分区（如DSVT），槽位分区能处理更长的距离交互。
机制：体素按槽索引分组（Eq.1），采用线性注意力（linear attention）而非自注意力，计算复杂度从O(N²)降至O(N)。具体步骤：
- 体素分组：基于坐标计算槽索引（d_i^x 和 d_i^y）。
- 线性注意力：生成查询（Q）、键（K）、值（V）矩阵（Eq.2），计算KV矩阵（Eq.3），并通过归一化输出新特征（Eq.4）。最后，通过前馈网络更新特征（Eq.5）。
优势：SlotFormer与现有稀疏编码器（如SAFDNet）结合，实现高效全局交互。在FSHNet中，多层SlotFormer交替槽方向（X/Y轴），增强全局连接。

3.2 稀疏上采样模块（增强细粒度细节）

问题：稀疏编码器下采样导致小物体细节丢失（如行人）。
机制：输入体素坐标加倍（Eq.6），创建更细粒度的体素网格。随后应用稀疏卷积层（核尺寸3，步幅1）扩散特征（Eq.7），恢复下采样中丢失的细节。
优势：保留小物体的细粒度信息，提升检测精度。实验表明，该模块对行人等小物体效果显著（见表7对比）。

3.3 动态稀疏标签分配（优化网络训练）

问题：现有方法（如中心最近分配）仅选最近体素作为正样本，忽略高质量候选，导致优化不足。
策略：为每个标注框中心，动态选择候选体素。如图3所示，计算候选体素（n个最近体素）的选择成本（Eq.8），基于分类和回归损失（IoU加权）选择top-k正样本（Eq.9）。成本计算包括预测框与真实框的IoU。

损失函数：回归使用旋转加权IoU损失；分类使用焦点损失（focal loss），正样本权重为1，负样本权重基于IoU设置。
优势：提供更多高质量正样本，缓解中心缺失问题，优化网络训练。消融实验显示，候选数n=5时效果最佳（见表8）。

4. 实验验证

FSHNet在三大数据集评估，使用FSHNet_light（基于VoxelNeXt）和FSHNet_base（基于SAFDNet）变体。关键结果：

4.1 Waymo数据集

验证集（表1）：FSHNet_base在LEVEL 2 mAP/mAPH上达77.1/74.9，优于SOTA方法（如ScatterFormer的75.7/73.8）。在车辆和行人类别提升显著（如车辆AP 82.2 vs. SAFDNet的80.6）。
测试集（表2）：FSHNet_base的LEVEL 2 mAP/mAPH为77.4/75.2，刷新SOTA记录。SlotFormer对大型物体（车辆）效果突出。

4.2 nuScenes数据集

验证集（表3）：FSHNet_base在NDS和mAP上达71.7和68.1，超越TransFusion-L和SAFDNet。训练仅36轮（无CBGS策略），显示高效性。

4.3 Argoverse2数据集

验证集（表4）：针对长距离检测（范围200米），FSHNet_base的mAP为40.2，显著优于SAFDNet（38.7）。小物体（行人mAP +3.2%）和大物体（巴士mAP +1.0%）均有提升。

4.4 消融研究

组件贡献（表5）：SlotFormer提升大型物体性能（车辆AP +2.4%）；动态标签分配优化训练（行人AP +1.8%）；稀疏上采样增强小物体检测。
分区方式对比（表6）：槽位分区 + 线性注意力效果最佳（优于窗口分区）。
上采样策略（表7）：SP-SU（稀疏卷积扩散）优于SM-SU（特征重复）。
参数分析（表8）：候选数n=5时动态标签分配最优。

5. 主要贡献与限制

贡献：
- 提出首个结合稀疏卷积和注意力的混合模型FSHNet，平衡效率与性能。
- 设计SlotFormer块，实现全局范围体素交互。
- 引入动态稀疏标签分配，深度优化网络。
- 稀疏上采样模块保留细粒度细节，提升小物体检测。
- 实验证明泛化性强，在多个基准达到SOTA。
限制：SlotFormer增加延迟（FSHNet_base从94ms增至123ms），未来需优化效率。