当前位置: 首页 > ds >正文

[2025CVPR-目标检测方向]FSHNet:一种用于3D物体检测的全稀疏混合网络。

1. ​简介

论文提出了FSHNet(Fully Sparse Hybrid Network),一种用于3D物体检测的全稀疏混合网络。FSHNet旨在解决现有稀疏3D检测器的两大核心问题:长距离交互能力弱和网络优化困难。稀疏检测器(如VoxelNeXt和SAFDNet)虽能高效处理点云数据(仅操作非空体素),但在长距离检测任务中表现不足。FSHNet通过结合稀疏卷积的高效性和注意力机制的长距离交互能力,实现了在多个基准数据集(Waymo、nuScenes、Argoverse2)上的SOTA性能。主要创新包括SlotFormer块、动态稀疏标签分配策略和稀疏上采样模块。


2. ​核心问题与动机

稀疏3D检测器仅从非空体素提取特征,导致两个关键挑战:

  • 长距离交互弱(Long-range interaction weakness)​​:稀疏体素间的交互依赖于卷积核的局部范围,当体素距离超出核尺寸时(例如,两个遥远体素无法通过中间空体素桥接),特征提取能力受限。这削弱了全局场景感知,尤其影响大型物体(如车辆)的检测。
  • 中心特征缺失(Center feature missing)​​:物体中心区域常为空体素(尤其在大物体中),但中心特征对对象检测至关重要(如作为代理)。缺失中心特征阻碍网络优化,导致训练不稳定和性能下降。

图1直观比较了稀疏与稠密检测器的体素交互差异:在稀疏检测器中,遥远体素无交互;在稠密检测器中,空体素充当“桥梁”,实现扩散交互。

传统解决方案(如增大卷积核)会增加计算开销,而基于Transformer的方法(如DSVT)受限于窗口尺寸。FSHNet通过混合架构解决这些问题。 

3. ​FSHNet方法细节

FSHNet的整体框架如图2所示,包括输入处理、稀疏卷积编码器、SlotFormer块、稀疏上采样模块和动态稀疏头。框架以点云为输入,转换为稀疏体素后,通过多阶段处理生成预测。

 

3.1 ​SlotFormer块(解决长距离交互问题)​
  • 核心思想​:SlotFormer取代传统窗口分区,使用“槽位分区”(slot partition)。每个槽沿X或Y轴覆盖整个场景(无限边长),提供更大的感受野(全局范围)。相比窗口分区(如DSVT),槽位分区能处理更长的距离交互。
  • 机制​:体素按槽索引分组(Eq.1),采用线性注意力(linear attention)而非自注意力,计算复杂度从O(N²)降至O(N)。具体步骤:

    • 体素分组:基于坐标计算槽索引(d_i^x 和 d_i^y)。
    • 线性注意力:生成查询(Q)、键(K)、值(V)矩阵(Eq.2),计算KV矩阵(Eq.3),并通过归一化输出新特征(Eq.4)。最后,通过前馈网络更新特征(Eq.5)。

  • 优势​:SlotFormer与现有稀疏编码器(如SAFDNet)结合,实现高效全局交互。在FSHNet中,多层SlotFormer交替槽方向(X/Y轴),增强全局连接。
3.2 ​稀疏上采样模块(增强细粒度细节)​
  • 问题​:稀疏编码器下采样导致小物体细节丢失(如行人)。
  • 机制​:输入体素坐标加倍(Eq.6),创建更细粒度的体素网格。随后应用稀疏卷积层(核尺寸3,步幅1)扩散特征(Eq.7),恢复下采样中丢失的细节。

  • 优势​:保留小物体的细粒度信息,提升检测精度。实验表明,该模块对行人等小物体效果显著(见表7对比)。

 

3.3 ​动态稀疏标签分配(优化网络训练)​
  • 问题​:现有方法(如中心最近分配)仅选最近体素作为正样本,忽略高质量候选,导致优化不足。
  • 策略​:为每个标注框中心,动态选择候选体素。如图3所示,计算候选体素(n个最近体素)的选择成本(Eq.8),基于分类和回归损失(IoU加权)选择top-k正样本(Eq.9)。成本计算包括预测框与真实框的IoU。

 

  • 损失函数​:回归使用旋转加权IoU损失;分类使用焦点损失(focal loss),正样本权重为1,负样本权重基于IoU设置。
  • 优势​:提供更多高质量正样本,缓解中心缺失问题,优化网络训练。消融实验显示,候选数n=5时效果最佳(见表8)。

4. ​实验验证

FSHNet在三大数据集评估,使用FSHNet_light(基于VoxelNeXt)和FSHNet_base(基于SAFDNet)变体。关键结果:

4.1 ​Waymo数据集
  • 验证集​(表1):FSHNet_base在LEVEL 2 mAP/mAPH上达77.1/74.9,优于SOTA方法(如ScatterFormer的75.7/73.8)。在车辆和行人类别提升显著(如车辆AP 82.2 vs. SAFDNet的80.6)。
  • 测试集​(表2):FSHNet_base的LEVEL 2 mAP/mAPH为77.4/75.2,刷新SOTA记录。SlotFormer对大型物体(车辆)效果突出。
4.2 ​nuScenes数据集
  • 验证集​(表3):FSHNet_base在NDS和mAP上达71.7和68.1,超越TransFusion-L和SAFDNet。训练仅36轮(无CBGS策略),显示高效性。
4.3 ​Argoverse2数据集
  • 验证集​(表4):针对长距离检测(范围200米),FSHNet_base的mAP为40.2,显著优于SAFDNet(38.7)。小物体(行人mAP +3.2%)和大物体(巴士mAP +1.0%)均有提升。
4.4 ​消融研究
  • 组件贡献​(表5):SlotFormer提升大型物体性能(车辆AP +2.4%);动态标签分配优化训练(行人AP +1.8%);稀疏上采样增强小物体检测。

  • 分区方式对比​(表6):槽位分区 + 线性注意力效果最佳(优于窗口分区)。

  • 上采样策略​(表7):SP-SU(稀疏卷积扩散)优于SM-SU(特征重复)。

  • 参数分析​(表8):候选数n=5时动态标签分配最优。


5. ​主要贡献与限制

  • 贡献​:
    • 提出首个结合稀疏卷积和注意力的混合模型FSHNet,平衡效率与性能。
    • 设计SlotFormer块,实现全局范围体素交互。
    • 引入动态稀疏标签分配,深度优化网络。
    • 稀疏上采样模块保留细粒度细节,提升小物体检测。
    • 实验证明泛化性强,在多个基准达到SOTA。
  • 限制​:SlotFormer增加延迟(FSHNet_base从94ms增至123ms),未来需优化效率。

6. ​结论

FSHNet通过创新混合架构解决了稀疏3D检测器的核心瓶颈,在长距离交互和网络优化上取得突破。实验验证了其在Waymo、nuScenes和Argoverse2的优越性,为自动驾驶感知提供了高效解决方案。代码开源促进了社区应用。

 论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Liu_FSHNet_Fully_Sparse_Hybrid_Network_for_3D_Object_Detection_CVPR_2025_paper.pdf

http://www.xdnf.cn/news/15829.html

相关文章:

  • Hive数据仓库工具
  • 什么是高光谱相机,它与数码相机有什么区别?
  • 相机光学(五十)——Depth AF
  • RTKLIB读取星历文件,观测数据
  • 解决Flutter运行android提示Deprecated imperative apply of Flutter‘s Gradle plugins
  • 电解电容串联均衡电阻计算
  • 模板初阶和C++内存管理
  • 功能安全之BIST的基本原理
  • 第7天 | openGauss中一个数据库中可以创建多个模式
  • 6月零售数据超预期引发市场波动:基于AI多因子模型的黄金价格解析
  • Axios泛型参数解析与使用指南
  • 当系统盘快满时,可以删除哪些数据
  • 排序【各种题型+对应LeetCode习题练习】
  • 如何阅读Spring源码
  • 【LVGL】Linux LVGL程序几十分钟后UI卡死
  • effective python 条款11 学会对序列做切片
  • Onload 用户指南 (UG1586)-笔记
  • 【机器学习】安装Jupyter及基本操作
  • 内存泄漏系列专题分析之二十九:高通相机CamX--Android通用GPU内存分配和释放原理
  • 虚拟商品自动化实践:闲鱼订单防漏发与模板化管理的技术解析
  • JVM常用运行时参数说明
  • 【C# in .NET】17. 探秘类成员-构造函数与析构函数:对象生命周期管理
  • [3-02-01].第01章:框架概述 - Spring生态
  • 基于Spring Boot的农村农产品销售系统设计与实现
  • 【Python】DRF核心组件详解:Mixin与Generic视图
  • ARINC818航空总线机载视频处理系统设计
  • 第二篇 html5和css3开发基础与应用
  • 28、鸿蒙Harmony Next开发:不依赖UI组件的全局气泡提示 (openPopup)和不依赖UI组件的全局菜单 (openMenu)、Toast
  • 数据结构入门:像整理收纳一样简单!
  • Jmeter系列(6)-测试计划