BEVDet/BEVDet4D
BEVDet的网络结构很简单,基于LSS结构,完成了BEV空间下的检测流程,没有模型上的创新。整体结构如下图所示。
1. 算法动机及开创性思路
1)BEVDet算法的开创性思路
- 核心思想:通过多视角2D图像预测深度分布,利用相机内外参转换到3D空间,再投影到BEV空间完成3D检测任务
- 技术路线:通过显示估计图像深度实现BEV视角构建
- 创新特点:更关注工程可行性而非模型创新,使用成熟框架构建完整BEV检测流程
2)BEVDet算法的研究背景与意义
- 应用领域:自动驾驶感知任务,特别是多相机3D目标检测
- 性能优势:同时追求高精度(high performance)和快速推理(speed)
- 视角特点:Bird’s-Eye-View(BEV)提供上帝视角,便于全局感知
3)主流方法:显示估计的图像深度与Transformer
两种主流方法:
- 显示估计图像深度(从下而上)
- Transformer查询机制(自上而下)
- 选择依据:BEVDet采用第一种方式,更符合工程实现需求
4)LSS(Lift, Split, and Shoot)方法介绍
三大步骤:
- Lift:提取多视角图像特征
- Split:预测像素深度分布
- Shoot:投影到BEV空间
深度预测特点:预测深度分布概率而非确定值(ambiguous depths)
特征转换:将c×h×w图像特征转换为d×c维的深度特征
5)深度分布的预测与映射到BEV空间
数学表达:每个像素映射为d×c维向量,完整视锥特征维度为c×d×h×w
投影原理:利用相机内外参完成2D到3D的转换
特征聚合:对映射到同一BEV网格的特征进行求和操作
6)BEV特征的构建与后续检测任务
特征降维:通过splat操作实现特征降维
检测流程:BEV特征送入检测网络完成3D目标检测
工程实现:强调流程完整化和工程化
7)BEVDet与LSS方法的关联
继承关系:BEVDet基于LSS框架进行延伸拓展
核心相似:都通过多视角2D图像转换到3D空间构建BEV空间
工程差异:BEVDet更注重完整流程和工程实现
8)BEVDet算法的总结
- 技术路线:多视角2D→深度分布→3D空间→BEV空间→3D检测
- 工程价值:验证BEV用于3D检测的可行性
- 扩展性:各模块均可替换,框架灵活
2. 主体结构
1)图像特征编码模块
输入输出:
- 输入:多视角图像
- 输出:多尺度融合特征
网络结构:
- Backbone:ResNet或Swin Transformer
- Neck:FPN实现多尺度融合
共享机制:多视角图像共享同一backbone和neck
2)视角转换模块
关键技术:
- 深度分布预测网络
- 外积运算实现特征组合
相机参数转换
- 特征转换:将2D图像特征转换为3D视锥特征(伪体素)
- 可替换性:支持不同框架的视角转换方法
3)BEV空间编码模块
网络结构:
- Backbone:ResNet
- Neck:FPN
处理流程:
- 下采样:128×128→32×32
- 通道扩展:64→512
- 上采样:32×32→64×64
- 输出特征:256×128×128的BEV空间特征
4)数据增广
过拟合问题:BEV encoder训练数据不足(仅为图像encoder的1/6)
解决方案:
- 图像层面:传统增广方法
- BEV层面:翻转、旋转、缩放等空间变换
- 设计原则:保持BEV空间结构不变性
5)Scale-NMS设计
传统NMS局限:BEV空间中不同类别空间分布差异大
创新设计:Scaling→NMS→Rescaling三步流程
关键技术:
- 类别相关缩放因子
- 验证集搜索最优参数
- 处理效果:有效去除误检框,保留真实目标
3. BEVDet总结
输入输出:多视角图像输入(nuScenes数据集为6视角),输出3D检测结果
核心模块:
- Image-view Encoder:由backbone和多尺度融合网络组成,提取多视角图像特征
- View Transformer:实现2D到3D的转换,将图像特征投影到BEV空间
- BEV Encoder:对BEV特征进行进一步编码提取,结构与Image-view Encoder类似但输入不同
- Detection Head:基于构建好的BEV特征进行3D目标检测预测
版本差异:
- 输入分辨率:Base版为1600×640,Tiny版为704×256
- 编码网络:包含SwinTransformer-Base/Tiny和ResNet-50/101等不同backbone
- BEV编码网络:不同版本采用不同配置的Basic Block(如2x Basic-128/256/512等)
4. 性能对比
主要指标:
- mAP:BEVDet-Base达到0.393,优于DETR3D(0.349)和PGD(0.369)
- NDS:BEVDet-Base为0.472,比DETR3D(0.434)高0.038
推理速度:Base版1.9FPS,Tiny版15.6FPS
对比优势:
- 相比同期Camera模态算法,在mAP和NDS指标上均有提升
- 与LiDAR方法相比仍有差距(如PointPillars mAP 0.503)
关键组件:
- IDA:图像空间数据增强模块
- BDA:BEV空间数据增强模块
- BE:BEV Encoder模块
实验发现:
- 仅使用IDA时性能受限(mAP 0.221)
- 完整配置(IDA+BDA+BE)可获得最佳性能(mAP 0.259)
5. BEVDet4D
由于篇幅较多,另写一篇博文。链接