当前位置: 首页 > news >正文

BEVDet/BEVDet4D

BEVDet的网络结构很简单,基于LSS结构,完成了BEV空间下的检测流程,没有模型上的创新。整体结构如下图所示。
在这里插入图片描述

1. 算法动机及开创性思路

1)BEVDet算法的开创性思路

  • 核心思想:通过多视角2D图像预测深度分布,利用相机内外参转换到3D空间,再投影到BEV空间完成3D检测任务
  • 技术路线:通过显示估计图像深度实现BEV视角构建
  • 创新特点:更关注工程可行性而非模型创新,使用成熟框架构建完整BEV检测流程

2)BEVDet算法的研究背景与意义

  • 应用领域:自动驾驶感知任务,特别是多相机3D目标检测
  • 性能优势:同时追求高精度(high performance)和快速推理(speed)
  • 视角特点:Bird’s-Eye-View(BEV)提供上帝视角,便于全局感知

3)主流方法:显示估计的图像深度与Transformer

两种主流方法:

  • 显示估计图像深度(从下而上)
  • Transformer查询机制(自上而下)
  • 选择依据:BEVDet采用第一种方式,更符合工程实现需求

4)LSS(Lift, Split, and Shoot)方法介绍

三大步骤

  • Lift:提取多视角图像特征
  • Split:预测像素深度分布
  • Shoot:投影到BEV空间
    深度预测特点:预测深度分布概率而非确定值(ambiguous depths)
    特征转换:将c×h×w图像特征转换为d×c维的深度特征

5)深度分布的预测与映射到BEV空间

数学表达:每个像素映射为d×c维向量,完整视锥特征维度为c×d×h×w
投影原理:利用相机内外参完成2D到3D的转换
特征聚合:对映射到同一BEV网格的特征进行求和操作

6)BEV特征的构建与后续检测任务

特征降维:通过splat操作实现特征降维
检测流程:BEV特征送入检测网络完成3D目标检测
工程实现:强调流程完整化和工程化

7)BEVDet与LSS方法的关联

继承关系:BEVDet基于LSS框架进行延伸拓展
核心相似:都通过多视角2D图像转换到3D空间构建BEV空间
工程差异:BEVDet更注重完整流程和工程实现

8)BEVDet算法的总结

  • 技术路线:多视角2D→深度分布→3D空间→BEV空间→3D检测
  • 工程价值:验证BEV用于3D检测的可行性
  • 扩展性:各模块均可替换,框架灵活

2. 主体结构

1)图像特征编码模块

输入输出:

  • 输入:多视角图像
  • 输出:多尺度融合特征

网络结构:

  • Backbone:ResNet或Swin Transformer
  • Neck:FPN实现多尺度融合
    共享机制:多视角图像共享同一backbone和neck

2)视角转换模块

关键技术:

  • 深度分布预测网络
  • 外积运算实现特征组合

相机参数转换

  • 特征转换:将2D图像特征转换为3D视锥特征(伪体素)
  • 可替换性:支持不同框架的视角转换方法

3)BEV空间编码模块

网络结构:

  • Backbone:ResNet
  • Neck:FPN

处理流程:

  • 下采样:128×128→32×32
  • 通道扩展:64→512
  • 上采样:32×32→64×64
  • 输出特征:256×128×128的BEV空间特征

4)数据增广

过拟合问题:BEV encoder训练数据不足(仅为图像encoder的1/6)

解决方案:

  • 图像层面:传统增广方法
  • BEV层面:翻转、旋转、缩放等空间变换
  • 设计原则:保持BEV空间结构不变性

5)Scale-NMS设计

传统NMS局限:BEV空间中不同类别空间分布差异大
创新设计:Scaling→NMS→Rescaling三步流程
关键技术:

  • 类别相关缩放因子
  • 验证集搜索最优参数
  • 处理效果:有效去除误检框,保留真实目标

3. BEVDet总结

输入输出:多视角图像输入(nuScenes数据集为6视角),输出3D检测结果
核心模块

  • Image-view Encoder:由backbone和多尺度融合网络组成,提取多视角图像特征
  • View Transformer:实现2D到3D的转换,将图像特征投影到BEV空间
  • BEV Encoder:对BEV特征进行进一步编码提取,结构与Image-view Encoder类似但输入不同
  • Detection Head:基于构建好的BEV特征进行3D目标检测预测

版本差异:

  • 输入分辨率:Base版为1600×640,Tiny版为704×256
  • 编码网络:包含SwinTransformer-Base/Tiny和ResNet-50/101等不同backbone
  • BEV编码网络:不同版本采用不同配置的Basic Block(如2x Basic-128/256/512等)

4. 性能对比

主要指标:

  • mAP:BEVDet-Base达到0.393,优于DETR3D(0.349)和PGD(0.369)
  • NDS:BEVDet-Base为0.472,比DETR3D(0.434)高0.038

推理速度:Base版1.9FPS,Tiny版15.6FPS

对比优势:

  • 相比同期Camera模态算法,在mAP和NDS指标上均有提升
  • 与LiDAR方法相比仍有差距(如PointPillars mAP 0.503)

关键组件:

  • IDA:图像空间数据增强模块
  • BDA:BEV空间数据增强模块
  • BE:BEV Encoder模块

实验发现:

  • 仅使用IDA时性能受限(mAP 0.221)
  • 完整配置(IDA+BDA+BE)可获得最佳性能(mAP 0.259)

5. BEVDet4D

由于篇幅较多,另写一篇博文。链接

http://www.xdnf.cn/news/1354015.html

相关文章:

  • 【40页PPT】数据安全动态数据脱敏解决方案(附下载方式)
  • LeetCode 分类刷题:2529. 正整数和负整数的最大计数
  • 【大语言模型 16】Transformer三种架构深度对比:选择最适合你的模型架构
  • XCVM1802-2MSEVSVA2197 XilinxAMD Versal Premium FPGA
  • flink常见问题之超出文件描述符限制
  • android studio配置 build
  • VS Code 中创建和开发 Spring Boot 项目
  • JWT实现Token登录验证
  • Nacos-11--Nacos热更新的原理
  • 语义普遍性与形式化:构建深层语义理解的统一框架
  • C++算法题—— 小C的细菌(二维偏序离线 + 树状数组 + 坐标压缩)
  • 使用Proxifier+vmware碰到的一些问题
  • JUC之虚拟线程
  • 论文阅读:Inner Monologue: Embodied Reasoning through Planning with Language Models
  • 173-基于Flask的微博舆情数据分析系统
  • 数据结构 之 【AVL树的简介与部分实现】(部分实现只涉及AVL树的插入问题,包括单旋((右单旋、左单旋))、双旋(左右单旋、右左单旋)等操作)
  • SAP FI 应收应付账龄分析
  • leetcode26:删除有序数组中的重复项Ⅰ(快慢指针解法)
  • X射线胸部肺炎检测:基于深度学习的医学影像分析项目
  • 概率论基础教程第六章 随机变量的联合分布(二)
  • 告别SaaS数据绑架,拥抱数据主权:XK+独立部署版跨境商城定制,为海外物流企业深度赋能
  • 遥感机器学习入门实战教程|Sklearn案例⑨:数据预处理(Processing)
  • 不用 if-else,Spring Boot 怎么知道 ?status=10 是哪个枚举?
  • 小白成长之路-k8s原理(一)
  • STM32学习笔记19-FLASH
  • [Mysql数据库] 选择备份策略选择题
  • 工业场景烟雾识别误报率↓82%!陌讯多模态融合算法实战解析
  • 水泉村信息化服务小程序的设计与实验
  • 54 C++ 现代C++编程艺术3-移动构造函数
  • 用 Go + GitHub Models API 打造一个免费的 ChatBot