当前位置：首页 > news >正文

BEVDet/BEVDet4D

news 2025/8/24 13:54:30

BEVDet的网络结构很简单，基于LSS结构，完成了BEV空间下的检测流程，没有模型上的创新。整体结构如下图所示。
在这里插入图片描述

1. 算法动机及开创性思路

1）BEVDet算法的开创性思路

核心思想：通过多视角2D图像预测深度分布，利用相机内外参转换到3D空间，再投影到BEV空间完成3D检测任务
技术路线：通过显示估计图像深度实现BEV视角构建
创新特点：更关注工程可行性而非模型创新，使用成熟框架构建完整BEV检测流程

2）BEVDet算法的研究背景与意义

应用领域：自动驾驶感知任务，特别是多相机3D目标检测
性能优势：同时追求高精度（high performance）和快速推理（speed）
视角特点：Bird’s-Eye-View（BEV）提供上帝视角，便于全局感知

3）主流方法：显示估计的图像深度与Transformer

两种主流方法：

显示估计图像深度（从下而上）
Transformer查询机制（自上而下）
选择依据：BEVDet采用第一种方式，更符合工程实现需求

4）LSS（Lift, Split, and Shoot）方法介绍

三大步骤：

Lift：提取多视角图像特征
Split：预测像素深度分布
Shoot：投影到BEV空间
深度预测特点：预测深度分布概率而非确定值（ambiguous depths）
特征转换：将c×h×w图像特征转换为d×c维的深度特征

5）深度分布的预测与映射到BEV空间

数学表达：每个像素映射为d×c维向量，完整视锥特征维度为c×d×h×w
投影原理：利用相机内外参完成2D到3D的转换
特征聚合：对映射到同一BEV网格的特征进行求和操作

6）BEV特征的构建与后续检测任务

特征降维：通过splat操作实现特征降维
检测流程：BEV特征送入检测网络完成3D目标检测
工程实现：强调流程完整化和工程化

7）BEVDet与LSS方法的关联

继承关系：BEVDet基于LSS框架进行延伸拓展
核心相似：都通过多视角2D图像转换到3D空间构建BEV空间
工程差异：BEVDet更注重完整流程和工程实现

8）BEVDet算法的总结

技术路线：多视角2D→深度分布→3D空间→BEV空间→3D检测
工程价值：验证BEV用于3D检测的可行性
扩展性：各模块均可替换，框架灵活

2. 主体结构

1）图像特征编码模块

输入输出：

输入：多视角图像
输出：多尺度融合特征

网络结构：

Backbone：ResNet或Swin Transformer
Neck：FPN实现多尺度融合
共享机制：多视角图像共享同一backbone和neck

2）视角转换模块

关键技术：

深度分布预测网络
外积运算实现特征组合

相机参数转换

特征转换：将2D图像特征转换为3D视锥特征（伪体素）
可替换性：支持不同框架的视角转换方法

3）BEV空间编码模块

网络结构：

Backbone：ResNet
Neck：FPN

处理流程：

下采样：128×128→32×32
通道扩展：64→512
上采样：32×32→64×64
输出特征：256×128×128的BEV空间特征

4）数据增广

过拟合问题：BEV encoder训练数据不足（仅为图像encoder的1/6）

解决方案：

图像层面：传统增广方法
BEV层面：翻转、旋转、缩放等空间变换
设计原则：保持BEV空间结构不变性

5）Scale-NMS设计

传统NMS局限：BEV空间中不同类别空间分布差异大
创新设计：Scaling→NMS→Rescaling三步流程
关键技术：

类别相关缩放因子
验证集搜索最优参数
处理效果：有效去除误检框，保留真实目标

3. BEVDet总结

输入输出：多视角图像输入（nuScenes数据集为6视角），输出3D检测结果
核心模块：

Image-view Encoder：由backbone和多尺度融合网络组成，提取多视角图像特征
View Transformer：实现2D到3D的转换，将图像特征投影到BEV空间
BEV Encoder：对BEV特征进行进一步编码提取，结构与Image-view Encoder类似但输入不同
Detection Head：基于构建好的BEV特征进行3D目标检测预测

版本差异：

输入分辨率：Base版为1600×640，Tiny版为704×256
编码网络：包含SwinTransformer-Base/Tiny和ResNet-50/101等不同backbone
BEV编码网络：不同版本采用不同配置的Basic Block（如2x Basic-128/256/512等）

4. 性能对比

主要指标：

mAP：BEVDet-Base达到0.393，优于DETR3D(0.349)和PGD(0.369)
NDS：BEVDet-Base为0.472，比DETR3D(0.434)高0.038

推理速度：Base版1.9FPS，Tiny版15.6FPS

对比优势：

相比同期Camera模态算法，在mAP和NDS指标上均有提升
与LiDAR方法相比仍有差距（如PointPillars mAP 0.503）

关键组件：

IDA：图像空间数据增强模块
BDA：BEV空间数据增强模块
BE：BEV Encoder模块

实验发现：

仅使用IDA时性能受限（mAP 0.221）
完整配置（IDA+BDA+BE）可获得最佳性能（mAP 0.259）

5. BEVDet4D

由于篇幅较多，另写一篇博文。链接

查看全文

http://www.xdnf.cn/news/1354015.html

【40页PPT】数据安全动态数据脱敏解决方案（附下载方式）

LeetCode 分类刷题：2529. 正整数和负整数的最大计数

【大语言模型 16】Transformer三种架构深度对比：选择最适合你的模型架构

XCVM1802-2MSEVSVA2197 XilinxAMD Versal Premium FPGA

flink常见问题之超出文件描述符限制

android studio配置 build

VS Code 中创建和开发 Spring Boot 项目

JWT实现Token登录验证

Nacos-11--Nacos热更新的原理

语义普遍性与形式化：构建深层语义理解的统一框架

C++算法题—— 小C的细菌（二维偏序离线 + 树状数组 + 坐标压缩）

使用Proxifier+vmware碰到的一些问题

JUC之虚拟线程

论文阅读：Inner Monologue: Embodied Reasoning through Planning with Language Models

173-基于Flask的微博舆情数据分析系统

数据结构之【AVL树的简介与部分实现】（部分实现只涉及AVL树的插入问题，包括单旋((右单旋、左单旋))、双旋(左右单旋、右左单旋)等操作）

SAP FI 应收应付账龄分析

leetcode26：删除有序数组中的重复项Ⅰ（快慢指针解法）

X射线胸部肺炎检测：基于深度学习的医学影像分析项目

概率论基础教程第六章随机变量的联合分布(二)

告别SaaS数据绑架，拥抱数据主权：XK+独立部署版跨境商城定制，为海外物流企业深度赋能

遥感机器学习入门实战教程｜Sklearn案例⑨：数据预处理（Processing）

不用 if-else，Spring Boot 怎么知道 ?status=10 是哪个枚举？

小白成长之路-k8s原理（一）

STM32学习笔记19-FLASH

[Mysql数据库] 选择备份策略选择题

工业场景烟雾识别误报率↓82%！陌讯多模态融合算法实战解析

水泉村信息化服务小程序的设计与实验

54 C++ 现代C++编程艺术3-移动构造函数

用 Go + GitHub Models API 打造一个免费的 ChatBot