当前位置: 首页 > java >正文

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

背景

对于现有的BEVDet方法,它对于速度的预测误差要高于基于点云的方法,对于像速度这种与时间有关的属性,仅靠单帧数据很难预测好。因此本文提出了BEVDet4D,旨在获取时间维度上的丰富信息。它是在BEVDet的基础上进行拓展,保留了之前帧的BEV特征,并将其进行空间对齐后与当前帧对应BEV特征连接。在nuscenes数据集上证明其可行性发现,不仅速度误差mAVE从0.909降低到0.337,在其他分数也有提升,mAP提升2.6%,NDS提升了8.4%,达到了42.1%mAP与54.5%NDS。

贡献

  • 在BEVDet的基础上提出了时序融合,提出了空间对齐模块,根据自车移动矩阵,将当前帧的坐标线性二插值回到前一帧特征图取值。不过融合上只是采用了拼接操作。
  • 提出了额外BEV编码器,原理很简单,但是使得BEV特征图精细化,能够更好适用于后续的时序融合模块了。

具体方法

总体架构

这里使用的方法很简单,架构就是BEVDet,为了捕获时间信息,使用上一帧的BEV特征与当前特征图进行合并,在这之前,还增加了对齐操作,而融合手段这里没有深入探索,就是进行拼接操作。此外,由于视角转换得到的特征图太过粗糙,因此提供了一个额外BEV编码器进一步加工,再交给后续融合。

空间对齐

这里有三个坐标系, O g − X Y Z O_g-X Y Z OgXYZ, O e ( T ) − X Y Z O_{e(T)}-X Y Z Oe(T)XYZ, O t ( T ) − X Y Z O_{t(T)}-X Y Z Ot(T)XYZ分别代表全局坐标系、自车在T时刻的坐标系,在T时刻的目标坐标系;对于目标物体的位置为 P x ( t ) P^x(t) Px(t),其中x∈{g,e(T),e(T-1)},代表坐标系,而t∈{T,T-1},因为我们只进行两帧的融合; T s r c d s t T_{src}^{dst} Tsrcdst代表从src坐标系到dst坐标系的变换矩阵。
相比于学习速度,这里选择预测物体两帧间的位移,并且对于位移要求与自车移动解耦,这是因为自车移动会使得位移变得复杂。举例来说,静态的物体在自车运动下,在自车坐标系下看是移动的,这是由于自车坐标系是以自车为中心。如果按照下面式子则会导致位移与自车移动相关。
P s e ( T ) ( T ) − P s e ( T − 1 ) ( T − 1 ) = T g e ( T ) P

http://www.xdnf.cn/news/919.html

相关文章:

  • 树模型与集成学习(决策树核心算法:ID3/C4.5/CART、随机森林、GBDT/XGBoost)
  • CentOS7系统安装Docker教程
  • 【NLP 67、知识图谱】
  • 开源脚本分享:用matlab处理ltspice生成的.raw双脉冲数据
  • JDBC:数据库访问的原始接口
  • 【数据结构和算法】3. 排序算法
  • ubuntu20.04安装安装x11vnc服务基于gdm3或lightdm这两种主流的显示管理器。
  • LlamaIndex 生成的本地索引文件和文件夹详解
  • PaginationInnerInterceptor使用(Mybatis-plus分页)
  • RUI 桌面 appTV 版中文版下载 RUI 桌面桌面固件包实用攻略
  • Visual Studio 2022 运行一个后台程序而不显示控制台窗口
  • 悟空黑桃 下载地址
  • 自动驾驶最新算法进展
  • 【EasyPan】项目常见问题解答(自用持续更新中…)
  • 位运算题目:循环码排列
  • Lesson 7 DNS域名解析服务器
  • Java秒杀功能-案例
  • jvm-获取方法签名的方法
  • 【uniapp-兼容性处理】安卓uView组件中u-input后置插槽不展示
  • 03-HTML常见元素
  • win10设置软件开机自启
  • 从0开始配置spark-local模式
  • 聊透多线程编程-线程互斥与同步-12. C# Monitor类实现线程互斥
  • Prompt 攻击与防范:大语言模型安全的新挑战
  • Google Store 如何利用 glTF 3D 模型改变产品教育
  • L1-1、Prompt 是什么?为什么它能“控制 AI”?
  • C++入门语法
  • 在线查看【免费】 mp3,wav,mp4,flv 等音视频格式文件文件格式网站
  • Spark,IDEA编写Maven项目
  • c++算法-(1)