DeepInteraction++基于多模态交互的自动驾驶感知与规划框架
DeepInteraction++基于多模态交互的自动驾驶感知与规划框架
1 论文核心概念
DeepInteraction++ 提出了一种名为"模态交互"(modality interaction)的新策略,用于自动驾驶中的多模态(LiDAR 和相机)感知任务。其核心思想是不将多模态信息融合为单一表示,而是分别保持两种模态特有的表示,并通过编码器中的"表示交互"(representational interaction)和解码器中的"预测交互"(predictive interaction)实现双向信息交换与互补。这种方法避免了传统融合方法中因信息压缩而丢失模态特有优势的问题,显著提升了3D目标检测和端到端自动驾驶任务的性能。
2 论文名词解释
**多模态融合(Multi-modal Fusion)**传统方法,将LiDAR点云和相机图像的特征合并为一个统一的表示,用于后续检测或预测。
**模态交互(Modality Interaction)**本文提出的策略,保持两种模态的独立表示,在编码器和解码器中分别进行双向信息交换。
**表示交互(Representational Interaction)**在编码器中进行的跨模态特征增强,包括图像到LiDAR和LiDAR到图像的双向注意力机制。
**预测交互(Predictive Interaction)**在