近一年来,BEV(鸟瞰图)感知算法在模型架构、技术突破和行业应用上取得了显著进展,推动自动驾驶向更高阶发展。以下是核心进展的详细分析:
BEVFormer V2:透视监督与两阶段检测
针对传统 BEV 模型在适应现代图像骨干时的领域差距问题,BEVFormer V2 引入透视监督,通过两阶段检测结构(透视 3D 检测头 + BEV 检测头)实现更高效的特征对齐。在 nuScenes 数据集上,其性能显著提升,解决了传统 BEV 模型因稀疏监督导致的图像特征优化不足问题。该模型通过透视视图的密集监督信号,直接指导图像骨干网络的训练,使 BEV 检测头能更精准地利用多视角图像的 3D 信息。
SparseBEV:全稀疏设计与高精度实时性
王利民团队提出的 SparseBEV 采用全稀疏架构,仅使用轻量级 V2-99 骨干就在 nuScenes 测试集上实现67.5 NDS的高精度,同时保持 23.5 FPS 的实时推理速度。其核心创新包括:
- 尺度自适应自注意力(SASA):动态调整感受野,模拟多尺度特征聚合;
- 自适应时空采样:结合车辆运动模型对齐历史帧,提升动态物体跟踪鲁棒性;
- 动态 Mixing 解码:根据实例特征自适应融合多视角信息,减少冗余计算。这一突破使纯视觉 BEV 方案首次达到与激光雷达方案接近的精度水平。
Sparse4D:时空特征融合与边缘部署优化
Sparse4D 通过4D 关键点采样和层次化特征融合,迭代优化动态物体的时空建模。其核心改进包括:
- 实例级深度重加权:缓解 3D 到 2D 投影的病态问题,提升深度估计精度;
- 轻量化时空注意力:通过可变形 4D 聚合模块,在边缘设备上实现低延迟推理(如车载芯片 Orin 上达到 50 FPS)。该模型特别适合复杂交通流场景下的实时障碍物预测。
BEVFusion 与 MinkOcc:多模态融合与半监督训练
- BEVFusion:通过统一 BEV 表征实现摄像头与激光雷达的高效融合,计算效率提升 1.9 倍,支持 3D 目标检测、分割等多任务并行处理。
- MinkOcc:提出半监督训练框架,利用 10% 的 3D 标注数据和生成式 UNet 完成场景补全,将 3D 标注依赖降低 90%,同时通过稀疏卷积实现实时推理(44.69ms / 帧)。这一技术显著降低了工业级部署的标注成本。
纯视觉 BEV 的精度革命
- 单目 BEV 突破:结合模拟数据与 OpenStreetMap 先验知识,通过语义分割和深度估计填补遮挡区域,在 nuScenes 验证集上实现 38.3 IoU 的可行驶区域预测。
- Occ-BEV:融合多目摄像头与 3D 场景重建技术,通过预测三维占据分布增强对遮挡区域的理解,在逆光、夜间等场景下的检测准确率提升 15%。
多模态融合策略升级
- SDGOCC:提出语义与深度联合引导的 BEV 转换方法,利用激光雷达稀疏深度图作为先验,通过局部扩散和双线性离散化生成高质量虚拟点,减少冗余计算的同时提升深度估计精度。
- MGHFT:设计多粒度层级融合 Transformer,在 Pyramid Vision Transformer 的每级阶段分别注入全局 / 局部文本语义,实现由粗到细的跨模态对齐,在贴纸情感识别等任务中准确率提升 8%。
时序建模与动态物体优化
- BEVFormer V2 的时序编码器:通过历史 BEV 特征的累积聚合,提升长时序(如过去 5 秒)的运动轨迹预测稳定性,在 nuScenes 数据集上的车辆速度估计误差降低 20%。
- Sparse4D 的时空采样:结合车辆自运动(ego motion)和物体运动(object motion)模型对齐历史帧,在急加速、横穿等场景下的跟踪丢失率减少 30%。
小鹏 XNGP:全国全场景覆盖
2024 年 7 月,小鹏 XNGP 实现 “不限城市、不限路线、不限路况” 的全国全量开放,覆盖 2595 个城市的复杂道路。其核心技术包括:
- 激光雷达与摄像头融合 BEV:通过动态邻域注意力机制增强远距离目标(如 200 米外的施工区域)的检测精度;
- 端到端大模型:XNet+XPlanner 架构将感知与规划一体化,减少中间转换延迟,在无保护左转场景下的通过率提升至 98%xiaopeng.com。
百度 Apollo:纯视觉方案商业化突破
百度 Apollo 全面转向 “BEV+Transformer+OCC” 纯视觉架构,硬件成本压缩至 10 万元以下。其萝卜快跑车队在武汉光谷的测试数据显示,纯视觉车辆的每单运营成本较前代降低 45%,城市 NOA 场景通过率达 98.7%,接近激光雷达车型水平。该方案通过车路协同(V2X)弥补远距离感知短板,在暴雨等极端天气下的事故规避率提升 40%。
华为 ADS 4.0:高速 L3 与车路协同
华为 ADS 4.0 基于 Transformer 的 BEV 架构,支持高速 L3 级自动驾驶,计划 2025 年搭载于问界 M5、M7 等 10 款车型。其核心创新包括:
- 广域 BEV 感知:结合路侧设备数据,实现超视距(300 米外)的交通流预测;
- 动态路由优化:实时识别道路封闭等异常事件,自动调整路径并显示在车载地图上。
宝骏云朵灵犀版:高阶智驾普及
上汽通用五菱与大疆合作推出的宝骏云朵灵犀版,采用行泊一体 BEV 感知方案,通过 800 万像素惯导双目摄像头平替激光雷达,实现 12 万元级别的高阶智驾。其灵犀智驾 2.0系统支持全国 “无图” 高速领航和跨层记忆泊车(1km 路线记忆),推动高阶智驾进入主流市场。
核心挑战
- 纯视觉深度误差:在弱光、无纹理场景下,单目深度估计误差仍可达 15%,需依赖多传感器融合或仿真数据增强。
- 算力瓶颈:多模态、多帧融合的实时推理需车载芯片算力达 200 TOPS 以上(如 Orin X),制约低成本车型部署。
- 动态物体建模:快速移动的行人或两轮车仍可能因时序延迟导致跟踪失效,需结合光流法或更高效的时序注意力机制。
发展趋势
- 轻量化与边缘计算:MobileBEV 等轻量级模型通过知识蒸馏和模型剪枝,在 Jetson Nano 上实现 30 FPS 推理,推动 BEV 感知向 L2 级车型渗透。
- 无图化与在线地图构建:特斯拉的 Occupancy Network 和百度的 OpenLaneV2 数据集,推动 BEV 实时构建局部动态地图,减少对高精地图的依赖。
- 端到端与多模态大模型:Nullmax 的一段式端到端架构和 Waymo 的统一模型,将 BEV 感知与决策规划一体化,直接输出控制指令,减少中间环节误差。
政策支持
中国 “车路云一体化” 战略推动车路协同发展,百度、华为等企业通过路侧设备与云端协同,提升 BEV 感知的鲁棒性。例如,阳泉试点城市的 50 个路口智能化改造,使车辆对闯红灯车辆的预警距离延长至 200 米。
开源项目
- BEV-Perception:提供 3D 物体检测、分割和在线地图构建的全流程工具链,支持 PyTorch 和 TensorFlow,降低工业落地门槛。
- nuScenes 与 Cam2BEV:开源数据集覆盖事故场景等长尾问题,加速算法开发与验证。
近一年来,BEV 感知算法通过模型创新、多模态融合和行业应用的深度结合,显著提升了自动驾驶的精度、效率和场景适应性。从 BEVFormer V2 的透视监督到 SparseBEV 的全稀疏突破,从百度 Apollo 的纯视觉革命到小鹏 XNGP 的全国覆盖,BEV 技术正从实验室走向大规模量产。未来,随着轻量化模型、车路协同和端到端架构的进一步发展,BEV 感知将成为 L4 级自动驾驶普及的核心驱动力。