当前位置：首页 > news >正文

bev 感知算法近一年来的新进展

news 2025/8/17 7:33:44

近一年来，BEV（鸟瞰图）感知算法在模型架构、技术突破和行业应用上取得了显著进展，推动自动驾驶向更高阶发展。以下是核心进展的详细分析：

一、新算法模型与架构突破
BEVFormer V2：透视监督与两阶段检测
针对传统 BEV 模型在适应现代图像骨干时的领域差距问题，BEVFormer V2 引入透视监督，通过两阶段检测结构（透视 3D 检测头 + BEV 检测头）实现更高效的特征对齐。在 nuScenes 数据集上，其性能显著提升，解决了传统 BEV 模型因稀疏监督导致的图像特征优化不足问题。该模型通过透视视图的密集监督信号，直接指导图像骨干网络的训练，使 BEV 检测头能更精准地利用多视角图像的 3D 信息。

SparseBEV：全稀疏设计与高精度实时性
王利民团队提出的 SparseBEV 采用全稀疏架构，仅使用轻量级 V2-99 骨干就在 nuScenes 测试集上实现67.5 NDS的高精度，同时保持 23.5 FPS 的实时推理速度。其核心创新包括：

尺度自适应自注意力（SASA）：动态调整感受野，模拟多尺度特征聚合；
自适应时空采样：结合车辆运动模型对齐历史帧，提升动态物体跟踪鲁棒性；
动态 Mixing 解码：根据实例特征自适应融合多视角信息，减少冗余计算。这一突破使纯视觉 BEV 方案首次达到与激光雷达方案接近的精度水平。

Sparse4D：时空特征融合与边缘部署优化
Sparse4D 通过4D 关键点采样和层次化特征融合，迭代优化动态物体的时空建模。其核心改进包括：

实例级深度重加权：缓解 3D 到 2D 投影的病态问题，提升深度估计精度；
轻量化时空注意力：通过可变形 4D 聚合模块，在边缘设备上实现低延迟推理（如车载芯片 Orin 上达到 50 FPS）。该模型特别适合复杂交通流场景下的实时障碍物预测。

BEVFusion 与 MinkOcc：多模态融合与半监督训练

BEVFusion：通过统一 BEV 表征实现摄像头与激光雷达的高效融合，计算效率提升 1.9 倍，支持 3D 目标检测、分割等多任务并行处理。
MinkOcc：提出半监督训练框架，利用 10% 的 3D 标注数据和生成式 UNet 完成场景补全，将 3D 标注依赖降低 90%，同时通过稀疏卷积实现实时推理（44.69ms / 帧）。这一技术显著降低了工业级部署的标注成本。


二、技术突破与核心创新
纯视觉 BEV 的精度革命

单目 BEV 突破：结合模拟数据与 OpenStreetMap 先验知识，通过语义分割和深度估计填补遮挡区域，在 nuScenes 验证集上实现 38.3 IoU 的可行驶区域预测。
Occ-BEV：融合多目摄像头与 3D 场景重建技术，通过预测三维占据分布增强对遮挡区域的理解，在逆光、夜间等场景下的检测准确率提升 15%。

多模态融合策略升级

SDGOCC：提出语义与深度联合引导的 BEV 转换方法，利用激光雷达稀疏深度图作为先验，通过局部扩散和双线性离散化生成高质量虚拟点，减少冗余计算的同时提升深度估计精度。
MGHFT：设计多粒度层级融合 Transformer，在 Pyramid Vision Transformer 的每级阶段分别注入全局 / 局部文本语义，实现由粗到细的跨模态对齐，在贴纸情感识别等任务中准确率提升 8%。

时序建模与动态物体优化

BEVFormer V2 的时序编码器：通过历史 BEV 特征的累积聚合，提升长时序（如过去 5 秒）的运动轨迹预测稳定性，在 nuScenes 数据集上的车辆速度估计误差降低 20%。
Sparse4D 的时空采样：结合车辆自运动（ego motion）和物体运动（object motion）模型对齐历史帧，在急加速、横穿等场景下的跟踪丢失率减少 30%。


三、行业应用与量产落地
小鹏 XNGP：全国全场景覆盖
2024 年 7 月，小鹏 XNGP 实现 “不限城市、不限路线、不限路况” 的全国全量开放，覆盖 2595 个城市的复杂道路。其核心技术包括：

激光雷达与摄像头融合 BEV：通过动态邻域注意力机制增强远距离目标（如 200 米外的施工区域）的检测精度；
端到端大模型：XNet+XPlanner 架构将感知与规划一体化，减少中间转换延迟，在无保护左转场景下的通过率提升至 98%xiaopeng.com。

百度 Apollo：纯视觉方案商业化突破
百度 Apollo 全面转向 “BEV+Transformer+OCC” 纯视觉架构，硬件成本压缩至 10 万元以下。其萝卜快跑车队在武汉光谷的测试数据显示，纯视觉车辆的每单运营成本较前代降低 45%，城市 NOA 场景通过率达 98.7%，接近激光雷达车型水平。该方案通过车路协同（V2X）弥补远距离感知短板，在暴雨等极端天气下的事故规避率提升 40%。

华为 ADS 4.0：高速 L3 与车路协同
华为 ADS 4.0 基于 Transformer 的 BEV 架构，支持高速 L3 级自动驾驶，计划 2025 年搭载于问界 M5、M7 等 10 款车型。其核心创新包括：

广域 BEV 感知：结合路侧设备数据，实现超视距（300 米外）的交通流预测；
动态路由优化：实时识别道路封闭等异常事件，自动调整路径并显示在车载地图上。

宝骏云朵灵犀版：高阶智驾普及
上汽通用五菱与大疆合作推出的宝骏云朵灵犀版，采用行泊一体 BEV 感知方案，通过 800 万像素惯导双目摄像头平替激光雷达，实现 12 万元级别的高阶智驾。其灵犀智驾 2.0系统支持全国 “无图” 高速领航和跨层记忆泊车（1km 路线记忆），推动高阶智驾进入主流市场。


四、挑战与未来趋势
核心挑战

纯视觉深度误差：在弱光、无纹理场景下，单目深度估计误差仍可达 15%，需依赖多传感器融合或仿真数据增强。
算力瓶颈：多模态、多帧融合的实时推理需车载芯片算力达 200 TOPS 以上（如 Orin X），制约低成本车型部署。
动态物体建模：快速移动的行人或两轮车仍可能因时序延迟导致跟踪失效，需结合光流法或更高效的时序注意力机制。

发展趋势

轻量化与边缘计算：MobileBEV 等轻量级模型通过知识蒸馏和模型剪枝，在 Jetson Nano 上实现 30 FPS 推理，推动 BEV 感知向 L2 级车型渗透。
无图化与在线地图构建：特斯拉的 Occupancy Network 和百度的 OpenLaneV2 数据集，推动 BEV 实时构建局部动态地图，减少对高精地图的依赖。
端到端与多模态大模型：Nullmax 的一段式端到端架构和 Waymo 的统一模型，将 BEV 感知与决策规划一体化，直接输出控制指令，减少中间环节误差。


五、政策与开源生态
政策支持
中国 “车路云一体化” 战略推动车路协同发展，百度、华为等企业通过路侧设备与云端协同，提升 BEV 感知的鲁棒性。例如，阳泉试点城市的 50 个路口智能化改造，使车辆对闯红灯车辆的预警距离延长至 200 米。

开源项目

BEV-Perception：提供 3D 物体检测、分割和在线地图构建的全流程工具链，支持 PyTorch 和 TensorFlow，降低工业落地门槛。
nuScenes 与 Cam2BEV：开源数据集覆盖事故场景等长尾问题，加速算法开发与验证。


总结
近一年来，BEV 感知算法通过模型创新、多模态融合和行业应用的深度结合，显著提升了自动驾驶的精度、效率和场景适应性。从 BEVFormer V2 的透视监督到 SparseBEV 的全稀疏突破，从百度 Apollo 的纯视觉革命到小鹏 XNGP 的全国覆盖，BEV 技术正从实验室走向大规模量产。未来，随着轻量化模型、车路协同和端到端架构的进一步发展，BEV 感知将成为 L4 级自动驾驶普及的核心驱动力。