当前位置: 首页 > news >正文

bev 感知算法 近一年来的新进展

近一年来,BEV(鸟瞰图)感知算法在模型架构、技术突破和行业应用上取得了显著进展,推动自动驾驶向更高阶发展。以下是核心进展的详细分析:

一、新算法模型与架构突破


  1. BEVFormer V2:透视监督与两阶段检测
    针对传统 BEV 模型在适应现代图像骨干时的领域差距问题,BEVFormer V2 引入透视监督,通过两阶段检测结构(透视 3D 检测头 + BEV 检测头)实现更高效的特征对齐。在 nuScenes 数据集上,其性能显著提升,解决了传统 BEV 模型因稀疏监督导致的图像特征优化不足问题。该模型通过透视视图的密集监督信号,直接指导图像骨干网络的训练,使 BEV 检测头能更精准地利用多视角图像的 3D 信息。

  2. SparseBEV:全稀疏设计与高精度实时性
    王利民团队提出的 SparseBEV 采用全稀疏架构,仅使用轻量级 V2-99 骨干就在 nuScenes 测试集上实现67.5 NDS的高精度,同时保持 23.5 FPS 的实时推理速度。其核心创新包括:

    • 尺度自适应自注意力(SASA):动态调整感受野,模拟多尺度特征聚合;
    • 自适应时空采样:结合车辆运动模型对齐历史帧,提升动态物体跟踪鲁棒性;
    • 动态 Mixing 解码:根据实例特征自适应融合多视角信息,减少冗余计算。这一突破使纯视觉 BEV 方案首次达到与激光雷达方案接近的精度水平。

  3. Sparse4D:时空特征融合与边缘部署优化
    Sparse4D 通过4D 关键点采样层次化特征融合,迭代优化动态物体的时空建模。其核心改进包括:

    • 实例级深度重加权:缓解 3D 到 2D 投影的病态问题,提升深度估计精度;
    • 轻量化时空注意力:通过可变形 4D 聚合模块,在边缘设备上实现低延迟推理(如车载芯片 Orin 上达到 50 FPS)。该模型特别适合复杂交通流场景下的实时障碍物预测。

  4. BEVFusion 与 MinkOcc:多模态融合与半监督训练

    • BEVFusion:通过统一 BEV 表征实现摄像头与激光雷达的高效融合,计算效率提升 1.9 倍,支持 3D 目标检测、分割等多任务并行处理。
    • MinkOcc:提出半监督训练框架,利用 10% 的 3D 标注数据和生成式 UNet 完成场景补全,将 3D 标注依赖降低 90%,同时通过稀疏卷积实现实时推理(44.69ms / 帧)。这一技术显著降低了工业级部署的标注成本。


二、技术突破与核心创新


  1. 纯视觉 BEV 的精度革命

    • 单目 BEV 突破:结合模拟数据与 OpenStreetMap 先验知识,通过语义分割和深度估计填补遮挡区域,在 nuScenes 验证集上实现 38.3 IoU 的可行驶区域预测。
    • Occ-BEV:融合多目摄像头与 3D 场景重建技术,通过预测三维占据分布增强对遮挡区域的理解,在逆光、夜间等场景下的检测准确率提升 15%。

  2. 多模态融合策略升级

    • SDGOCC:提出语义与深度联合引导的 BEV 转换方法,利用激光雷达稀疏深度图作为先验,通过局部扩散和双线性离散化生成高质量虚拟点,减少冗余计算的同时提升深度估计精度。
    • MGHFT:设计多粒度层级融合 Transformer,在 Pyramid Vision Transformer 的每级阶段分别注入全局 / 局部文本语义,实现由粗到细的跨模态对齐,在贴纸情感识别等任务中准确率提升 8%。

  3. 时序建模与动态物体优化

    • BEVFormer V2 的时序编码器:通过历史 BEV 特征的累积聚合,提升长时序(如过去 5 秒)的运动轨迹预测稳定性,在 nuScenes 数据集上的车辆速度估计误差降低 20%。
    • Sparse4D 的时空采样:结合车辆自运动(ego motion)和物体运动(object motion)模型对齐历史帧,在急加速、横穿等场景下的跟踪丢失率减少 30%。


三、行业应用与量产落地


  1. 小鹏 XNGP:全国全场景覆盖
    2024 年 7 月,小鹏 XNGP 实现 “不限城市、不限路线、不限路况” 的全国全量开放,覆盖 2595 个城市的复杂道路。其核心技术包括:

    • 激光雷达与摄像头融合 BEV:通过动态邻域注意力机制增强远距离目标(如 200 米外的施工区域)的检测精度;
    • 端到端大模型:XNet+XPlanner 架构将感知与规划一体化,减少中间转换延迟,在无保护左转场景下的通过率提升至 98%xiaopeng.com

  2. 百度 Apollo:纯视觉方案商业化突破
    百度 Apollo 全面转向 “BEV+Transformer+OCC” 纯视觉架构,硬件成本压缩至 10 万元以下。其萝卜快跑车队在武汉光谷的测试数据显示,纯视觉车辆的每单运营成本较前代降低 45%,城市 NOA 场景通过率达 98.7%,接近激光雷达车型水平。该方案通过车路协同(V2X)弥补远距离感知短板,在暴雨等极端天气下的事故规避率提升 40%。

  3. 华为 ADS 4.0:高速 L3 与车路协同
    华为 ADS 4.0 基于 Transformer 的 BEV 架构,支持高速 L3 级自动驾驶,计划 2025 年搭载于问界 M5、M7 等 10 款车型。其核心创新包括:

    • 广域 BEV 感知:结合路侧设备数据,实现超视距(300 米外)的交通流预测;
    • 动态路由优化:实时识别道路封闭等异常事件,自动调整路径并显示在车载地图上。

  4. 宝骏云朵灵犀版:高阶智驾普及
    上汽通用五菱与大疆合作推出的宝骏云朵灵犀版,采用行泊一体 BEV 感知方案,通过 800 万像素惯导双目摄像头平替激光雷达,实现 12 万元级别的高阶智驾。其灵犀智驾 2.0系统支持全国 “无图” 高速领航和跨层记忆泊车(1km 路线记忆),推动高阶智驾进入主流市场。


四、挑战与未来趋势


  1. 核心挑战

    • 纯视觉深度误差:在弱光、无纹理场景下,单目深度估计误差仍可达 15%,需依赖多传感器融合或仿真数据增强。
    • 算力瓶颈:多模态、多帧融合的实时推理需车载芯片算力达 200 TOPS 以上(如 Orin X),制约低成本车型部署。
    • 动态物体建模:快速移动的行人或两轮车仍可能因时序延迟导致跟踪失效,需结合光流法或更高效的时序注意力机制。

  2. 发展趋势

    • 轻量化与边缘计算:MobileBEV 等轻量级模型通过知识蒸馏和模型剪枝,在 Jetson Nano 上实现 30 FPS 推理,推动 BEV 感知向 L2 级车型渗透。
    • 无图化与在线地图构建:特斯拉的 Occupancy Network 和百度的 OpenLaneV2 数据集,推动 BEV 实时构建局部动态地图,减少对高精地图的依赖。
    • 端到端与多模态大模型:Nullmax 的一段式端到端架构和 Waymo 的统一模型,将 BEV 感知与决策规划一体化,直接输出控制指令,减少中间环节误差。


五、政策与开源生态


  1. 政策支持
    中国 “车路云一体化” 战略推动车路协同发展,百度、华为等企业通过路侧设备与云端协同,提升 BEV 感知的鲁棒性。例如,阳泉试点城市的 50 个路口智能化改造,使车辆对闯红灯车辆的预警距离延长至 200 米。

  2. 开源项目

    • BEV-Perception:提供 3D 物体检测、分割和在线地图构建的全流程工具链,支持 PyTorch 和 TensorFlow,降低工业落地门槛。
    • nuScenes 与 Cam2BEV:开源数据集覆盖事故场景等长尾问题,加速算法开发与验证。


总结


近一年来,BEV 感知算法通过模型创新、多模态融合和行业应用的深度结合,显著提升了自动驾驶的精度、效率和场景适应性。从 BEVFormer V2 的透视监督到 SparseBEV 的全稀疏突破,从百度 Apollo 的纯视觉革命到小鹏 XNGP 的全国覆盖,BEV 技术正从实验室走向大规模量产。未来,随着轻量化模型、车路协同和端到端架构的进一步发展,BEV 感知将成为 L4 级自动驾驶普及的核心驱动力。

http://www.xdnf.cn/news/1309267.html

相关文章:

  • echarts 画一个饼图,并且外围有一个旋转动画
  • pytest tmpdir fixture介绍(tmpdir_factory)(自动在测试开始前创建一个临时目录,并在测试结束后删除该目录)
  • 【LeetCode题解】LeetCode 35. 搜索插入位置
  • flowable汇总查询方式
  • ktg-mes 改造成 Saas 系统
  • Golang分布式事务处理方案
  • ROS move_base 混合功能导航 RealSense D435i + 3D 点云地图 + 楼层切换 + 路径录制 + 路径规划
  • 适合2D而非3D的游戏
  • Rust学习笔记(四)|结构体与枚举(面向对象、模式匹配)
  • 从舒适度提升到能耗降低再到安全保障,楼宇自控作用关键
  • 奈飞工厂 —— 算法优化实战推荐
  • JavaScript手录17-原型
  • 2025年生成式引擎优化(GEO)服务商技术能力评估报告
  • 【Docker】Ubuntu上安装Docker(网络版)
  • [创业之路-550]:公司半年度经营分析会 - 常见差距与根因分析示例
  • linux网络基础
  • 022 基础 IO —— 文件
  • Redis-plus-plus 安装指南
  • 161. Java Lambda 表达式 - 使用工厂方法创建 Predicates
  • 力扣(LeetCode) ——142. 环形链表 II(C语言)
  • OpenShift 4.19安装中的变化
  • Vue 3与React内置组件全对比
  • Hadoop面试题及详细答案 110题 (16-35)-- HDFS核心原理与操作
  • 音视频学习(五十四):基于ffmpeg实现音频重采样
  • 基于单片机的防酒驾系统设计
  • 我的世界Java版1.21.4的Fabric模组开发教程(十八)自定义传送门
  • 《C++进阶之继承多态》【多态:概念 + 实现 + 拓展 + 原理】
  • 超越“调参”:从系统架构师视角,重构 AI 智能体的设计范式
  • 嵌入式硬件篇---电感本质
  • VScode 使用遇到的问题