当前位置：首页 > ai >正文

技术突破与落地应用：端到端 2.0 时代辅助驾驶TOP10 论文深度拆解系列【第一篇（排名不分先后）】

ai 2025/6/27 3:59:52

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

GitHub地址：https://hgao-cv.github.io/RAD

在自动驾驶技术的发展历程中，端到端学习范式一直被视为实现完全自主驾驶的关键路径。然而，传统基于模仿学习的方法在面对复杂现实场景时，始终受困于因果混淆和开环训练与闭环部署之间的巨大鸿沟。近期，华中科技大学与地平线机器人联合提出的 RAD（基于大规模 3DGS 的端到端驾驶策略强化学习框架），通过将三维高斯 splatting（3DGS）技术与强化学习（RL）深度融合，为这一领域带来了突破性的解决方案。本文将深入解析 RAD 如何通过逼真数字孪生环境、闭环强化训练和人机行为对齐设计，重新定义自动驾驶的技术边界。基于3dgs环境的闭环评估训练结果视频如下所示。

自动驾驶的双重困境：因果迷雾与开环陷阱

传统端到端自动驾驶算法大多遵循模仿学习（IL）范式，即通过神经网络模仿人类驾驶行为。这种方法虽然简单高效，但在实际部署中暴露出两大根本性缺陷：

因果混淆构成了模仿学习的核心痛点。当算法仅从人类驾驶演示中学习关联关系时，往往会陷入 "捷径学习" 的陷阱。例如，模型可能单纯通过历史轨迹外推未来动作，而无法理解交通场景中的因果逻辑 —— 如为什么在路口需要减速，或是为何要对突然出现的行人做出紧急反应。这种 "知其然不知其所以然" 的学习模式，导致策略在面对未见过的长尾场景时频频失效。研究表明，模仿学习训练的模型对碰撞等安全关键事件的敏感度显著不足，其根本原因在于缺乏对环境因果结构的理解。

开环训练与闭环部署的鸿沟则是另一个致命挑战。模仿学习依赖于分布良好的驾驶演示数据进行开环训练，而真实驾驶是一个闭环反馈过程 —— 每一步的微小轨迹误差都会随时间累积，最终导致系统进入分布外场景。这种误差累积效应使得模仿学习策略在实际驾驶中常常陷入 "连锁错误"，例如在连续变道时因初始角度偏差逐渐偏离车道，或在复杂路口因累计误差错过转向时机。据统计，传统 IL 方法在闭环测试中的碰撞率比开环评估高出 4-6 倍，充分暴露了开环训练的局限性。

为突破这些瓶颈，业界逐渐将目光转向强化学习。然而，传统模拟器难以提供逼真的传感器数据，导致 "模拟 - 现实" 差距显著；而直接使用真实道路进行 RL 训练又面临无法接受的安全风险和运营成本。如何构建一个既能提供高保真环境模拟，又能支持大规模闭环训练的框架，成为自动驾驶领域的关键课题。

3DGS 数字孪生：构建通往现实的桥梁

RAD 的核心创新在于将三维高斯 splatting（3DGS）技术引入自动驾驶训练范式，构建了一个与现实世界高度匹配的数字孪生环境。这种由 Kerbl 等人提出的新型场景表示方法，通过参数化的高斯分布集合来表示三维场景，在保持高视觉保真度的同时实现了实时渲染，为自动驾驶训练提供了理想的模拟平台。

与传统游戏引擎（如 Unity、Unreal Engine）构建的模拟器相比，3DGS 具有三大优势：

照片级真实感的传感器模拟是 3DGS 的核心竞争力。传统模拟器往往通过手工建模和材质贴图构建场景，难以复现真实世界的光影变化、物体材质反射等细节。而 3DGS 基于真实驾驶数据构建，通过从多视角图像中提取的高斯参数（位置、大小、颜色、透明度等）精确表示场景中的每个元素，能够生成与真实相机几乎无差别的传感器数据。实验表明，3DGS 渲染的图像与真实场景的 PSNR 值可达 32dB 以上，远超传统模拟器的 25dB 水平，这使得训练出的策略能更好地泛化到真实世界。

动态场景的高效建模能力让 3DGS 在自动驾驶场景中脱颖而出。StreetGaussians、DrivingGaussians 等最新研究表明，通过动态更新高斯参数，可以有效表示城市环境中的移动车辆、行人等动态实体。RAD 在此基础上进一步优化，将动态高斯与静态场景高斯分离管理，既保证了动态物体的运动真实性，又维持了渲染效率。在高密度交通场景中，3DGS 能够同时处理超过 200 个动态高斯实体，帧率保持在 60fps 以上，满足实时闭环训练的需求。

大规模场景重建与泛化能力使 3DGS 成为长尾场景训练的理想平台。RAD 团队收集了 2000 小时的真实驾驶数据，从中提取了 4305 个高风险密集交通片段，通过 3DGS 技术重建为独立的数字驾驶环境。这些环境覆盖了城市道路、高速公路、复杂路口等多种场景，且每个场景都保留了原始数据的交通参与者行为模式。更重要的是，3DGS 的场景表示具有良好的泛化性 —— 通过调整高斯参数，可以轻易生成类似但不完全相同的新场景，有效扩展了训练数据的多样性，这对于覆盖自动驾驶所需的千万级长尾场景至关重要。

闭环强化学习：从试错中学习因果逻辑

在高保真 3DGS 环境的支持下，RAD 建立了一套完整的闭环强化学习训练范式，让自动驾驶策略能够通过大规模试错探索状态空间，学习处理分布外场景的能力。这一过程类似于人类驾驶员在驾驶学校的训练 —— 通过反复练习各种危险场景，逐渐形成对交通因果关系的直觉理解。

RAD 的 RL 框架在设计上解决了三大核心挑战：

安全导向的奖励函数设计是确保 RL 训练有效且安全的基础。RAD 将奖励函数分解为四个关键组件：动态碰撞惩罚（ $r_{dc}$ ）、静态碰撞惩罚（ $r_{sc}$ ）、位置偏差惩罚（ $r_{pd}$ ）和航向偏差惩罚（ $r_{hd}$ ）。当车辆与动态障碍物（如行驶中的汽车、行人）发生碰撞时， $r_{dc}$ 会触发高强度负奖励；与静态障碍物（如护栏、路缘）碰撞时则激活 $r_{sc}$ 。位置和航向偏差奖励则用于衡量车辆轨迹与专家轨迹的偏离程度，当横向偏差超过 2 米或航向偏差超过 40 度时，相应的负奖励会被触发。这种多维度奖励机制引导策略不仅关注避障，还能维持轨迹的平滑性和合规性。

动作空间的解耦与优化显著提升了 RL 训练的效率。RAD 将驾驶动作分解为横向（ $a^{x}$ ）和纵向（ $a^{y}$ ）两个独立分量，每个分量在 0.5 秒的时间窗口内建模为离散化的位移选择。横向动作覆盖 ±0.75 米的范围，分为 61 个离散选项；纵向动作覆盖 0-15 米，同样离散为 61 个选项。这种解耦设计将动作空间从联合空间的 3721 维降为两个独立的 61 维空间，结合简化的运动学模型（如自行车模型），使得策略能够更高效地探索有效动作组合。实验显示，解耦动作空间使 RL 收敛速度提升了 3.2 倍，这对于大规模训练至关重要。

广义优势估计（GAE）与辅助目标的引入解决了稀疏奖励问题。传统 RL 常因奖励稀疏导致收敛缓慢，RAD 通过将奖励分解为横向和纵向分量（ $r_{t}^{x},r_{t}^{y}$ ），并使用 GAE 进行优势估计，有效传播了奖励信号。同时，引入动态碰撞、静态碰撞、位置偏差和航向偏差四个辅助目标，为策略提供了密集的训练信号。例如，动态碰撞辅助目标会根据碰撞方向（前方或后方）调整纵向动作的概率分布，鼓励策略在前方有危险时优先选择减速动作。这些辅助目标使训练过程中的奖励密度提升了 8 倍，收敛稳定性显著提高。

人机协同优化：当 RL 遇见 IL

尽管 RL 能够学习强大的决策能力，但纯粹的 RL 策略往往会产生与人类驾驶习惯差异较大的动作模式，导致轨迹不自然甚至危险。为解决这一问题，RAD 提出了RL 与 IL 的协同优化框架，让两种范式相互补充，形成 "1+1>2" 的效果。

这种协同作用体现在三个层面：

行为正则化是 IL 对 RL 的核心贡献。在 RL 训练中，IL 作为正则化项约束策略的动作分布，使其保持与人类驾驶行为的相似性。具体而言，RAD 在规划预训练阶段使用大规模人类驾驶数据（2000 小时）对动作分布进行初始化，然后在强化后训练阶段，通过交叉熵损失将策略动作与人类演示保持对齐。这种设计有效避免了 RL 探索过程中出现的 "异常行为"，如突然的急加速、非必要的频繁变道等。实验表明，加入 IL 正则化后，策略的纵向加加速度（jerk）降低了 42%，横向 jerk 降低了 38%，显著提升了驾驶舒适性。

因果建模是 RL 对 IL 的关键补充。如前所述，IL 难以捕捉场景中的因果关系，而 RL 通过闭环交互能够学习到隐藏的因果结构。RAD 的三阶段训练范式巧妙地结合了这一点：在感知预训练阶段，利用 BEV 编码器和地图 / 代理头提取场景的高层语义特征；规划预训练阶段通过 IL 初始化动作分布；强化后训练阶段则通过 RL 优化策略对因果关系的理解。例如，在十字路口场景中，RL 策略能够学会根据交通灯状态和周围车辆运动预测潜在危险，而不仅仅是模仿人类驾驶员的具体动作，这种因果理解能力使策略在红灯突然亮起等紧急情况下的反应速度比 IL 策略快 0.8 秒。

最优混合比例的探索揭示了 RL 与 IL 的协同规律。RAD 通过消融实验发现，RL 与 IL 的训练步数比例对性能影响显著：当比例为 4:1 时，策略达到最佳平衡点 —— 碰撞率（CR）降至 0.089，同时保持较低的平均偏差距离（ADD=0.257）。纯 IL 策略虽然轨迹一致性高（ADD=0.238），但 CR 高达 0.229；纯 RL 策略则相反，CR 降至 0.143 但 ADD 恶化为 0.345。这一结果表明，适度的 RL 探索对于提升安全性不可或缺，但过度探索会损害轨迹平滑性，而 IL 的引入恰好能平衡这一矛盾。

三阶段训练：从感知到规划的渐进式优化

RAD 的三阶段训练范式是其成功的关键架构设计，通过分阶段、分模块的优化策略，逐步构建强大的端到端驾驶能力。这种渐进式训练方法不仅提高了训练效率，还避免了多任务优化中的目标冲突问题。

感知预训练阶段专注于场景理解能力的构建。在这一阶段，RAD 利用 BEV 编码器将多视角图像特征转换为鸟瞰图表示，然后通过地图头和代理头分别学习车道线、交通标志等静态地图元素，以及其他车辆、行人的动态信息。训练过程中使用真实驾驶数据的标注作为监督信号，引导地图令牌和代理令牌编码高层语义信息。例如，地图令牌会学习表示车道中心线的曲率、交通信号灯的状态等；代理令牌则编码其他车辆的位置、速度和未来轨迹分布。这一阶段仅更新 BEV 编码器、地图头和代理头的参数，为后续规划任务奠定坚实的感知基础。

规划预训练阶段通过模仿学习初始化动作决策能力。为避免 RL 训练的冷启动不稳定，RAD 首先利用大规模人类驾驶演示数据对规划头进行 IL 训练。此时，感知模块的参数已冻结，仅更新图像编码器和规划头的参数。规划头以场景表示（地图令牌、代理令牌、图像令牌）为输入，结合导航信息和自车状态，输出横向和纵向动作的概率分布。训练过程中使用焦点损失（Focal Loss）优化离散动作分类，特别关注难例样本（如紧急制动、复杂变道等场景）的学习。这一阶段使策略具备了基本的驾驶动作生成能力，为后续 RL 优化提供了良好的起点。

强化后训练阶段实现策略的闭环优化与提升。这是 RAD 的核心创新阶段，通过 32 个并行工作节点在 3DGS 环境中进行大规模滚动 out（rollout），收集训练数据。每个工作节点随机采样一个 3DGS 环境，策略控制自车与环境交互，生成的轨迹数据（ $s_{t},a_{t},r_{t+1},s_{t+1}$ ）存储在滚动缓冲区中。策略优化采用 PPO 框架，交替进行 RL 和 IL 训练：RL 步骤从缓冲区采样数据优化策略的安全性和适应性；IL 步骤则使用人类演示数据维持行为对齐。为避免数据分布偏移，每完成固定训练步数后，更新后的策略会同步到所有工作节点。这一阶段仅更新图像编码器和规划头的参数，通过千万级步长的训练，使策略具备处理各种复杂场景的能力。

实验验证：3 倍安全提升背后的技术实力

RAD 的有效性在严格的闭环评估中得到了充分验证。团队构建了包含 337 个未见过的 3DGS 环境的测试基准，覆盖城市道路、高速公路、施工路段等多种场景，其中 68% 为高密度交通环境，23% 包含突发危险事件（如行人横穿、车辆加塞等）。与 VAD、GenAD、VADv2 等主流 IL 方法相比，RAD 在关键指标上展现出显著优势。

碰撞率的大幅降低是 RAD 最引人注目的成果。在闭环测试中，RAD 的总碰撞率（CR）仅为 0.089，其中动态碰撞率（DCR）0.080，静态碰撞率（SCR）0.009。相比之下，VADv2 的 CR 为 0.270，DCR 0.240，SCR 0.030——RAD 的 CR 比 VADv2 低 3 倍，DCR 低 3 倍，SCR 低 3.3 倍。这意味着在相同里程的驾驶中，RAD 策略发生碰撞的概率仅为传统 IL 方法的三分之一，充分证明了 RL 训练在提升安全性方面的巨大价值。特别值得注意的是，在突发危险场景中，RAD 的碰撞率降低更为显著 —— 例如在行人突然冲出场景中，RAD 的避撞成功率达到 92%，而 IL 方法仅为 61%。

轨迹一致性与驾驶平滑性的平衡体现了 RAD 的设计精妙。尽管 RAD 的主要目标是提升安全性，但它在轨迹对齐方面同样表现出色：平均偏差距离（ADD）为 0.257 米，略优于 VADv2 的 0.273 米；位置偏差率（PDR）0.042，航向偏差率（HDR）0.021，均低于对比方法。在驾驶平滑性指标上，RAD 的纵向 jerk 为 4.495，横向 jerk 为 0.082，显著优于 GenAD 的 11.37 和 0.320，甚至比以平滑性著称的 VADv2（7.782 和 0.171）还要优秀。这说明 RAD 通过 IL 与 RL 的协同，成功实现了安全性、轨迹准确性和平滑性的多目标优化。

消融实验揭示了各组件的贡献。通过系统性地调整 RL-IL 比例、奖励组件和辅助目标，RAD 团队验证了每个设计决策的重要性。结果显示，当 RL-IL 比例为 4:1 时性能最佳；缺少动态碰撞奖励（ $r_{dc}$ ）会导致 CR 飙升至 0.238，证明动态障碍物处理的关键作用；而移除所有辅助目标会使 CR 从 0.089 升至 0.249，凸显了辅助目标在加速收敛和提升稳定性方面的价值。这些实验不仅验证了 RAD 架构的有效性，还为未来优化提供了明确方向。

IL-only Policy和RAD的对比视频请查看网址：https://hgao-cv.github.io/RAD

挑战与未来：从数字孪生到通用智能

尽管 RAD 取得了显著进展，但自动驾驶技术的终极目标 —— 通用智能驾驶 —— 仍面临诸多挑战。RAD 团队清醒地认识到现有方法的局限性，并在多个方向上规划了未来发展路径。

动态交互建模是当前 3DGS 环境的主要短板。目前 RAD 使用的 3DGS 环境中，其他交通参与者采用日志回放模式，不会对自车行为做出实时反应，这种 "非反应性" 环境限制了策略学习复杂交互的能力。未来工作将致力于构建动态交互模型，使数字孪生中的其他车辆、行人能够根据自车动作调整行为，形成真正的闭环交互系统。这需要结合多智能体强化学习技术，让不同交通参与者在共享环境中协同进化，从而训练出更具社交智能的驾驶策略。

3DGS 技术的进一步优化将提升模拟的真实感。尽管 3DGS 在静态场景和刚性物体上表现出色，但在处理非刚性行人、未观测视角和低光场景时仍有改进空间。未来计划引入神经辐射场（NeRF）技术，增强动态物体的表示能力；结合多传感器融合（如激光雷达、毫米波雷达）数据，提升复杂光照条件下的渲染精度；并开发自适应分辨率的高斯管理策略，在保持渲染效率的同时提高关键区域的细节表示。这些改进将进一步缩小模拟与现实的差距，提升策略的泛化能力。

大规模分布式 RL 系统的构建是迈向实用化的关键。RAD 目前使用 32 个工作节点进行训练，而真正覆盖所有长尾场景需要数千甚至上万个节点的大规模分布式系统。未来需要开发高效的参数服务器架构、异步更新策略和故障恢复机制，实现千万级场景的并行训练。同时，结合迁移学习和课程学习技术，让策略能够从简单场景逐步过渡到复杂场景，提高训练效率并避免灾难性遗忘。

安全认证体系的建立是商业化部署的前提。随着 RL 策略的决策逻辑日益复杂，传统的基于规则的安全认证方法已不再适用。RAD 团队正在探索形式化验证、对抗性测试和因果推理相结合的新型安全认证框架，旨在为 RL 驱动的自动驾驶系统建立可解释、可验证的安全保证体系。这不仅涉及技术层面的创新，还需要与行业标准制定机构合作，推动自动驾驶安全认证体系的升级。

结语：自动驾驶的新范式

RAD 的提出标志着自动驾驶技术从 "模仿人类" 向 "理解世界" 的重要转变。通过 3DGS 数字孪生与闭环强化学习的深度融合，RAD 首次实现了在高保真模拟环境中训练端到端驾驶策略，有效解决了传统 IL 方法的因果混淆和开环差距问题。其核心价值不仅在于碰撞率降低 3 倍的性能提升，更在于建立了一套可扩展、可进化的智能驾驶训练范式 —— 如同人类驾驶员通过不断练习和试错提升驾驶技能，RAD 让机器能够在数字世界中安全地探索各种可能性，学习隐藏的交通因果规律。

从技术发展趋势看，RAD 代表了自动驾驶的未来方向：数字孪生 + 强化学习的组合有望成为突破长尾问题的关键路径。随着 3DGS 技术的成熟、计算能力的提升和算法的优化，我们有理由相信，自动驾驶系统将在不久的将来具备超越人类驾驶员的环境理解能力和决策安全性。当然，这一过程仍面临诸多挑战，需要学术界和产业界在场景建模、算法优化、安全认证等多个维度持续创新。

RAD 的故事，不仅是一项技术突破，更是一次范式革新 —— 它证明了在复杂动态环境中，智能并非来自对表象的模仿，而是源于对因果结构的理解和持续不断的探索。这或许是自动驾驶带给我们的最深层启示：真正的智能，始于对世界的好奇与探索。

查看全文

http://www.xdnf.cn/news/12385.html