当前位置：首页 > news >正文

CoLMDriver：基于LLM的协同自动驾驶

news 2025/6/14 8:26:57

《CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving》

25年3月来自上海交大和上海AI实验室的论文

上海交大与上海AI实验室提出的CoLMDriver系统创新性地将大型语言模型(LLM)应用于多车协同驾驶。针对传统方法在环境建模和场景泛化方面的不足，该系统采用双管道架构：高层规划管道通过LLM谈判模块（Actor-Critic范式）实现动态分组协商，结合评估器的安全/效率反馈优化策略；底层执行管道则通过意图引导的Transformer模型生成可执行路径点。在InterDrive基准测试中，系统驾驶分数达88.53，成功率提升23%，尤其在车道变换场景表现突出。关键技术突破包括谈判机制创新、异步并行设计及意图-路径点映射方法，为自动驾驶中的LLM应用提供了新范式。研究代码已开源。CoLMDriver具有一个并行驾驶管道，有两个关键组成部分：（i）一个基于LLM的谈判模块，采用行动者批评范式，通过所有车辆先前决策的反馈不断完善合作政策；以及（ii）意图引导的航路点生成器，其将协商结果转换为可执行的航路点。此外，我们还介绍了InterDrive，这是一个基于CARLA的仿真基准，包括10个具有挑战性的交互式驾驶场景，用于评估V2V合作。实验结果表明，CoLMDriver的表现明显优于现有方法，在各种高度互动的V2V驾驶场景中，成功率提高了11%。

一、研究背景与问题

核心问题：

单车辆自动驾驶局限性：环境感知不完整、交互场景泛化能力差。
传统协同驾驶瓶颈：
- 优化方法：依赖精确环境建模，难以处理未知场景。
- 学习方法：对未见过的多车交互模式泛化性差。
LLM直接应用的挑战：
- 空间规划能力弱
- 推理延迟不稳定
- 冗余信息降低协商效率

二、解决方案：CoLMDriver系统

整体架构（双并行管道）：

高层规划管道（低频）：
- LLM谈判模块（Actor-Critic范式）：
  - 动态分组机制：基于时空安全评分构建车辆通信图，按冲突风险分组。
  - LLM协商器：自然语言多轮谈判，输入包括车速、意图、历史对话。
  - 评估器（Critic）：通过共识度（$S_c$）、安全性（$S_s$）、效率（$S_e$）评分提供反馈，加速收敛。
- VLM意图规划器：生成导航/速度意图（如"左转"、"减速"），经LoRA微调适配驾驶场景。
底层执行管道（高频）：
- 意图引导路径点生成器：
  - 输入：BEV占据图+高层意图（导航/速度）。
  - 模型：Transformer结构，融合环境特征与意图嵌入。
  - 输出：20个可执行路径点 → 通过PID控制器转为车辆控制信号。

关键创新：

Actor-Critic谈判范式：LLM生成策略 → 评估器反馈 → 策略迭代优化（图1）。
异步并行设计：高层协商与底层控制解耦，缓解LLM延迟影响。
意图-路径点映射：多项式拟合专家轨迹，通过环境自适应加速度模型生成动态路径点。

三、实验与评估

1. 评测基准：InterDrive

场景设计（10类挑战性交互场景，图4）：
- 交叉路口（IC）：4种冲突类型（直行-直行、直行-左转等）。
- 车道合并（LM）：4种场景（高速匝道、T型路口等）。
- 车道变换（LC）：2种多车并行变道场景。
评测指标：
- 路线完成率（RC）、违规分数（IS）、驾驶分数（DS=RC×IS）、成功率（SR）。

2. 实验结果

InterDrive性能（表1）：
- CoLMDriver在驾驶分数（DS） 和成功率（SR） 全面领先：
  - 总DS：88.53（优于第二名Rule-based的78.38）
  - 总SR：80%（优于CoDriving的57%）
- 场景细分：在LC（车道变换）场景提升最显著（DS 59.21 vs 43.52）。
消融实验（表2）：
- 移除Critic反馈 → SR从80.4%降至73.9%
- 移除动态分组 → 车辆持续停滞（RC降至10.37%）
实时性验证（图6）：
- 考虑推理延迟时，DS仅下降6.62%，仍保持>90分。
泛化能力（表3）：
- 在Town05公开基准上，DS领先ReasonNet 11%（长路线场景）。