CoLMDriver:基于LLM的协同自动驾驶
《CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving》
25年3月来自上海交大和上海AI实验室的论文
上海交大与上海AI实验室提出的CoLMDriver系统创新性地将大型语言模型(LLM)应用于多车协同驾驶。针对传统方法在环境建模和场景泛化方面的不足,该系统采用双管道架构:高层规划管道通过LLM谈判模块(Actor-Critic范式)实现动态分组协商,结合评估器的安全/效率反馈优化策略;底层执行管道则通过意图引导的Transformer模型生成可执行路径点。在InterDrive基准测试中,系统驾驶分数达88.53,成功率提升23%,尤其在车道变换场景表现突出。关键技术突破包括谈判机制创新、异步并行设计及意图-路径点映射方法,为自动驾驶中的LLM应用提供了新范式。研究代码已开源。CoLMDriver具有一个并行驾驶管道,有两个关键组成部分:(i)一个基于LLM的谈判模块,采用行动者批评范式,通过所有车辆先前决策的反馈不断完善合作政策;以及(ii)意图引导的航路点生成器,其将协商结果转换为可执行的航路点。此外,我们还介绍了InterDrive,这是一个基于CARLA的仿真基准,包括10个具有挑战性的交互式驾驶场景,用于评估V2V合作。实验结果表明,CoLMDriver的表现明显优于现有方法,在各种高度互动的V2V驾驶场景中,成功率提高了11%。
一、研究背景与问题
核心问题:
-
单车辆自动驾驶局限性:环境感知不完整、交互场景泛化能力差。
-
传统协同驾驶瓶颈:
-
优化方法:依赖精确环境建模,难以处理未知场景。
-
学习方法:对未见过的多车交互模式泛化性差。
-
-
LLM直接应用的挑战:
-
空间规划能力弱
-
推理延迟不稳定
-
冗余信息降低协商效率
-
二、解决方案:CoLMDriver系统
整体架构(双并行管道):
-
高层规划管道(低频):
-
LLM谈判模块(Actor-Critic范式):
-
动态分组机制:基于时空安全评分构建车辆通信图,按冲突风险分组。
-
LLM协商器:自然语言多轮谈判,输入包括车速、意图、历史对话。
-
评估器(Critic):通过共识度($S_c$)、安全性($S_s$)、效率($S_e$)评分提供反馈,加速收敛。
-
-
VLM意图规划器:生成导航/速度意图(如"左转"、"减速"),经LoRA微调适配驾驶场景。
-
-
底层执行管道(高频):
-
意图引导路径点生成器:
-
输入:BEV占据图+高层意图(导航/速度)。
-
模型:Transformer结构,融合环境特征与意图嵌入。
-
输出:20个可执行路径点 → 通过PID控制器转为车辆控制信号。
-
-
关键创新:
-
Actor-Critic谈判范式:LLM生成策略 → 评估器反馈 → 策略迭代优化(图1)。
-
异步并行设计:高层协商与底层控制解耦,缓解LLM延迟影响。
-
意图-路径点映射:多项式拟合专家轨迹,通过环境自适应加速度模型生成动态路径点。
三、实验与评估
1. 评测基准:InterDrive
-
场景设计(10类挑战性交互场景,图4):
-
交叉路口(IC):4种冲突类型(直行-直行、直行-左转等)。
-
车道合并(LM):4种场景(高速匝道、T型路口等)。
-
车道变换(LC):2种多车并行变道场景。
-
-
评测指标:
-
路线完成率(RC)、违规分数(IS)、驾驶分数(DS=RC×IS)、成功率(SR)。
-
2. 实验结果
-
InterDrive性能(表1):
-
CoLMDriver在驾驶分数(DS) 和成功率(SR) 全面领先:
-
总DS:88.53(优于第二名Rule-based的78.38)
-
总SR:80%(优于CoDriving的57%)
-
-
场景细分:在LC(车道变换)场景提升最显著(DS 59.21 vs 43.52)。
-
-
消融实验(表2):
-
移除Critic反馈 → SR从80.4%降至73.9%
-
移除动态分组 → 车辆持续停滞(RC降至10.37%)
-
-
实时性验证(图6):
-
考虑推理延迟时,DS仅下降6.62%,仍保持>90分。
-
-
泛化能力(表3):
-
在Town05公开基准上,DS领先ReasonNet 11%(长路线场景)。
-
四、技术贡献
-
首个全流程LLM协同驾驶系统:实现从感知→协商→控制的闭环。
-
创新谈判机制:
-
Actor-Critic架构提升协商效率
-
动态分组减少通信冗余
-
-
InterDrive评测基准:10类高冲突场景推动V2V交互研究。
五、局限性与未来方向
-
当前局限:语言交互样本多样性不足。
-
未来计划:
-
扩展更复杂的谈判场景
-
优化LLM轻量化部署
-
探索多模态输入(如语音交互)
-
总结
CoLMDriver通过LLM谈判机制解决了传统协同驾驶的泛化性问题:
-
高层意图协商:Actor-Critic框架实现安全高效的策略共识。
-
底层实时控制:意图引导的路径点生成器保障车辆执行力。
-
系统级创新:双管道设计平衡LLM推理延迟与实时控制需求。
实验证明其在冲突场景中的成功率显著提升(+11%),为LLM在自动驾驶中的落地提供了新范式。
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!