当前位置: 首页 > news >正文

CoLMDriver:基于LLM的协同自动驾驶

《CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving》

25年3月来自上海交大和上海AI实验室的论文

        上海交大与上海AI实验室提出的CoLMDriver系统创新性地将大型语言模型(LLM)应用于多车协同驾驶。针对传统方法在环境建模和场景泛化方面的不足,该系统采用双管道架构:高层规划管道通过LLM谈判模块(Actor-Critic范式)实现动态分组协商,结合评估器的安全/效率反馈优化策略;底层执行管道则通过意图引导的Transformer模型生成可执行路径点。在InterDrive基准测试中,系统驾驶分数达88.53,成功率提升23%,尤其在车道变换场景表现突出。关键技术突破包括谈判机制创新、异步并行设计及意图-路径点映射方法,为自动驾驶中的LLM应用提供了新范式。研究代码已开源。CoLMDriver具有一个并行驾驶管道,有两个关键组成部分:(i)一个基于LLM的谈判模块,采用行动者批评范式,通过所有车辆先前决策的反馈不断完善合作政策;以及(ii)意图引导的航路点生成器,其将协商结果转换为可执行的航路点。此外,我们还介绍了InterDrive,这是一个基于CARLA的仿真基准,包括10个具有挑战性的交互式驾驶场景,用于评估V2V合作。实验结果表明,CoLMDriver的表现明显优于现有方法,在各种高度互动的V2V驾驶场景中,成功率提高了11%。


一、研究背景与问题

核心问题:
  • 单车辆自动驾驶局限性:环境感知不完整、交互场景泛化能力差。

  • 传统协同驾驶瓶颈

    • 优化方法:依赖精确环境建模,难以处理未知场景。

    • 学习方法:对未见过的多车交互模式泛化性差。

  • LLM直接应用的挑战

    • 空间规划能力弱

    • 推理延迟不稳定

    • 冗余信息降低协商效率


二、解决方案:CoLMDriver系统

整体架构(双并行管道):
  1. 高层规划管道(低频)

    • LLM谈判模块(Actor-Critic范式)

      • 动态分组机制:基于时空安全评分构建车辆通信图,按冲突风险分组。

      • LLM协商器:自然语言多轮谈判,输入包括车速、意图、历史对话。

      • 评估器(Critic):通过共识度($S_c$)、安全性($S_s$)、效率($S_e$)评分提供反馈,加速收敛。

    • VLM意图规划器:生成导航/速度意图(如"左转"、"减速"),经LoRA微调适配驾驶场景。

  2. 底层执行管道(高频)

    • 意图引导路径点生成器

      • 输入:BEV占据图+高层意图(导航/速度)。

      • 模型:Transformer结构,融合环境特征与意图嵌入。

      • 输出:20个可执行路径点 → 通过PID控制器转为车辆控制信号。

关键创新
  • Actor-Critic谈判范式:LLM生成策略 → 评估器反馈 → 策略迭代优化(图1)。

  • 异步并行设计:高层协商与底层控制解耦,缓解LLM延迟影响。

  • 意图-路径点映射:多项式拟合专家轨迹,通过环境自适应加速度模型生成动态路径点。


三、实验与评估

1. 评测基准:InterDrive

 

  • 场景设计(10类挑战性交互场景,图4):

    • 交叉路口(IC):4种冲突类型(直行-直行、直行-左转等)。

    • 车道合并(LM):4种场景(高速匝道、T型路口等)。

    • 车道变换(LC):2种多车并行变道场景。

  • 评测指标

    • 路线完成率(RC)、违规分数(IS)、驾驶分数(DS=RC×IS)、成功率(SR)。

2. 实验结果
  • InterDrive性能(表1)

    • CoLMDriver在驾驶分数(DS) 和成功率(SR) 全面领先:

      • 总DS:88.53(优于第二名Rule-based的78.38)

      • 总SR:80%(优于CoDriving的57%)

    • 场景细分:在LC(车道变换)场景提升最显著(DS 59.21 vs 43.52)。

  • 消融实验(表2)

    • 移除Critic反馈 → SR从80.4%降至73.9%

    • 移除动态分组 → 车辆持续停滞(RC降至10.37%)

  • 实时性验证(图6)

    • 考虑推理延迟时,DS仅下降6.62%,仍保持>90分。

  • 泛化能力(表3)

    • 在Town05公开基准上,DS领先ReasonNet 11%(长路线场景)。


四、技术贡献

  1. 首个全流程LLM协同驾驶系统:实现从感知→协商→控制的闭环。

  2. 创新谈判机制

    • Actor-Critic架构提升协商效率

    • 动态分组减少通信冗余

  3. InterDrive评测基准:10类高冲突场景推动V2V交互研究。


五、局限性与未来方向

  • 当前局限:语言交互样本多样性不足。

  • 未来计划

    • 扩展更复杂的谈判场景

    • 优化LLM轻量化部署

    • 探索多模态输入(如语音交互)


总结

CoLMDriver通过LLM谈判机制解决了传统协同驾驶的泛化性问题:

  1. 高层意图协商:Actor-Critic框架实现安全高效的策略共识。

  2. 底层实时控制:意图引导的路径点生成器保障车辆执行力。

  3. 系统级创新:双管道设计平衡LLM推理延迟与实时控制需求。
    实验证明其在冲突场景中的成功率显著提升(+11%),为LLM在自动驾驶中的落地提供了新范式。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!

http://www.xdnf.cn/news/1023751.html

相关文章:

  • LangChain面试内容整理-知识点10:文本嵌入模型(Embeddings)使用
  • 如何安装使用qmt脚本跟单聚宽策略
  • C++四大默认成员函数:构造、析构、拷贝构造与赋值重载
  • 利用pycharm搭建模型步骤
  • Sqoop进阶之路:解锁数据迁移新姿势
  • 2025.6.12 【校内 NOI 训练赛】记录(集训队互测选做)
  • 使用OceanBase的Oblogminer进行日志挖掘的实践
  • Mysql 函数concat、concat_ws和group_concat
  • MySQL的对表对整库备份脚本
  • Elasticsearch 常用命令(未完成)
  • python中的文件操作处理:文本文件的处理、二进制文件的处理
  • 心之眼 豪华中文 免安 离线运行版
  • 大模型记忆相关(MemoryOs)
  • kafka Tool (Offset Explorer)使用SASL Plaintext进行身份验证
  • cinematic-gaussians
  • 【RAG+读代码】学术文档解析工具Nougat
  • DeepSeek 引领前端开发变革:AI 助力学习与工作新路径
  • 基于STM32手势识别智能家居系统
  • 抖音AI数字人对口型软件LatentSync最新版整合包,音频驱动口型讲话
  • echarts图封装 自动切换 大屏 swiper 切换里面放echarts图,注意不要开循环 否则出不来
  • 图像处理算法的学习笔记
  • SpringBoot的Web应用开发——Web缓存利器Redis的应用!
  • 【UEFI系列】PEI阶段讲解
  • 生产环境LVM存储降级方案
  • Python训练营---DAY53
  • Git 前后端 Java Vue 项目的 .gitignore 配置分享
  • Linux环境下安装和使用RAPIDS平台的cudf和cuml - pip 安装方法
  • java集合(八) ---- Vector 类
  • 电磁铁性能检测所需工具
  • DataGrip 安装和连接Mysql