港科大 NMPC 控制下的高效自主导航!SkyVLN:城市环境无人机视觉语言导航与非线性模型预测控制
作者:Tianshun Li, Tianyi Huai, Zhen Li, Yichun Gao, Haoang Li, Xinhu Zheng
单位:香港科技大学(广州)
论文标题:SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments
论文链接:https://arxiv.org/pdf/2507.06564
主要贡献
提出了无人机(UAV)视觉语言导航框架SkyVLN,将视觉语言模型与提示优化和非线性模型预测控制(NMPC)相结合,显著提升了无人机在复杂城市环境中的导航性能,尤其在新环境中表现出更高的导航成功率和效率。
设计了非线性模型预测控制策略,考虑了速度、姿态限制、姿态角速度以及碰撞避免等多种约束,通过预测未来系统行为并优化控制输入,实现了期望轨迹跟踪,同时满足物理约束条件。
提出了细粒度空间描述器(HSD)和轨迹回溯记忆阵列(TBMA),能够详细描述地标及其空间关系,并帮助无人机在必要时回溯路径,显著增强了无人机处理模糊指令和复杂空间推理任务的能力,从而在未见环境中实现更好的导航性能。
研究背景
无人机因其出色的自主性、机动性和适应性,在众多领域得到广泛应用,如监视、监测、搜索与救援、医疗保健、无线网络配置以及物流等。然而,无人机在复杂城市环境中的自主导航面临诸多挑战,包括三维空间中的动态障碍物规避、复杂的视觉定位以及扩展的动作空间等。
近年来,大型语言模型(LLM)在处理复杂多模态输入方面展现出巨大潜力,能够结合视觉信息和自然语言指令进行任务规划和常识推理。但如何将 LLM 与无人机的视觉语言导航任务相结合,以提升导航性能、可解释性和鲁棒性,仍是一个亟待解决的问题。
研究方法
多模态感知
任务描述:无人机通过前置广角相机获取环境的视觉信息,并利用视觉语言模型(VLM)检测图像中的地标。同时,系统会从自然语言指令中提取关键地标短语,以便将视觉观察与语言指令进行匹配。
地标检测:使用GroundingDINO模型检测图像中的地标,并为每个地标分配一个观察视角。如果同一地标在多个视角中出现,则选择得分最高的视角作为该地标的观察视角。
指令解析:利用预训练的大型语言模型(LLM)从自然语言指令中提取关键地标短语,并将其分解为多个子目标。这些子目标帮助无人机在路径规划过程中逐步探索候选节点或地标,并在必要时回溯到特定节点重新探索。
子目标提取:通过LLM将自然语言指令分解为多个子目标,便于无人机逐步推理和识别地标。例如,指令“先飞到白色建筑,然后沿着建筑旁边的马路飞行,直到看到三角形广告牌”会被分解为多个子目标,如“飞到白色建筑”、“沿着马路飞行”等。
寻路提示优化
- 高分辨率空间描述器:
功能:将无人机的每个视角划分为九个区域,为每个区域提供详细的空间标签,从而更准确地描述地标的空间位置。
工作流程:对于每个地标,系统会生成描述其空间位置的文本,并利用LLM对地标和候选匹配进行描述性文本的生成和评估。通过比较描述性文本的相似度,确定地标与候选匹配之间的最佳匹配。例如,如果地标是“白色建筑”,HSD会将其空间位置描述为“前方上方”,从而帮助无人机更准确地定位。
- 轨迹回溯记忆阵列:
功能:以图的形式存储无人机的历史轨迹和指令,节点表示地标,边表示地标之间的导航指令。通过最短路径算法,无人机可以利用历史轨迹信息推导出可行的路径。
工作流程:当遇到模糊指令时,TBMA会提供历史轨迹信息,帮助无人机回溯到特定节点重新探索。例如,如果指令是“左转,然后右转,然后直行”,无人机可以通过TBMA找到之前探索过的地标,并利用这些信息推导出正确的路径。如果无人机在执行指令过程中发现当前位置与预期不符,它可以通过TBMA回溯到之前的地标,并重新规划路径。
非线性模型预测控制
- 控制架构:
无人机的控制动作包括推力(T)、期望滚转角(ϕref)和期望俯仰角(θref)。通过NMPC模块,系统根据当前状态和障碍物轨迹生成最优控制输入。
NMPC模块接收无人机状态数据和障碍物轨迹作为输入,并输出最优控制输入,这些输入经过映射后传递给低级姿态控制器。
- 数学模型:
定义了无人机的六自由度(6-DoF)动力学模型,包括位置、速度、姿态角和姿态角速度的动态方程。
模型考虑了推力矢量的影响、线性阻尼项以及重力加速度。
- NMPC算法:
成本函数:通过最小化当前状态和预测状态之间的差异,优化控制输入序列。成本函数包括状态成本、输入成本和输入平滑性成本。
障碍物定义:使用球形障碍物模型表示动态障碍物,通过定义障碍物的轨迹和安全距离,确保无人机与障碍物之间的安全距离。
输入约束:限制控制输入的变化率,确保控制动作的平滑性和稳定性。
实时优化:使用PANOC算法和OpEn软件求解NMPC问题,该算法适用于低延迟的无人机控制任务。
实验平台
3D环境构建
- 环境组成:
包括建筑物(如购物中心、住宅楼、公共设施)、街道(含车道、交叉口、交通信号、道路标记)、车辆和行人(模拟真实交通和行人动态)、街具(如长椅、路灯、标识)、植被(树木、灌木、草坪)以及城市设施(公交站、入口、公共卫生间等)。
环境中还增加了屋顶和外墙的细节,便于无人机从空中识别地标。
- 特点:
提供高保真3D模型和实时数据集成。
专门支持无人机仿真,适用于城市环境中自主系统的开发,特别是在感知、导航和战略规划方面。
VLN仿真器
- 开发基础:
基于AirSim和Unreal Engine 4开发。
- 视觉感知:
仿真器在每个时间步输出无人机前方的RGB图像、深度图像和语义分割图像。
- 动作空间:
包括设置目标位置、目标速度和目标姿态角。
支持相机视角调整和其他控制功能,如启动或停止飞行。
- 与现有数据集的对比:
与TouchDown、R2R、RxR等数据集不同,该仿真环境是连续空间,允许无人机在环境中自由飞行到任意点。
实验与结果
实验设置
- 数据集:
使用“AVDN”数据集进行实验,该数据集包含复杂轨迹和自然语言指令。
平均路径长度为287米,指令中频繁出现的词汇主要涉及方向和地标。
- 实验平台:
在AirSim和UE4上进行实验,使用GPT-4模型。
实验设备为搭载Intel i9第12代CPU和NVIDIA GeForce RTX 4070 GPU的笔记本电脑。
深度传感器感知范围为100米,相机视场角为90度。
定量结果
- 评估指标:
SPL(路径长度加权成功率)和SR(成功率)。
- 基线方法:
Random(随机)
CMA(Cross Modal Alignment,跨模态对齐)
Seq2Seq(序列到序列)
NavGPT(基于LLM的导航模型)。
- 实验结果:
“NavGPT”在基线方法中表现最佳,但在未见测试集上的SPL为18.9%,SR为16.6%。
“w MPC”模型在已见验证集上表现良好,但在未见测试集上SPL为12.9%,SR为15.17%。
“w NMPC”模型在未见测试集上SPL为22.4%,SR为26.8%。
“w/o HSD”和“w/o TMA”模型分别在未见验证集和未见测试集上表现较好。
“Ours Full”模型(包含所有组件)在已见和未见条件下均表现最佳,在未见测试集上SPL为28.11%,SR为42.37%,显示出良好的鲁棒性和泛化能力。
定性分析
- 任务示例:
无人机需要根据自然语言指令和第一人称视角的视觉感知完成导航任务。
示例任务包括“经过交叉口后左转,沿着街道右侧飞行,与建筑物保持至少5米距离,将包裹送到下一个交叉口的六楼,然后继续飞到粉色建筑的大屋顶上”。
- 系统提示和动作提示:
系统提示描述了无人机的实体化功能和动作能力。
动作提示提供了反馈和潜在动作的输出指令。
- 结果:
无人机能够通过视觉和语言信息识别地标,并根据指令完成复杂的导航任务。
消融研究
- 不同LLM的性能比较:
GPT-4V:SPL为16.62%,SR为34.9%,路径效率和成功率之间的平衡较好。
GPT-4o:SPL为34.25%,SR为20.44%,路径效率高但成功率较低。
GPT-4 Turbo:SPL为25.12%,SR为15.62%,探索性较强,但成功率和路径效率较低。
- 结论:
不同LLM在导航性能上存在差异,GPT-4V在未见测试集上表现较为均衡。
结论与未来工作
- 结论:
SkyVLN 框架为无人机在复杂城市环境中的视觉与语言导航提供了一种有效的解决方案,通过多模态感知、提示优化和非线性模型预测控制的有机结合,显著提升了导航性能和决策的可解释性。
该研究利用 LLM 的强大能力,增强了无人机在动态复杂环境中的自主性和适应性,为无人机的智能化应用奠定了基础。
- 未来工作:
未来的研究方向包括进一步优化安全性和任务效率之间的平衡,扩展到多无人机协同操作,通过集成群体智能实现更高效的群体行为,并增强无人机在恶劣环境条件下的控制能力,以推动无人机导航技术的进一步发展和应用。