中科院自动化研究所通用空中任务无人机!基于大模型的通用任务执行与自主飞行
-
作者: Ji Zhao and Xiao Lin
-
单位:中科院自动化研究所
-
论文标题:General-Purpose Aerial Intelligent Agents Empowered by Large Language Models
-
论文链接:https://arxiv.org/pdf/2503.08302
主要贡献
-
硬件-软件协同设计框架:提出了一种针对无人机(UAV)的硬件-软件协同设计框架,通过边缘计算平台实现了14B参数的大型语言模型(LLM)的高效推理(5-6 tokens/second),同时保持了220W的峰值功耗。
-
双向认知架构:设计了一种双向认知架构,将LLM的慢速深思熟虑规划(任务规划)与快速反应控制(状态估计、建图、避障和运动规划)相结合,实现了任务规划与反应控制的协同。
-
任务规划和场景理解验证:通过原型系统验证了LLM/VLM在通信受限环境中的任务规划和场景理解能力,如甘蔗监测、电网巡检、矿井隧道勘探和生物观测等应用,展示了系统在真实世界场景中的泛化能力。
研究背景
-
无人机的局限性:尽管无人机在农业、电网巡检、矿业和生物观测等领域有广泛应用,但现有的无人机系统大多局限于执行预定义任务,缺乏灵活性和适应性。
-
大型语言模型的潜力:随着LLM和视觉-语言模型(VLM)的发展,无人机有望基于开放式语言指令执行任务并与开放集对象交互,但目前的无人机系统由于硬件和软件的限制,难以实现这一目标。
-
挑战:LLM具有庞大的参数规模和对计算资源的高需求,而无人机受到重量、功耗和尺寸的限制。此外,如何将LLM的慢速推理能力与无人机的快速反应能力有效结合也是一个关键问题。
研究方法
硬件设计
-
智能计算域:无人机配备了强大的计算模块,包括16核5GHz的Intel CPU、12核2.5GHz的ARM处理器以及双层GPU架构,能够提供高达10 TFLOPS的通用计算能力和40 TOPS(Int8)的嵌入式计算能力,支持运行14B参数的DeepSeek-R1 LLM。
-
能源供应域:电池舱和电源系统能够为智能计算域提供1000Wh的峰值功耗,支持大模型连续运行4小时,同时为飞行域提供22000WmAh(700Wh)的电力。
-
飞行域:飞行控制系统和螺旋桨能够提供足够的推力,最大起飞重量可达18kg。
-
通信与GPS域:配备2×2 MIMO 5G通信模块,理论带宽2Gbps,实际带宽400Mbps,RTK模块提供厘米级导航精度,视频传输模块传输距离可达30km。
-
感知域:配备14个摄像头、6个ToF摄像头、4D LiDAR和IMU,能够实现高精度的环境感知和障碍物检测。
-
载荷域:配备多种载荷,如红外热像仪、激光测距仪、FPV相机、三轴云台、探照灯、夜视设备等,以满足不同任务需求。
双向认知架构
-
任务规划阶段:通过向LLM(如DeepSeek-R1)提供任务描述,生成详细的任务计划,并由人类操作员审核确认。LLM利用其常识和推理能力,即使提示中未提及某些细节,也能生成合理的计划。
-
任务执行阶段:无人机自主执行任务。感知模块检测障碍物,状态估计和建图模块提供无人机的位姿和局部地图,VLM生成图像的场景描述。这些信息与地理信息和无人机的动作集一起,形成提示输入LLM,作为运动规划器,选择动作并生成航点,输入飞行控制单元(FCU)以控制无人机。
提示设计框架
-
提出了一个两阶段的提示设计框架,将LLM的推理能力与传统无人机自主模块(如状态估计、运动规划、控制等)进行整合,实现了任务规划与反应控制之间的双向信息流。
实验
任务定义:
-
甘蔗监测:利用无人机的高精度测量和感知能力,对甘蔗的倒伏情况进行监测,通过快思维和慢思维系统的协同,自主识别甘蔗生长状态,及时检测倒伏等问题。
-
电网巡检:无人机实现自主飞行跟踪和缺陷识别,快思维系统负责避障和路径规划,慢思维系统对巡检数据进行深入分析,识别潜在缺陷。
-
矿井隧道勘探:利用LiDAR SLAM技术进行精确导航和建图,快思维系统提供实时感知和路径规划能力,慢思维系统进行综合分析和处理,使无人机能够自主穿越复杂矿井环境。
-
鲸鱼表面生物观测:通过实时多传感器融合保持良好的定位精度,慢思维系统结合历史潜水模式和海洋数据预测鲸鱼浮出水面的区域。
实验结果
- 任务规划结果:
-
对于上述四种应用,LLM能够生成合理的任务规划,包括任务目标、准备阶段、任务规划等。
-
例如,在甘蔗监测任务中,LLM建议选择靠近甘蔗田的开阔区域作为起飞点;在矿井隧道勘探任务中,LLM注意到矿井隧道内没有GPS信号,即使在提示中没有提及这一点。
-
- 场景理解结果:
-
使用真实世界的边缘案例图像测试了机载VLM的场景理解能力。
-
在甘蔗监测和电网巡检任务中,VLM成功检测到甘蔗倒伏情况和电网潜在危险。
-
实验结果表明,空中智能代理有潜力替代人类执行危险或单调的任务。
-
结论与未来工作
- 结论:
-
提出的框架通过优化硬件设计实现了14B参数LLM的边缘部署,克服了传统功耗和计算能力的限制。
-
提出的两阶段提示设计框架实现了LLM引导的任务规划与低级反应能力之间的有效交互。
-
在需要环境意识和操作精度的关键任务中,该框架表现出有效性。
-
实验表明,LLM推理和反应模块之间的双向信息流可以应用于具有特定设计方法的通用任务,且机载LLM运行对无人机(尤其是安全关键操作)有益。
-
- 未来工作:
-
进一步减轻无人机重量,将当前使用的铝合金框架替换为碳纤维等更轻的材料。
-
通过真实飞行测试进一步验证系统的有效性,并将硬件平台开源。
-