当前位置: 首页 > news >正文

中农具身导航赋能智慧农业!AgriVLN:农业机器人的视觉语言导航

图片

  • 作者:Xiaobei Zhao, Xingqi Lyu, Xiang Li

  • 单位:中国农业大学

  • 论文标题:AgriVLN: Vision-and-Language Navigation for Agricultural Robots

  • 论文链接:https://arxiv.org/pdf/2508.07406v1

  • 代码链接:https://github.com/AlexTraveling/AgriVLN

主要贡献

  • 提出了A2A基准测试,这是一个覆盖6种常见农业场景(农场、温室、森林、山区、花园和村庄)的视觉语言导航(VLN)基准测试,包含1560个episode,所有真实RGB视频都是由四足机器人前端摄像头在0.38米高度拍摄的,与实际部署条件一致。

  • 提出了视觉语言导航农业机器人(AgriVLN)基线方法,基于视觉语言模型(VLM),通过精心设计的模板提示,能够理解给定的指令和农业环境,为机器人控制生成适当的低级动作。

  • 提出了子任务列表(STL)指令分解模块,并将其集成到AgriVLN中,在A2A基准测试上,与基线相比,完整模型将成功率(SR)从0.305提高到0.417,并且进一步与其他现有VLN方法进行比较,证明了其在农业领域视觉语言导航方面的最新性能。

研究背景

图片

  • 农业机器人在农业任务中发挥着重要作用,但目前大多数农业机器人的移动仍然依赖于人工操作或固定的轨道,这限制了它们的机动性和适应性。

  • 视觉语言导航(VLN)能够使机器人根据自然语言指令导航到目标位置,并且在多个领域表现出色,但现有的基准测试和方法都没有专门针对农业场景设计。

  • 现有的VLN基准测试主要集中在室内环境或城市街道等场景,而农业场景具有其独特性,如不同的地形、植被分布和光照条件等,因此需要一个专门针对农业场景的VLN基准测试来评估农业机器人的导航能力。

图片

A2A基准

任务定义

视觉语言导航(VLN)在农业机器人中的任务定义如下:在每个实验场景(episode)中,模型被赋予一条自然语言指令 ,其中  是单词的数量。在每个时间步 ,模型接收前向RGB图像 。模型的目标是理解指令  和图像 ,从而选择最佳的低级动作 (动作空间包括:前进、左转、右转、停止),引导机器人从起点导航到目标位置。

数据集收集

数据收集涵盖了6种不同的农业场景分类:农场、温室、森林、山脉、花园和村庄,这些场景涵盖了所有常见的农业场景。

  • 指令生成:在每个实验场景中,专家重现实际的农业活动,并提取人类移动的轨迹,然后精心设计一条准确的指令来描述该轨迹。与传统VLN基准测试中精致简洁的指令不同,A2A中的指令更加随意且冗长,包含许多无意义和误导性的内容,以更真实地还原农业工人说话的语气。

  • 机器人控制:选择Unitree Go2Air四足机器狗作为实验农业机器人。在每个实验场景中,专家手动控制机器人沿着从起点到终点的最佳路径行走,以完成相应的指令。

  • 视频录制:使用Unitree Go2Air四足机器狗内置的前向RGB摄像头作为视频录制设备。在每个实验场景中,专家手动控制摄像头记录整个时间线的前向视图。每个视频流以1280×720的分辨率、约14FPS的帧率和约1100kbps的码率进行捕获。

  • 数据标注:对于每个时间步 ,专家根据机器人的实际行走状态手动标注机器人的真值动作。将相邻相同的动作序列 ({a_{t1}, a_{t1+1}, \dots, a_{t2}}) 聚合成一个时间间隔,并以字典格式保存。每个实验场景由多个这样的时间间隔组成,以JSON格式存储。

数据集评估

图片

  • 数据规模与分布:A2A基准测试共收集了1560个实验场景,分布在6种不同的场景分类中,包括农场372个、温室258个、森林384个、山脉198个、花园258个和村庄90个。指令长度从10到99不等,平均长度为45.5,子任务数量从2到8不等,平均为2.6。

图片

  • 词汇分布:A2A中的指令词汇包含893个单词,其中“front”、“camera”和“view”是常用的名词,而“go”、“stop”和“need”是常用的动词。这些词汇都是日常生活中常见的,证明了A2A指令与农业工人对话的语气一致性。

  • 与其他基准测试的比较:A2A在多个方面与其他主流VLN基准测试进行了比较,包括场景多样性、图像质量和数据规模。A2A涵盖了所有常见的农业场景,图像采集条件与实际农业机器人一致,并且提供了更长的指令以更好地评估模型对长文本的理解能力。

评估指标

  • 成功率(SR):成功完成任务的实验场景比例。

  • 导航误差(NE):机器人最终位置与目标位置之间的距离。

  • 独立成功率(ISR):每个子任务的成功率,计算公式为:其中  和  分别是实验场景  中成功的子任务数量和总子任务数量, 是评估实验场景的集合。

方法

图片

子任务列表

子任务列表模块将指令分解为一系列子任务,使模型能够逐步完成复杂的导航任务。具体步骤如下:

  • 指令分解:将指令  分解为子任务列表 ,每个子任务  包含四个参数:步骤顺序(ID)、具体描述(D)、开始条件(SC)、结束条件(EC)和当前状态(σ)。

  • 大型语言模型(LLM):使用LLM  实现指令分解,公式为:其中  是LLM的提示,遵循以下三个原则:

    • 颗粒原则:任何子任务都不能进一步分解为更细的子任务。

    • 同义词原则:子任务列表传达的语义必须与原始指令等价,确保不遗漏或添加任何信息。

    • 连接原则:下一个子任务的开始条件必须与上一个子任务的结束条件对齐。

决策制定

决策制定模块使用视觉语言模型(VLM)  来实现,具体步骤如下:

  • 输入与输出:在每个时间步 ,VLM接收当前摄像头视图  和子任务列表 ,并输出最佳低级动作 、状态转换  和推理过程 :其中  是VLM的提示。

  • 状态转换机制:子任务的状态分为三种:待处理(pending)、进行中(doing)和已完成(done)。状态转换遵循以下原则:

    • 待处理 → 进行中:当且仅当上一个子任务已完成,并且VLM认为当前子任务应该开始。

    • 进行中 → 已完成:当且仅当当前子任务处于进行中状态,并且VLM认为当前子任务已完成。

  • 注意力聚焦:在每个时间步 ,VLM只需要关注一个子任务,具体如下:

    • 如果存在一个子任务  的状态为进行中,则VLM关注该子任务。

    • 如果没有子任务的状态为进行中,则VLM关注第一个待处理的子任务 。

实验

实验设置

为了确保实时处理能力,论文选择了轻量级的 GPT-4.1mini 作为指令分解的大型语言模型(LLM)和决策模型的视觉语言模型(VLM),并通过API访问。这种选择是为了确保模型在实际农业机器人上的实时性和高效性。

定性实验

为了帮助读者更好地理解AgriVLN方法,论文通过一个具体的实验场景进行了定性实验。实验中,AgriVLN将指令分解为子任务列表,然后按顺序完成每个子任务,从而实现整个指令的导航任务。具体步骤如下:

  • 指令分解:将复杂的指令分解为多个子任务,每个子任务都有明确的开始和结束条件。

  • 逐步执行:模型依次执行每个子任务,直到完成所有子任务,从而实现从起点到目标位置的导航。

图片

上图展示了定性实验的一个代表性场景,其中AgriVLN成功地将指令分解为子任务,并按顺序完成每个子任务。论文还提供了五个更多的例子,以展示AgriVLN在不同场景下的表现。

比较实验

论文将AgriVLN与多种基线方法和最新方法进行了比较,以验证其性能。具体设置如下:

  • 基线方法

    • Random:随机选择动作。

    • GPT-4.1mini with prompt:仅使用GPT-4.1mini进行决策,不使用子任务列表。

    • Human:人类专家的性能,作为参考标准。

  • 最新方法

    • SIA-VLN(Hong et al. 2020):基于规则的指令分解方法。

    • DILLM-VLN(Wang et al. 2025a):基于LLM的指令分解方法。

结果分析

图片

  • Random:随机方法的性能极差,证明了基准测试的有效性和公平性。

  • Human:人类专家的性能接近完美,证明了基准测试的合理性。

  • GPT-4.1mini with prompt:仅使用GPT-4.1mini进行决策时,成功率(SR)为0.33,导航误差(NE)为2.76。

  • SIA-VLN:在简单指令(子任务数量为2)时表现良好,但在复杂指令(子任务数量≥3)时性能下降。

  • DILLM-VLN:在简单指令时表现良好,但在复杂指令时性能保持稳定,证明了LLM在指令分解中的有效性。

  • AgriVLN:在所有实验场景中,AgriVLN的SR为0.47,NE为2.91,综合性能超过了所有现有方法,尽管与人类表现仍有差距,但已展现出在农业领域视觉语言导航中的最佳性能。

消融实验

不同视觉语言模型的影响

图片

论文测试了三种轻量级VLM:Gemini-1.5 flashLlama-4 maverick 和 GPT-4.1mini。结果表明,GPT-4.1mini在成功率(SR)和导航误差(NE)上均优于其他两种VLM,因此被选为AgriVLN的VLM。

子任务列表模块的影响

图片

论文通过消融实验验证了子任务列表(STL)模块的重要性。实验结果表明,当子任务数量增加时,STL模块对性能的提升作用愈发明显。

不同场景分类下的性能

图片

论文还统计了AgriVLN在A2A不同场景分类下的性能,发现尽管不同场景的指令平均长度相对一致,但AgriVLN在不同场景下的表现存在显著差异。这可能是由于场景分类之间的细微差异(如背景杂乱、障碍物密度和光照条件)对模型的视觉感知能力提出了不同程度的挑战。

结论与未来工作

  • 结论

    • 该论文提出了A2A基准测试和AgriVLN方法,通过引入子任务列表(STL)模块,有效地提高了农业机器人在视觉语言导航任务中的性能,特别是在处理长指令时。

    • 然而,AgriVLN仍然存在一些不足之处,如对模糊指令的理解不准确和对空间距离的识别不准确。

  • 未来工作

    • 未来的工作将致力于改进这些缺点,并进一步探索在实际农业场景中部署该方法,以提高农业机器人的自主性和适应性。

http://www.xdnf.cn/news/1349479.html

相关文章:

  • PostgreSQL15——查询详解
  • Python 十进制转二进制
  • 【每天一个知识点】AIOps 与自动化管理
  • 使用隧道(Tunnel)连接PostgreSQL数据库(解决防火墙问题)(含Java实现代码)
  • AI实验管理神器:WandB全功能解析
  • 【文献阅读】Advances and Challenges in Large Model Compression: A Survey
  • `strncasecmp` 字符串比较函数
  • Unreal Engine IWYU Include What You Use
  • Vue 插槽(Slots)全解析2
  • ubuntu - 终端工具 KConsole安装
  • AI + 教育:个性化学习如何落地?教师角色转变与技术伦理的双重考验
  • SymPy 中抽象函数的推导与具体函数代入
  • Spring Ai 1.0.1中存在的问题:使用MessageChatMemoryAdvisor导致System未被正确的放在首位
  • c++最新进展
  • fdisk工具源码编译生成
  • DAY14-新世纪DL(DeepLearning/深度学习)战士:破(优化算法)2
  • 多线程下为什么用ConcurrentHashMap而不是HashMap
  • 【Android】 连接wifi时,强制应用使用流量
  • 【从零开始java学习|第九篇】方法的相关知识与练习
  • 【微服务的数据一致性分发问题】究极解决方案
  • 日志的配置
  • 一键部署openGauss6.0.2轻量版单节点
  • Spring原理
  • 最近 | 黄淮教务 | 小工具合集
  • 世界模型一种能够对现实世界环境进行仿真,并基于文本、图像、视频和运动等输入数据来生成视频、预测未来状态的生成式 AI 模型
  • Maxscript如何清理3dMax场景?
  • 打工人日报20250822
  • More Effective C++ 条款01:仔细区别 pointers 和 references
  • Java设计模式-外观模式
  • 滑动窗口+子串+普通数组算法