当前位置: 首页 > web >正文

SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model

摘要  
遥感技术已成为理解环境动态、城市规划和灾害管理的关键。然而,传统的遥感工作流程通常依赖显式分割或检测方法,这些方法难以处理需要对空间上下文、领域知识和隐含用户意图进行推理的复杂隐式查询。受此启发,我们提出了一项新任务——地理空间像素推理,该任务允许隐式查询和推理,并生成目标区域的掩码。为推进这一任务,我们构建并发布了首个大规模基准数据集——EarthReason,其中包含5,434个手动标注的图像掩码以及超过30,000个隐式问答对。此外,我们提出了一种简单但有效的语言引导分割基线——SegEarth-R1,该方法集成了分层视觉编码器、大型语言模型(LLM)用于指令解析,以及一个专门为空间相关性设计的掩码生成器。SegEarth-R1设计中结合了领域特定的改进,包括积极的视觉标记压缩以处理超高分辨率遥感图像、描述投射模块以融合语言和多尺度特征,以及简化的掩码预测管道直接查询描述嵌入。大量实验表明,SegEarth-R1在推理和参考分割任务上均实现了最先进的性能,显著优于传统和基于LLM的分割方法。我们的数据和代码将发布在:https://github.com/earth-insights/SegEarth-R1。

图1:语义分割、指代分割和地理空间像素推理的比较。(左)来自LoveDA [67]和RRSIS-D [40]数据集的示例。(右)来自EarthReason数据集的示例。之前的任务受到固定分类体系和显式指令的限制,而地理空间像素推理支持复杂的隐式指令,并要求模型具备推理能力。

1 引言  

通过遥感进行地球观测已成为现代地理空间分析的基石,能够以前所未有的深度洞察环境动态、城市规划和灾害管理 [56, 45]。卫星和航空影像为监测从森林砍伐模式到海岸侵蚀等行星尺度的现象提供了独特的视角。然而,将这些原始像素数据转换为可操作的洞见不仅需要传统的计算机视觉技术,还需要能够推测空间语境、领域知识和隐含用户意图的模型。传统的遥感工作流程主要依赖于显式任务,例如语义分割和指向分割 [44, 8, 85],这些任务在固定分类法中操作,并需要精确的用户指令。虽然这些方法在明确场景中效果显著,但在处理复杂的隐含查询方面则显得力不从心。例如,根据坡度、植被覆盖和基础设施的接近程度识别山体滑坡高风险区域。这类任务要求对异构空间模式、对象关系以及环境元数据进行隐含推理,超出了标准分割或检测管线的能力范围。  
受到这一问题的启发,我们提出了一个新任务,即地理空间像素推理,允许隐含查询和推理,并生成目标区域的掩膜。为了支持这一任务的研究,我们构建并发布了首个大规模基准数据集,称为EarthReason,该数据集包含来自多种分类来源的5,434对手动标注的遥感图像与掩码配对,涵盖28种场景类别,空间分辨率范围从0.5米到153米不等。每张图像都与多个隐性推理问题配对,这些问题要求模型基于背景和领域特定知识推导目标掩码,而非依据显性物体名称。此外,通过加入空目标情况和不同的空间尺度,EarthReason促进模型在复杂的实际遥感场景中进行泛化。 近年来,多模态大语言模型(MLLMs)在自然图像领域中表现出了令人印象深刻的性能,像LISA [26] 和 PixelLM [55]这样的模型利用大语言模型(LLMs) [62, 7, 79] 来解释丰富的文本提示并生成像素级输出。这些框架在诸如推理分割 [26] 等任务中表现出色,此类任务的目标掩码不是直接指定的,而是需要从细微的语言提示中推断出。然而,将这些方法直接转移到地理空间像素推理任务并不简单,因为遥感图像呈现出极端的尺度变化、高密度小物体分布以及超高分辨率,这些特性违背了自然图像的假设。此外,与自然图像不同,遥感查询通常需要空间相关性。例如,识别“非正式定居点”需要检测屋顶材料的不规则性、道路网络的碎片化以及与合法土地使用区域的空间邻接性。 为了解决这些挑战,我们提出了SegEarth-R1,这是一个简单但有效的语言引导分割模型,它集成了分层视觉编码器、用于指令解析的大语言模型(LLM)和为空间相关性设计的定制掩码生成器。此外,

http://www.xdnf.cn/news/19044.html

相关文章:

  • 稀土:从“稀有”到“命脉”的科技核心
  • LeetCode算法日记 - Day 23: 外观数列、数青蛙
  • LeetCode - 155. 最小栈
  • 8.28 模拟
  • rust语言(1.88.0)sqlite数据库rusqlite库(0.37.0)学习笔记
  • 蘑兔音乐:帮你把灵感落地
  • 【新版发布】Apache DolphinScheduler 3.3.1 正式上线:更稳、更快、更安全!
  • 【Django + Pure Admin】基于Django+Vue3的前后端分离管理系统框架设计
  • 预处理详解
  • 【Spring Cloud 微服务】5.架构的智慧枢纽:深度剖析 Nacos 注册中心
  • 《Vuejs设计与实现》第 17 章(编译优化)
  • JMeter 5.3 性能测试:文件下载脚本编写与导出文件接收完整指南
  • 数据结构:堆排序 (Heap Sort)
  • spire.doc在word中生成公式
  • 设计模式理解
  • Shader开发(十七)着色器中的纹理采样与渲染
  • 农业物联网:科技赋能现代农业新篇章
  • 数模笔记day01(数据预处理、K-means聚类、遗传算法、概率密度分布)
  • UE5蓝图接口的创建和使用方法
  • 有鹿机器人如何用科技与创新模式破解行业难题
  • linux下的网络编程(2)
  • 智能体协作体系核心逻辑:Prompt、Agent、Function Calling 与 MCP 解析
  • AV1到达开始和约束时间
  • 分治法——二分答案
  • XFile v2 系统架构文档
  • Ansible 核心模块与实操练习
  • 第十三章项目资源管理--13.3 规划资源管理
  • Apifox 8 月更新|新增测试用例、支持自定义请求示例代码、提升导入/导出 OpenAPI/Swagger 数据的兼容性
  • 手写MyBatis第37弹: 深入MyBatis MapperProxy:揭秘SQL命令类型与动态方法调用的完美适配
  • AI赋能前端性能优化:核心技术与实战策略