SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model
摘要
遥感技术已成为理解环境动态、城市规划和灾害管理的关键。然而,传统的遥感工作流程通常依赖显式分割或检测方法,这些方法难以处理需要对空间上下文、领域知识和隐含用户意图进行推理的复杂隐式查询。受此启发,我们提出了一项新任务——地理空间像素推理,该任务允许隐式查询和推理,并生成目标区域的掩码。为推进这一任务,我们构建并发布了首个大规模基准数据集——EarthReason,其中包含5,434个手动标注的图像掩码以及超过30,000个隐式问答对。此外,我们提出了一种简单但有效的语言引导分割基线——SegEarth-R1,该方法集成了分层视觉编码器、大型语言模型(LLM)用于指令解析,以及一个专门为空间相关性设计的掩码生成器。SegEarth-R1设计中结合了领域特定的改进,包括积极的视觉标记压缩以处理超高分辨率遥感图像、描述投射模块以融合语言和多尺度特征,以及简化的掩码预测管道直接查询描述嵌入。大量实验表明,SegEarth-R1在推理和参考分割任务上均实现了最先进的性能,显著优于传统和基于LLM的分割方法。我们的数据和代码将发布在:https://github.com/earth-insights/SegEarth-R1。
图1:语义分割、指代分割和地理空间像素推理的比较。(左)来自LoveDA [67]和RRSIS-D [40]数据集的示例。(右)来自EarthReason数据集的示例。之前的任务受到固定分类体系和显式指令的限制,而地理空间像素推理支持复杂的隐式指令,并要求模型具备推理能力。
1 引言
通过遥感进行地球观测已成为现代地理空间分析的基石,能够以前所未有的深度洞察环境动态、城市规划和灾害管理 [56, 45]。卫星和航空影像为监测从森林砍伐模式到海岸侵蚀等行星尺度的现象提供了独特的视角。然而,将这些原始像素数据转换为可操作的洞见不仅需要传统的计算机视觉技术,还需要能够推测空间语境、领域知识和隐含用户意图的模型。传统的遥感工作流程主要依赖于显式任务,例如语义分割和指向分割 [44, 8, 85],这些任务在固定分类法中操作,并需要精确的用户指令。虽然这些方法在明确场景中效果显著,但在处理复杂的隐含查询方面则显得力不从心。例如,根据坡度、植被覆盖和基础设施的接近程度识别山体滑坡高风险区域。这类任务要求对异构空间模式、对象关系以及环境元数据进行隐含推理,超出了标准分割或检测管线的能力范围。
受到这一问题的启发,我们提出了一个新任务,即地理空间像素推理,允许隐含查询和推理,并生成目标区域的掩膜。为了支持这一任务的研究,我们构建并发布了首个大规模基准数据集,称为EarthReason,该数据集包含来自多种分类来源的5,434对手动标注的遥感图像与掩码配对,涵盖28种场景类别,空间分辨率范围从0.5米到153米不等。每张图像都与多个隐性推理问题配对,这些问题要求模型基于背景和领域特定知识推导目标掩码,而非依据显性物体名称。此外,通过加入空目标情况和不同的空间尺度,EarthReason促进模型在复杂的实际遥感场景中进行泛化。 近年来,多模态大语言模型(MLLMs)在自然图像领域中表现出了令人印象深刻的性能,像LISA [26] 和 PixelLM [55]这样的模型利用大语言模型(LLMs) [62, 7, 79] 来解释丰富的文本提示并生成像素级输出。这些框架在诸如推理分割 [26] 等任务中表现出色,此类任务的目标掩码不是直接指定的,而是需要从细微的语言提示中推断出。然而,将这些方法直接转移到地理空间像素推理任务并不简单,因为遥感图像呈现出极端的尺度变化、高密度小物体分布以及超高分辨率,这些特性违背了自然图像的假设。此外,与自然图像不同,遥感查询通常需要空间相关性。例如,识别“非正式定居点”需要检测屋顶材料的不规则性、道路网络的碎片化以及与合法土地使用区域的空间邻接性。 为了解决这些挑战,我们提出了SegEarth-R1,这是一个简单但有效的语言引导分割模型,它集成了分层视觉编码器、用于指令解析的大语言模型(LLM)和为空间相关性设计的定制掩码生成器。此外,