当前位置：首页 > ds >正文

【论文解读】----Question Answering and Grounding for Remote Sensing Change Detection

ds 2025/7/6 21:07:13

论文题目：Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection

paper：https://arxiv.org/pdf/2410.23828v1

code：https://github.com/like413/VisTA

论文概述：

遥感变化检测旨在从不同时期的遥感数据中感知地球表面的变化，并将这些变化反馈给人类。

然而，大多数现有方法仅关注检测变化区域，缺乏与用户交互以识别用户期望的变化的能力。

本文引入了一个名为“变化检测问答与定位（CDQAG）”的新任务，Change Detection Question Answering and Grounding (CDQAG),

该任务通过提供可解释的文本答案和直观的视觉证据，扩展了传统变化检测任务的范围。

为此，我们构建了第一个CDQAG基准数据集，称为QAG-360K，包含超过36万个问题、文本答案和对应的高质量视觉掩码三元组。

该数据集涵盖了10个基本的土地覆盖类别和8种全面的问题类型，为遥感应用提供了一个大规模且多样化的数据集。

基于此，我们提出了VisTA，这是一个简单而有效的基线方法，通过同时提供视觉和文本答案，统一了问答和定位任务。

我们的方法在经典CDVQA和提出的CDQAG数据集上均取得了最先进的结果。

数据集

CDQAG任务的输入包含在同一位置但在不同时间捕获的一对遥感图像T1和T2，以及问题Q。输出是文本答案a和相应的视觉分割S。

图像数据：

我们从现有的二进制和语义变化检测数据集中收集了一组高质量的遥感图像，包括Hi-UCD[29]、SECOND[37]和LEVIR-CD[2]。这些数据覆盖了爱沙尼亚、中国和美国城市的24个不同地区，空间分辨率从0.1米到3.0米不等，提供了不同的地理场景。

作为QAG-360K的一部分，我们从这些数据集中过滤了6810对遥感图像，包括10个土地覆盖类别，所有这些类别都配备了语义掩码。此外，我们开发了一个专门的三元组生成引擎（见附录），可以自动生成与更改相关的问题、文本答案和相应的视觉掩码。

问题的提出：

我们将与变化相关的问题扩展为8C问题，覆盖了关键的变化检测类型：

是否发生了变化？变化为什么？从什么变化而来？是否增加？是否减少？最大变化是什么？最小变化是什么？变化比例是多少？

change or not? change to what? change from what? increase or not? decrease or not? largest change? smallest change? change ratio?

利用大型语言模型（LLM）为每种更改类型生成平均20个问题模板，然后手动选择最合理的5个进行查询。最后的问题平均长度为9.5个单词，长度在4到15个单词之间。每对遥感图像平均包含53个三元组。

答案的生成：

对于8C问题中的每种问题类型，答案生成遵循不同的判断规则。

文中说：每种问题类型的答案生成规则和具体程序详见附录。
但是这个论文好像还没录用，我从arxiv上下载的，没找到附录

方法

在这里插入图片描述
如图所示，整个输入分为两部分，上面是输入两张图像（变化前、变化后），送入一个图像编码器。下面是输入文本（问题），送入一个文本编码器，然后主要就是对文本特征和图像特征进行对齐，对齐之后再分别输出两个结果：文本答案和带掩码的图像结果。

文本编码器：

给定一个问题 ( $\in \mathbb{R}^L$ )，我们使用预训练的 CLIP Transformer 提取文本特征 $F_t \in \mathbb{R}^{L \times C} )$ ，其中 ( L ) 表示问题的长度，( C ) 表示特征通道的数量。输入文本序列被两个特殊标记 [SOS] 和 [EOC] 包围，其中 [EOC] 被激活为句子级表示 $F_s \in \mathbb{R}^C )$ 。

将问题文本输入到 CLIP Transformer 之前，需要先在文本序列的开头添加 [SOS] 标记，在结尾添加 [EOC] 标记。这两个标记的作用是为模型提供明确的序列开始和结束的信号，帮助模型更好地理解和处理文本序列。

添加了 [SOS] 和 [EOC] 标记后的文本序列会被编码为模型可以处理的输入格式，例如将每个词转换为对应的词嵌入向量。

将添加了特殊标记的文本序列输入到预训练的 CLIP Transformer 中，模型会输出每个词对应的特征向量，形成一个形状为

$L \times C$ 的特征矩阵 $F_t$ ，其中 L 是序列长度（包括特殊标记），C 是特征维度。

在这个特征矩阵中，与 [EOC] 标记对应的那一行特征向量被选为句子级表示 $F_s$ 。这个向量可以看作是对整个句子语义的综合表示，因为它包含了序列结束时模型对整个句子的语义理解。

图像编码器：

对于两幅遥感图像 $T_1 \in \mathbb{R}^{H \times W \times 3} )$ 和 $T_2 \in \mathbb{R}^{H \times W \times 3} )$ ，我们使用两个共享权重的 ResNet 提取多尺度视觉特征 $F_{vi}^{1} \in \mathbb{R}^{H_i \times W_i \times C_i} )$ 和 $F_{vi}^{2} \in \mathbb{R}^{H_i \times W_i \times C_i} )$ 。

其中， $\in \{3, 4, 5\} )$ 表示视觉主干的第 $(i)$ 阶段， $H_i = H/2^i )$ 和$( W_i = W/2^i ) $是对应的分辨率，H 和W分别是原始图像的尺寸。

ResNet 也在 CLIP 上进行了预训练，增强了其视觉表示能力。

CLIP 模型由 OpenAI 开发，是一种多模态预训练模型，通过对比学习将图像和文本对齐到同一语义空间。它包含两个主要组件：图像编码器和文本编码器。图像编码器可以是 ResNet 或 Vision Transformer (ViT)，而文本编码器基于 Transformer 架构。CLIP 从头开始训练，不使用 ImageNet 权重初始化图像编码器，也不使用预训练权重初始化文本编码器。CLIP 的训练数据是大规模的图像-文本对，ResNet 图像编码器和 Transformer 文本编码器一起训练，通过对比损失函数优化，使得匹配的图像-文本对在嵌入空间中更接近，不匹配的对则更远。

为了获得多尺度变化特征 $F_{ci} \in \mathbb{R}^{H_i \times W_i \times C_i} )$ ，我们将两个 ResNet 的视觉特征进行拼接，并使用一个1x1卷积层调整通道维度：
$F_c^{i} = \text{Conv}([F_{vi}^{1}, F_{vi}^{2}]),$
其中，$([ , ]) $表示拼接操作。

语言引导的特征聚合：

为了高效地融合文本和与变化相关的视觉特征，我们设计了一个模块来启动跨模态特征融合：
$F_m^{5} = \text{Conv}(F_{c_5}) \cdot \text{Linear}(F_s),$
其中 $F_m^{5} )$ 表示融合后的多模态特征， $(\text{Linear}(\cdot))$ 表示一个多层感知机，用于调整文本特征的维度。然后，我们将 $F_m^{5} )$ 、 $F_m^{4} )$ 和 $F_m^{3} )$ 输入到一个通用的特征金字塔网络（Feature Pyramid Network，FPN），记作 $F_{FPN}(\cdot) )$ ，以提取多尺度的语言引导特征：

$F_{m_5}, F_{m_4}, F_{m_3} = F_{FPN}(F_{m_5}, F_{c_4}, F_{c_3}).$
随后，我们通过一个卷积层聚合这三个多模态特征：

$F_m = \text{Conv}([\text{Conv}(F_{m_5}), F_{m_4}, \text{DeConv}(F_{m_3})]),$
其中， $(\text{DeConv}(\cdot))$ 表示反卷积层。

为了后续的跨模态交互，我们将输出 $F_m \in \mathbb{R}^{H/16 \times W/16 \times C} )$ 展平，以获得初步的视觉特征 $F_v \in \mathbb{R}^{N \times C} )$ ，其中 $\times W/16 )$ 。

多阶段语义推理

为了应对 CDQAG 任务的复杂推理需求，我们提出了一个多阶段推理模块，以促进细粒度的跨模态信息交互。

如图 4 所示，给定像素级视觉特征 $F_v )$ 和词级文本特征 $F_w )$ ，我们构建了一个视觉-语言解码器，以实现密集的跨模态交互，生成一系列经过细化的多模态特征 $F_{vl} \in \mathbb{R}^{N \times C} )$ 。交互过程可以形式化为：
$F_v' = F_v + \text{SA}(F_v)$

$F_{vl}' = \text{CA}(F_v', F_w) \cdot F_v',$

$\text{FFN}(F_{vl}' \cdot F_v') + F_{vl}'$

其中， $(\text{SA}(\cdot))$ 和 $(\text{CA}(\cdot))$ 分别表示多头自注意力层和交叉注意力层， $(\text{FFN}(\cdot))$ 表示前馈网络。

由于某些问题或答案可能缺乏明确的参考，我们引入了一个问题和答案选择器，允许模型动态选择与问题相关或与答案相关的文本表示。而不是直接将这两个特征相加或拼接，我们通过一个软注意力机制自适应地合并多模态特征 $F_{vl} )$ 和文本特征 $F_w )$ ，生成选择特征 $F_s )$ 。这一过程可以表示为：
$\alpha = \frac{e^{F_{vl}}}{e^{F_{vl}} + e^{F_w}}, \quad \beta = 1 - \alpha,$

$F_s = \alpha F_{vl} + \beta F_w.$

然后，我们将 $F_s )$ 作为选择权重，以过滤掉不相关的改变区域，其公式为：

$M_c = \sigma(F_s) \otimes F_{PD}(F_{vl}),$
其中， $(\sigma(\cdot))$ 表示 Sigmoid 函数， $(F_{PD}(\cdot))$ 是一个像素解码器，将 $F_{vl} )$ 转换为粗略掩码 $M_c )$ 。

文本-视觉答案解码器

我们利用已经建立的视觉粗掩码 $M_c )$ 和问题-答案特征 $F_s )$ 进行最终预测。

具体来说，在视觉分支中，粗掩码 $M_c )$ 作为一个密集的视觉提示，与原始视觉特征 $F_v )$ 一起输入到掩码解码器 $F_{MD}(\cdot) )$ 中，以生成更精确的答案定位：
$\tilde{M} = F_{MD}(M_c, F_v).$
掩码解码器由两个连续的双向注意力块组成，旨在建立 $M_c )$ 和 $F_v )$ 之间的像素级映射关系。

对于文本答案，我们应用一个两层的 MLP，后接 $S o f t ma x$ 激活函数，以执行分类预测。

值得注意的是，为了增强视觉和文本答案之间的语义一致性，我们将文本特征分割并重塑为一个权重 $\in \mathbb{R}^{D \times K \times K} )$ 和一个偏置 $\in \mathbb{R}^D )$ ，其中 $(K)$ 是卷积层的核大小。这使得它可以作为二维卷积层的权重和偏置，将视觉特征转换为最终的精确二值掩码 ( M )。其实现过程可以表示为：
$\text{S\&R}(\text{Linear}(F_s)),$