Transformer 在遥感图像变化检测中的应用：多级特征学习的新方法

最近，Transformer 已经应用于许多计算机视觉任务，例如图像分类' [9, 29]'、目标检测' [4]'、语义分割' [44]'、人物再识别' [27, 51]' 等。受此启发，Zhang 等人' [50]' 将 Swin Transformer' [29]' 与 U-Net 结构' [35]' 相结合，用于遥感图像的变化检测。Zheng 等人' [56]' 设计了一个深度多任务编码-Transformer-解码器 (METD) 架构用于语义变化检测。Wang 等人' [45]' 将 Siamese Vision Transformer (SViT) 与特征差异框架相结合，用于变化检测。Wang 等人' [43]' 提出了将 Transformer 和 CNN 相结合的方法，用于遥感图像的变化检测。Li 等人' [24]' 提出了一个编码-解码混合框架，结合了 Transformer 和 U-Net 的优点，用于变化检测。Bandara 等人' [3]' 将分层结构的 Transformer 编码器与多层感知机 (MLP) 解码器统一在一个 Siamese 网络中，以高效地呈现多尺度的长距离细节，用于准确的变化检测。Chen 等人' [5]' 提出了一种双时序图像 Transformer (BIT)，用于高效有效地建模时空域内的上下文，用于变化检测。Ke 等人' [20]' 提出了一种具有令牌聚合的混合 Transformer，用于遥感图像的变化检测。Song 等人' [39]' 将多尺度的 Swin Transformer 和深度监督网络相结合，用于变化检测。

所有这些方法表明，Transformer 可以对补丁间的关系进行建模，得到强大的特征表示。然而，这些方法没有充分发挥 Transformer 在多级特征学习方面的能力。与现有的基于 Transformer 的变化检测方法不同，我们提出的方法从全局视角改进了特征提取，并以金字塔方式结合了多级视觉特征。