SuperYOLO: 基于像素级融合的实时多模态遥感目标检测

近年来，多模态数据在众多实际应用场景中得到广泛应用，例如视觉问答、自动驾驶、显著性检测以及遥感分类等。研究表明，融合多模态数据的内部信息可以有效传递互补特征，避免单一模态信息遗漏。

在遥感图像处理领域，来自不同传感器（如红绿蓝 (RGB)、合成孔径雷达 (SAR)、光探测和测距 (LiDAR)、红外 (IR)、全色 (PAN) 和多光谱 (MS) 图像）的多种模态数据，可以通过融合其互补特征来提升各种任务的性能。例如，红外 (IR) 模态可以捕捉更长的热波长，从而改善恶劣天气条件下的检测效果。Manish 等人提出了一种用于多模态遥感图像目标检测的实时框架，该框架的扩展版本进行了中级融合，并合并了来自多个模态的数据。

尽管多传感器融合可以提升检测性能（如图1所示），但其较低的检测精度和有待提高的计算速度难以满足实时检测任务的需求。

现有的融合方法主要分为三类：像素级融合、特征级融合和决策级融合。决策级融合在最后阶段才融合检测结果，由于需要对不同的多模态分支进行重复计算，因此可能会消耗大量的计算资源。在遥感领域，特征级融合方法主要与多个分支结合使用。多模态图像被输入到并行分支中，以提取不同模态各自独立的特征，然后通过一些操作（如注意力模块或简单拼接）将这些特征组合起来。然而，随着模态数量的增加，并行分支会导致重复计算，这对于遥感领域的实时任务而言并不友好。

相比之下，采用像素级融合方法可以减少不必要的计算。在本文中，我们提出的 SuperYOLO 在像素级别融合模态数据，显著降低了计算成本，并设计了在空间和通道域中提取不同模态内部信息的操作，从而提高了检测精度。

关键词： 多模态目标检测，遥感，像素级融合，SuperYOLO，实时检测