Recently multimodal data has been widely leveraged innumerous practical application scenarios including visualquestion answering 20 auto-pilot vehicles 21 saliencydetection 22 and remote sensing class

最近，多模态数据已广泛应用于许多实际应用场景，包括视觉问答、自动驾驶汽车、显著性检测和遥感分类。研究发现，结合多模态数据的内部信息可以有效地传递互补特征，避免单一模态的某些信息被省略。

在遥感图像处理领域，存在来自不同传感器的各种模态（如红绿蓝（RGB）、合成孔径雷达（SAR）、光探测和测距（LiDAR）、红外（IR）、全色（PAN）和多光谱（MS）图像），可以融合具有互补特性的模态以提高各种任务的性能。例如，额外的红外（IR）模态可以捕捉更长的热波长，以改善在恶劣天气条件下的检测。Manish等人提出了一种用于多模态遥感成像中目标检测的实时框架，其中扩展版本进行了中级融合，并合并了多个模态的数据。

尽管多传感器融合可以提高检测性能，但其低准确性的检测性能和待改进的计算速度很难满足实时检测任务的要求。

融合方法主要分为三种策略，即像素级融合、特征级融合和决策级融合方法。决策级融合方法在最后阶段融合检测结果，这可能会消耗大量计算资源，因为需要为不同的多模态分支进行重复计算。在遥感领域，主要采用特征级融合方法与多个分支结合。多模态图像将输入到并行分支中，提取不同模态的各自独立特征，然后通过一些操作（如注意力模块或简单拼接）将这些特征进行组合。并行分支会随着模态的增加而带来重复计算，这对于遥感领域的实时任务来说并不友好。

相比之下，采用像素级融合方法可以减少不必要的计算。在本文中，我们提出的SuperYOLO在像素级别融合模态，显著降低计算成本，并设计在空间和通道域中提取不同模态的内部信息的操作，以提高检测准确性。

Recently multimodal data has been widely leveraged innumerous practical application scenarios including visualquestion answering 20 auto-pilot vehicles 21 saliencydetection 22 and remote sensing class