OBJECT detection plays an important role in vari-ous fields involving computer-aided diagnosis or au-tonomous piloting Over the past decades numerous excellentdeep neural network DNN based object dete

目标检测在计算机辅助诊断或自主驾驶等各个领域发挥着重要作用。在过去的几十年中，计算机视觉领域提出了许多优秀的基于深度神经网络（DNN）的目标检测框架，并进行了更新和优化。DNN目标检测框架的显著精度提升归功于应用了具有准确标注的大规模自然数据集。

与自然场景相比，在遥感图像中进行准确的目标检测面临着几个重要挑战。首先，标记样本的数量相对较少，这限制了DNN训练实现高检测准确度的能力。其次，RSI中的物体尺寸要小得多，与复杂而广泛的背景相比只占据了几十个像素的面积。此外，这些物体的尺度多样，有多个类别。如图1（a）所示，车辆在广阔区域中相对较小。如图1（b）所示，物体具有大尺度变化，其中汽车的尺寸小于露营车的尺寸。

目前，大多数目标检测技术仅针对单一模态（如RGB和红外）进行设计和应用。因此，就目标检测而言，由于不同模态之间互补信息的缺乏，其识别地表物体的能力仍然不足。随着成像技术的发展，多模态的RSI变得可用，并提供了提高检测准确度的机会。例如，如图1所示，两种不同多模态（RGB和红外）的融合可以有效提高RSI中的检测准确度。有时，一种模态的分辨率较低，需要技术提高分辨率以增强信息。最近，超分辨率技术在遥感领域展示了巨大潜力。由于卷积神经网络（CNN）的快速发展，遥感图像的分辨率已经实现了高纹理信息的解释。然而，由于CNN网络的高计算成本，SR网络在实时实际任务中的应用已成为当前研究的热点。

本研究的动机是提出一个用于多模态RSI的机载实时目标检测框架，以实现高检测准确度和高推理速度，同时不引入额外的计算开销。受到实时紧凑神经网络模型的最新进展的启发，我们选择小型的YOLOv5s结构作为我们的检测基线。它可以降低部署成本并促进模型的快速部署。考虑到对小物体的高分辨率保留要求，我们在基线YOLOv5s模型中去除了Focus模块，这不仅有利于定义小密集物体的位置，还增强了检测性能。考虑到不同模态之间的互补特性，我们提出了一种多模态融合（MF）方案，以提高RSI的检测性能。我们评估了不同的融合方法（像素级或特征级），并选择了低计算成本的像素级融合。

最后，我们开发了一个超分辨率（SR）保证模块，引导网络生成具有HR特征的高质量结果，能够从LR输入中区分出广阔背景中的小物体，从而减少由背景污染的物体引起的误报。然而，简单的SR解决方案会显著增加计算成本。因此，我们在训练过程中设置了辅助SR分支，并在推理阶段将其移除，以在不增加计算成本的情况下实现HR中的空间信息提取。

总之，本文的主要贡献如下：

我们提出了一种计算友好的像素级融合方法，以对称且紧凑的方式双向组合内部信息。与特征级融合相比，它有效降低了计算成本而不损失准确性。
我们首次在多模态目标检测中引入了辅助SR分支。我们的方法不仅在有限的检测性能上取得突破，还为研究出色的HR特征表示提供了更灵活的途径，能够从LR输入中区分出广阔背景中的小物体。
考虑到高质量结果和低计算成本的需求，SR模块作为辅助任务在推理阶段被移除，而不引入额外的计算。SR分支是通用且可扩展的，可以插入现有的全卷积网络（FCN）框架中。
所提出的SuperYOLO在目标检测性能方面显著提高，优于现有技术中的实时多模态目标检测器。我们提出的模型在准确性和速度之间展现了有利的权衡。

OBJECT detection plays an important role in vari-ous fields involving computer-aided diagnosis or au-tonomous piloting Over the past decades numerous excellentdeep neural network DNN based object dete