SuperYOLO Super Resolution Assisted ObjectDetection in Multimodal Remote Sensing ImageryAbstract—This is the pre-acceptance version to read the finalversion please go to IEEE TRANSACTION ON GEOSCIENCE

摘要—这是预接受版本，要阅读最终版本，请前往IEEE TRANSACTION ON GEOSCIENCE AND REMOTE SENSING在IEEE Xplore上。准确和及时地检测遥感图像(RSI)中包含数十个像素的多尺度小对象仍然具有挑战性。大多数现有解决方案主要设计复杂的深度神经网络，以学习用于从背景中分离出对象的强特征表示，这往往导致计算负担较重。在本文中，我们提出了一种准确而快速的RSI目标检测方法，名为SuperYOLO，它融合了多模态数据，并利用辅助超分辨率(SR)学习对多尺度对象进行高分辨率(HR)目标检测，同时考虑检测准确性和计算成本。首先，我们利用对称紧凑的多模态融合(MF)从各种数据中提取补充信息，以改善RSI中的小对象检测。此外，我们设计了一个简单灵活的SR分支，用于学习HR特征表示，可以通过低分辨率(LR)输入将小对象与广阔背景区分开来，从而进一步提高检测准确性。此外，为了避免引入额外的计算，SR分支在推理阶段被丢弃，并且由于LR输入，网络模型的计算量减少。实验结果表明，在广泛使用的VEDAI RS数据集上，SuperYOLO在mAP 50方面实现了75.09%的准确率，比YOLOv5l、YOLOv5x和RS设计的YOLOrs等SOTA大型模型高出10%以上。与YOLOv5x相比，SuperYOLO的参数大小和GFLOPs约为其18倍和3.8倍。与最先进的模型相比，我们提出的模型显示出良好的准确性和速度的权衡。代码将在https://github.com/icey-zhang/SuperYOLO上开源。