基于像素级多模态融合的目标检测增强方法

利用更多信息区分目标，可以显著提高目标检测性能。多模态融合作为一种有效途径，能够整合来自不同传感器（如RGB和红外相机）的信息。决策级、特征级和像素级融合是目前主流的三种融合方法，可在网络的不同深度进行部署。考虑到决策级融合需要巨大的计算量，SuperYOLO并未采用该方法。

本文提出一种**像素级多模态融合（MF）**方法，用于提取不同模态的共享信息和特有信息。MF方法能够以对称、紧凑的方式双向融合多模态内部信息。

像素级融合过程：

输入预处理: 首先将输入的RGB图像和红外图像归一化到[0,1]区间。并将输入模态 X_RGB, X_IR ∈ R^(C×H×W) 下采样为 I_RGB, I_IR ∈ R，随后将其送入SE模块，在通道域提取内部信息[42]，生成特征 F_RGB, F_IR。
注意力机制: 定义注意力图以揭示不同模态在空间域的内部关系：

A = σ(f_1(I_RGB) ⊗ f_2(I_IR))

其中，f1和f2分别表示RGB和红外模态的1×1卷积操作，⊗表示逐元素矩阵乘法。
空间信息融合: 通过以下方式生成不同模态间的内部空间信息：

F_RGB' = F_RGB + A ⊗ F_RGB F_IR' = F_IR + A ⊗ F_IR
特征融合: 为了融合内部视图信息和空间纹理信息，将特征与原始输入模态相加，并送入1×1卷积层：

F_RGB'' = f_3(F_RGB' + I_RGB) F_IR'' = f_4(F_IR' + I_IR)

其中，f3和f4表示1×1卷积操作。
最终融合: 最终通过以下方式融合特征：

F_fused = Concat(F_RGB'', F_IR'')

其中，Concat(·)表示沿通道轴的拼接操作。

最终融合的特征 F_fused 将被送入骨干网络以生成多级特征。

下采样操作:

为了实现SR模块（详见第四节C部分）并加快训练速度，我们将输入 X 下采样至原始图像的1/n大小。其中，X表示RGB或红外模态，采样后的图像记为 I ∈ R，并通过以下方式生成:

I = D(X)

其中，D(·)表示使用双线性插值进行n倍下采样操作。

总结:

本文提出的像素级多模态融合方法有效结合了来自不同传感器的信息，能够提取更加丰富的特征表示，从而显著提高目标检测的性能。