利用RGB-D数据进行RGB图像识别：一种幻觉特征学习方法

1. 引言

RGB图像和深度图像提供了不同且互补的信息。研究表明，同时使用这两种模态可以提高识别模型的性能 [15, 36, 35]。然而，深度捕捉设备不如RGB图像捕捉设备普及。这意味着许多识别模型需要在仅有RGB图像作为输入时表现良好。

本文提出一种利用可用的配对RGB-D训练数据，从RGB图像中学习产生中层卷积特征的算法。通过该算法，我们构建了一个仅使用RGB图像输入的卷积网络模型，其性能优于仅在RGB图像上训练的标准网络。该方法将从深度训练数据中提取的信息迁移到可以从RGB对应物中提取信息的网络。

卷积神经网络(ConvNets)在视觉识别任务（分类 [21, 28, 31], 目标检测 [11, 25], 语义分割 [24, 39]）中取得了巨大成功。训练这些网络的标准方法是使用大型标记图像语料库（例如ImageNet [6]）初始化网络参数，然后使用较小的目标标记数据源进行微调。尽管这种策略有效，但它仅提供了一种学习用于识别的表示的技术，并且由于网络的大参数空间，存在过度拟合小RGB数据集的风险。

本文提出了一种额外的表示学习算法，它在训练时将深度图像作为辅助信息，以产生更强大的测试时单模态模型。我们通过直接学习一种模态幻觉网络来实现这一目标，该网络在标准的类别和边界框定位损失上进行优化，同时在辅助幻觉损失的指导下回归幻觉特征到深度图像特征。

为了实用性，我们考虑在训练时使用一些配对的RGB-D数据来产生一个RGB目标检测器。通过这样做，我们产生了一个最终模型，在测试时只看到一个RGB图像，但能够提取通过标准监督损失微调学习的图像特征以及训练成与深度图像存在时提取的特征相似的幻觉特征。我们证明，我们的RGB与幻觉检测器模型在NYUD2数据集上的性能优于最先进的RGB模型。