深度信息增强RGB模型：迁移学习与网络蒸馏的应用

深度和RGB模态经常提供互补信息。许多研究通过引入新的深度表示或将深度网络表示集成到卷积网络架构中，利用了这一事实来提升RGB模型的检测性能。我们的工作受到了这些研究的启发，并进一步探索了在训练时学习深度表示，并通过模态幻觉将信息传递到仅使用RGB的模型中。

相关工作

1. RGB-D检测

先前的工作通过使用配对的RGB和深度模态作为输入，来改进RGB模型的检测性能。许多方法通过引入新的深度表示[19, 29, 32, 38, 36]，或将深度网络表示集成到卷积网络架构中[15, 14, 35]，来实现这一目标。

2. 迁移学习

我们的工作与迁移学习和领域自适应有关。经典方法通过参数更新[2, 7, 18]和转换学习[22, 12]的组合，来适应不同分布。Christoudias等人[5]在训练时学习了映射以幻觉丢失的模态，但只使用了弱识别模型。最近，一种转换学习方法被引入，通过学习模态之间的公共特征表示，来在训练时使用深度信息来指导RGB测试时检测[4]。

3. 使用侧面信息进行学习

我们的问题也可以从使用侧面信息进行学习的角度来看待。这是当学习算法在训练时具有额外的知识，例如元数据或在我们的情况下是额外的模态。然后，我们使用这些额外的信息来指导训练比否则可以产生的更强大的模型。该理论框架在[34]中进行了探索，并且在形式上使用边界框、图像标签和属性的附加信息进行学习的最大边界框框架在[26]中进行了研究。Shrivastava和Gupta [27]则展示了在DPM框架内如何在训练时使用表面法线可以提高检测性能。

4. 通过蒸馏进行网络转移

与我们的工作最相关的是网络蒸馏及其扩展的概念。Hinton等人[17]和Ba等人[3]同时引入了模型压缩和从一个卷积网络到另一个卷积网络的快速信息传递的概念。实质上，一个网络的输出被用作新网络的目标概率分布。这被证明可以减少新网络的训练时间，并在某些情况下减少所需的参数数量以达到相同的性能。该方法还被应用于跨域传递任务相关性[33]。Wang等人[37]通过在视频帧之间使用排序损失来在网络之间传递信息，而不使用标签，从而学习了一种将来自同一轨道的补丁映射到一起，而将来自不同轨道的补丁映射到一起的深度表示。

我们的方法

我们的方法可以看作是使用蒸馏来通过从配对的深度图像中传递监督来学习RGB图像的表示，但我们使用联合训练而不是用于监督传递的分阶段训练，如[16]中所使用的。与[16]不同，我们的重点不同，我们研究的是使用深度作为侧面信息来丰富RGB表示的问题。我们展示了这种方式使用深度作为侧面信息来学习表示，当与在ImageNet上学习的表示一起使用时，可以提高识别任务（如目标检测）的性能。

总结

本文介绍了一种利用深度信息来增强RGB模型性能的方法，通过在训练时使用深度信息，并通过模态幻觉将信息传递到RGB模型，实现了更好的识别效果。该方法结合了迁移学习和网络蒸馏的概念，并与相关研究进行了比较和分析。我们的研究表明，这种方法能够有效地利用深度信息来提高RGB模型的性能，并为未来的研究提供了新的方向。