单人姿态估计的深度学习方法：网络设计与多尺度融合

传统的单人姿势估计解决方案通常采用概率图模型或图片结构模型[76，49]，最近通过利用深度学习来更好地建模一元和二元能量[9，63，44]或模仿迭代推理过程[13]得到改进。现在，深度卷积神经网络提供了主导解决方案[20，34，60，41，42，47，56，16]。有两种主流方法：回归关键点位置[64，7]和估计关键点热图[13，14，75]，然后选择具有最高热值的位置作为关键点。

大多数关键点热图估计的卷积神经网络包括一个类似于分类网络的干扰子网络，它降低分辨率，一个主体产生与其输入相同分辨率的表示，接着是一个回归器，估计关键点位置并将其转换为完整分辨率的热图。主体主要采用高到低和低到高的框架，可能还包括多尺度融合和中间（深度）监督。

高到低和低到高。高到低过程旨在生成低分辨率和高级别的表示，低到高过程旨在产生高分辨率表示[4，11，22，70，39，60]。这两个过程都可能重复几次以提高性能[74，39，14]。

代表性的网络设计模式包括：（i）对称的高到低和低到高过程。Hourglass及其后续[39，14，74，30]将低到高过程设计为高到低过程的镜像。（ii）重的高到低和轻的低到高。高到低过程基于ImageNet分类网络，例如[11，70]中采用的ResNet，低到高过程只是几个双线性上采样[11]或转置卷积[70]层。（iii）与扩张卷积的组合。在[26，50，34]中，扩张卷积被采用在ResNet或VGGNet的最后两个阶段中，以消除空间分辨率损失，随后是一个轻量级的低到高过程，以进一步增加分辨率，避免只使用扩张卷积的昂贵计算成本[11，26，50]。图2描绘了四个代表性的姿势估计网络。

多尺度融合。直接的方法是将多分辨率图像分别馈送到多个网络中，并聚合输出响应映射[62]。Hourglass[39]及其扩展[74，30]通过跳过连接逐步将高到低过程中的低级别特征合并到低到高过程中的同分辨率高级别特征中。在级联金字塔网络[11]中，globalnet将高到低级别特征逐步合并到低到高过程中的低到高级别特征中，然后refinenet将通过卷积处理的低到高级别特征组合起来。我们的方法重复了部分受深度融合及其扩展[65，71，57，77，79]启发的多尺度融合。

中间监督。中间监督或深度监督，早期开发用于图像分类[33，59]，也被用于帮助深度网络训练和提高热图估计质量，例如[67，39，62，3，11]。Hourglass方法[39]和卷积姿势机方法[67]将中间热图处理为剩余子网络的输入或一部分输入。

我们的方法。我们的网络并行连接高到低子网络。它通过整个过程保持高分辨率表示，以进行空间精确的热图估计。它通过重复融合高到低子网络产生可靠的高分辨率表示。我们的方法与大多数现有作品不同，它不需要单独的低到高上采样过程并聚合低级别和高级别表示。我们的方法，不使用中间热图监督，在关键点检测精度上优于其他方法，并且在计算复杂度和参数方面效率高。

有相关的多尺度分类和分割网络[5，8，72，78，29，73，53，54，23，80，53，51，18]。我们的工作部分受到其中一些的启发[54，23，80，53]，并且存在明显的差异，使它们不适用于我们的问题。卷积神经网络[54]和相互链接的CNN[80]由于每个子网络的设计不当（深度，批量归一化）和多尺度融合而无法产生高质量的分割结果。网格网络[18]是许多权重共享U-Net的组合，由两个独立的跨多分辨率表示的融合过程组成：在第一阶段，信息仅从高分辨率发送到低分辨率；在第二阶段，信息仅从低分辨率发送到高分辨率，因此竞争力较小。多尺度DenseNets[23]不针对并且无法生成可靠的高分辨率表示。