基于HRNet的姿态估计方法：实现高效且准确的关键点检测

数据增强包括旋转（范围为'0.65, 1.35'）和翻转。我们采用Adam优化器[31]，并按照[70]的设置进行学习计划。基础学习率设置为1e-3，在第170个和第200个epoch时分别降至1e-4和1e-5。训练过程在210个epoch内结束。

测试阶段采用类似于[46, 11, 70]的两阶段自上而下的方法：使用人体检测器检测人体实例，然后预测检测关键点。我们使用SimpleBaseline2提供的相同人体检测器对验证集和测试集进行检测。按照[70, 39, 11]的方法，通过对原始和翻转图像的热力图取平均值来计算热力图。每个关键点位置通过将最高热值位置向从最高响应到次高响应的方向调整一个四分之一的偏移量来预测。

在验证集上的结果：我们在表1中报告了我们的方法和其他最先进方法的结果。我们的小网络-HRNet-W32，使用输入尺寸256×192从头开始训练，达到了73.4的AP得分，优于使用相同输入尺寸的其他方法。（i）与Hourglass [39]相比，我们的小网络AP提高了6.5个点，我们的网络的GFLOPs要低得多，不到一半，而参数数量相似，我们的稍大一些。（ii）与CPN [11] w/o和w/ OHKM相比，我们的网络，稍大一些，稍微复杂一些，分别获得了4.8和4.0个点的提高。（iii）与先前表现最佳的SimpleBaseline [70]相比，我们的HRNet-W32获得了显著的改进：对于使用相似的模型大小和GFLOPs的骨干ResNet-50，AP提高了3.0个点，对于骨干ResNet-152，其模型大小（＃Params）和GFLOPs是我们的两倍，AP提高了1.4个点。

我们的网络可以受益于（i）使用在ImageNet上预训练的模型进行训练：HRNet-W32的提高为1.0个点；（ii）通过增加宽度来增加容量：HRNet-W48在输入尺寸为256×192和384×288时分别获得0.7和0.5个点的提高。

考虑输入尺寸为384×288，我们的HRNet-W32和HRNet-W48分别获得了75.8和76.3的AP，相对于输入尺寸为256×192，分别提高了1.4和1.2个点。与使用ResNet-152作为骨干的SimpleBaseline [70]相比，我们的HRNet-W32和HRNet-W48在45％和92.4％计算成本下分别获得1.5和2.0个点的提高。

在测试集上的结果：表2报告了我们的方法和现有最先进方法的姿势估计性能。我们的方法比自下而上的方法显着更好。另一方面，我们的小网络HRNet-W32达到74.9的AP，优于所有其他自上而下的方法，并且在模型大小（＃Params）和计算复杂度（GFLOPs）方面更有效。我们的大型模型HRNet-W48达到了最高的75.5 AP。与使用相同输入尺寸的SimpleBaseline [70]相比，我们的小型和大型网络分别获得了1.2和1.8个提高。通过使用AI Challenger [68]的额外数据进行训练，我们的单个大型网络可以获得77.0的AP。