基于高分辨率网络的人体姿态估计

4. 实验

4.1. COCO关键点检测

数据集: COCO数据集[35]包含超过200,000张图片和250,000个人体实例，并标注了17个关键点。我们使用COCO train2017数据集训练模型，该数据集包含57,000张图片和150,000个人体实例。我们在val2017和test-dev2017数据集上评估方法，分别包含5,000和20,000张图片。

评估指标: 标准评估指标基于目标关键点相似度（OKS）:

$OKS = \frac{\sum_{i} exp(-d_i^2 / 2s^2 k_i^2) \delta(v_i>0)}{\sum_{i} \delta(v_i>0)}$。

其中$d_i$表示检测到的关键点与对应真值之间的欧氏距离，$v_i$是真值的可见性标志，$s$是目标尺度，$k_i$是控制衰减的每个关键点常数。我们报告了标准的平均精度和召回率分数: AP50 (OKS = 0.50时的AP), AP75, AP (OKS = 0.50, 0.55, ..., 0.90, 0.95的10个位置的AP分数的平均值); APM (中等目标的AP), APL (大目标的AP)以及AR (OKS = 0.50, 0.55, ..., 0.90, 0.95时的AR)。

训练: 我们将人体检测框的高度或宽度扩展到固定的纵横比：高度:宽度 = 4:3，然后从图像中裁剪该框，并将其调整为固定大小：256 × 192或384 × 288。数据增强包括随机旋转([-45°, 45°])、随机缩放([0.65, 1.35])和翻转。根据[66]，还涉及半身数据增强。

我们使用Adam优化器[31]。学习率计划遵循设置[70]。基础学习率设置为1e-3，并在第170个和200个epoch时分别降至1e-4和1e-5。训练过程在210个epoch内终止。

测试: 我们采用与[46, 11, 70]类似的两阶段自顶向下范式：使用人体检测器检测人体实例，然后预测检测关键点。

我们对验证集和test-dev集使用Simple Baseline2提供的相同人体检测器。根据[70, 39, 11]，我们通过对原始图像和翻转图像的热图进行平均来计算热图。通过将最高热值位置沿从最高响应到第二高响应的方向调整四分之一偏移量来预测每个关键点位置。

验证集结果: 表1报告了我们的方法和其他最先进方法的结果。我们的小网络HRNet-W32从零开始训练，输入大小为256 × 192，获得了73.4 AP的成绩，优于其他使用相同输入大小的方法。(i) 与Hourglass[39]相比，我们的小网络将AP提高了6.5个百分点，并且我们网络的GFLOPs要低得多，不到一半，而参数数量相似，我们的略大。(ii) 与CPN[11]（不带和带有OHKM）相比，我们的网络模型规模略大，复杂度略高，分别获得了4.8和4.0个百分点的提升。(iii) 与之前性能最佳的SimpleBaseline[70]相比，我们的HRNet-W32获得了显著提升：对于模型规模和GFLOPs相似的骨干网络ResNet-50，提升了3.0个百分点；对于模型规模（参数数量）和GFLOPs是我们两倍的骨干网络ResNet-152，提升了1.4个百分点。

我们的网络可以从以下方面受益：(i) 使用在ImageNet上预训练的模型进行训练：对于HRNet-W32，提升了1.0个百分点；(ii) 通过增加宽度来增加容量：对于输入大小为256 × 192和384 × 288，HRNet-W48分别获得了0.7和0.5个百分点的提升。

考虑到输入大小为384 × 288，我们的HRNet-W32和HRNet-W48分别获得了75.8和76.3 AP，与输入大小为256 × 192相比，分别提升了1.4和1.2个百分点。与使用ResNet-152作为骨干网络的SimpleBaseline[70]相比，我们的HRNet-W32和HRNet-W48在45%和92.4%的计算成本下分别获得了1.5和2.0个百分点的AP提升。

test-dev集结果: 表2报告了我们的方法和现有最先进方法的姿态估计性能。我们的方法明显优于自底向上的方法。另一方面，我们的小网络HRNet-W32实现了74.9的AP。它优于所有其他自顶向下的方法，并且在模型规模（参数数量）和计算复杂度（GFLOPs）方面更高效。我们的大模型HRNet-W48实现了最高的75.5 AP。与使用相同输入大小的SimpleBaseline[70]相比，我们的小网络和大网络分别提升了1.2和1.8个百分点。通过使用来自AI Challenger[68]的额外数据进行训练，我们的单个大网络可以获得77.0的AP。

4.2. MPII人体姿态估计

数据集: MPII人体姿态数据集[2]包含从各种现实世界活动中拍摄的图像，并带有全身姿态注释。大约有25,000张图像，其中包含40,000个主题，其中12,000个主题用于测试，其余主题用于训练集。数据增强和训练策略与MS COCO相同，只是输入大小裁剪为256 × 256，以便与其他方法进行公平比较。

测试: 测试过程与COCO中的几乎相同，只是我们采用标准测试策略来使用提供的人体边界框，而不是检测到的人体边界框。根据[14, 74, 60]，执行了六尺度金字塔测试程序。

评估指标: 使用标准指标[2]，即PCKh（头部归一化正确关键点概率）分数。如果关节位于真值位置的$αl$像素内，则该关节是正确的，其中$α$是一个常数，$l$是头部大小，对应于边界框对角线长度的60%。我们报告了两种精度：PCKh@0.5和PCKh@0.2。

结果: 我们在MPII数据集上评估了我们的模型，并将其与其他最先进的方法进行了比较。我们的HRNet-W32模型在PCKh@0.5和PCKh@0.2方面均取得了最佳结果，分别为96.1和98.5。与其他方法相比，我们的模型在PCKh@0.5方面优于最先进的方法，而在PCKh@0.2方面则与最先进的方法相当。我们的HRNet-W48模型在PCKh@0.5和PCKh@0.2方面的结果分别为96.4和98.7，优于其他最先进的方法。这表明我们的模型在MPII数据集上取得了最佳结果