基于高分辨率深度神经网络的人体姿态估计

4. 实验

4.1. COCO 关键点检测

数据集: COCO 数据集 [35] 包含超过 200,000 张图像和 250,000 个标注了 17 个关键点的人体实例。我们在 COCO train2017 数据集上训练我们的模型，该数据集包含 57K 张图像和 150K 个人体实例。我们在 val2017 集合和 test-dev2017 集合上评估我们的方法，这两个集合分别包含 5000 张和 20K 张图像。

评估指标: 标准评估指标基于目标关键点相似度 (OKS):

POKS = ---- exp(−d²ᵢ /2s²k²ᵢ)δ(vᵢ>0) Σ δ(vᵢ>0)

其中 dᵢ 是检测到的关键点与相应地面真实值之间的欧几里德距离，vᵢ 是地面真实值的可见性标志，s 是目标尺度，kᵢ 是控制衰减的每个关键点常数。我们报告了标准平均精度和召回率分数：AP50（OKS = 0.50 时的 AP）、AP75、AP（10 个位置的 AP 分数的平均值，OKS = 0.50, 0.55, ..., 0.90, 0.95）、中等目标的 APM、大目标的 APL 和 OKS = 0.50, 0.55, ..., 0.90, 0.95 时的 AR。

训练: 我们将人体检测框的高度或宽度扩展到固定的纵横比：高度 : 宽度 = 4 : 3，然后从图像中裁剪该框，并将其调整为固定大小 256 × 192 或 384 × 288。数据增强包括随机旋转（[-45°，45°]）、随机缩放（[0.65，1.35]）和翻转。根据 [66]，还涉及半身数据增强。

我们使用 Adam 优化器 [31]。学习计划遵循设置 [70]。基本学习率设置为 1e-3，并在第 170 个和第 200 个时期分别降至 1e-4 和 1e-5。训练过程在 210 个时期内终止。

测试: 使用类似于 [46，11，70] 的两阶段自顶向下范式：使用人体检测器检测人体实例，然后预测检测关键点。

我们在验证集和 test-dev 集上使用 Simple Baseline2 提供的相同人体检测器。遵循 [70, 39, 11]，我们通过对原始图像和翻转图像的热图进行平均来计算热图。通过在从最高响应到第二高响应的方向上以四分之一偏移量调整最高热值位置来预测每个关键点位置。

验证集上的结果: 表 1 报告了我们的方法和其他最先进方法的结果。我们的小型网络 HRNet-W32 从头开始训练，输入大小为 256 × 192，实现了 73.4 AP 分数，优于其他具有相同输入大小的方法。(i) 与 Hourglass [39] 相比，我们的小型网络将 AP 提高了 6.5 个百分点，并且我们网络的 GFLOP 要低得多，不到一半，而参数数量相似，我们的略大。(ii) 与不带和带 OHKM 的 CPN [11] 相比，我们的网络模型尺寸略大，复杂度略高，分别实现了 4.8 和 4.0 个百分点的提升。(iii) 与之前性能最佳的 SimpleBaseline [70] 相比，我们的 HRNet-W32 取得了显著改进：骨干网络 ResNet-50 在模型尺寸和 GFLOP 相似的情况下提高了 3.0 个百分点，骨干网络 ResNet-152 的模型尺寸（#Params）和 GFLOP 是我们模型的两倍，提高了 1.4 个百分点。

我们的网络可以从 (i) 对 ImageNet 上预训练的模型进行训练中受益：HRNet-W32 的增益为 1.0 个百分点；(ii) 通过增加宽度来增加容量：HRNet-W48 对于输入大小 256 × 192 和 384 × 288 分别获得了 0.7 和 0.5 个百分点的增益。

考虑到输入大小为 384 × 288，我们的 HRNet-W32 和 HRNet-W48 分别获得了 75.8 和 76.3 AP，与输入大小为 256 × 192 时相比分别提高了 1.4 和 1.2。与使用 ResNet-152 作为骨干网络的 SimpleBaseline [70] 相比，我们的 HRNet-W32 和 HRNet-W48 在计算成本分别为 45% 和 92.4% 的情况下，AP 分别提高了 1.5 和 2.0 个百分点。

测试开发集上的结果: 表 2 报告了我们的方法和现有最先进方法的姿态估计性能。我们的方法明显优于自底向上方法。另一方面，我们的小型网络 HRNet-W32 实现了 74.9 的 AP。它优于所有其他自顶向下方法，并且在模型大小（#Params）和计算复杂度（GFLOP）方面效率更高。我们的大型模型 HRNet-W48 实现了最高的 75.5 AP。与具有相同输入大小的 SimpleBaseline [70] 相比，我们的小型和大型网络分别获得了 1.2 和 1.8 的改进。通过使用来自 AI Challenger [68] 的额外数据进行训练，我们单个大型网络可以获得 77.0 的 AP。

4.2. MPII 人体姿态估计

数据集: MPII 人体姿态数据集 [2] 包含从各种现实世界活动中拍摄的图像，并带有全身姿态注释。大约有 25K 张图像，包含 40K 个主题，其中 12K 个主题用于测试，其余主题用于训练集。数据增强和训练策略与 MS COCO 相同，只是为了与其他方法进行公平比较，输入大小裁剪为 256 × 256。

测试: 测试过程与 COCO 中的几乎相同，只是我们采用标准测试策略来使用提供的人体框而不是检测到的人体框。根据 [14, 74, 60]，执行六尺度金字塔测试程序。

评估指标: 使用标准指标 [2]，即 PCKh（头部归一化关键点正确概率）分数。如果关节位于地面真实位置的 αl 像素范围内，则该关节是正确的，其中 α 是一个常数，l 是对应于图像对角线长度 60% 的头部大小。我们报告了所有关节和所有主题的平均 PCKh 分数。

结果: 表 3 显示了我们的方法与 MPII 人体姿态数据集上其他最先进方法的比较。我们的 HRNet-W32 实现了 0.930 的平均 PCKh 分数，优于所有其他具有相似模型大小的方法。与之前性能最佳的方法 CPM [14] 相比，我们的方法将平均 PCKh 分数提高了 0.8 个百分点，同时计算成本要低得多。我们的 HRNet-W48 实现了 0.934 的平均 PCKh 分数，这是所有具有相似模型大小的方法中最好的结果。通过使用来自 AI Challenger [68] 的额外数据进行训练，我们单个大型网络可以获得 0.943 的平均 PCKh 分数，这是 MPII 人体姿态数据集上的最新技术水平。