COCO 和 MPII 人体关键点检测实验

4. 实验

4.1. COCO 关键点检测

数据集. COCO 数据集 [35] 包含超过 200,000 张图像和 250,000 个人实例，并用 17 个关键点进行标注。我们在 COCO train2017 数据集上训练我们的模型，包括 57K 张图像和 150K 个人实例。我们在 val2017 集和 test-dev2017 集上评估我们的方法，分别包含 5000 张图像和 20K 张图像。

评估指标. 标准的评估指标基于对象关键点相似度 (OKS)：

P OKS = ∑i exp(−di2 / 2ski2 P) δ(vi>0) ∑i δ(vi>0) . 这里 di 是检测到的关键点与对应地面真值之间的欧几里得距离，vi 是地面真值的可见性标志，s 是对象尺度，ki 是每个关键点的常数，控制衰减。我们报告标准平均精度和召回率得分1：AP50 (OKS = 0.50) AP75，AP (AP 得分在 10 个位置的平均值，OKS = 0.50, 0.55, ..., 0.90, 0.95; APM 用于中等物体，APL 用于大型物体)，以及 AR 在 OKS = 0.50, 0.55, ..., 0.90, 0.95。

训练. 我们将人体检测框的高度或宽度扩展到固定纵横比：高度：宽度 = 4：3，然后从图像中裁剪出该框，并将该框调整为固定大小，256 × 192 或 384 × 288。数据增强包括随机旋转 ([−45◦, 45◦])，随机缩放 ([0.7, 1.3])，随机水平翻转和颜色抖动。我们在 8 个 NVIDIA Tesla V100 GPU 上使用 PyTorch 框架训练我们的模型，批次大小为 32，训练 140 个 epochs。学习率初始化为 1e-3，并在第 90 和 120 个 epochs 时降低 10 倍。我们使用 Adam 优化器，权重衰减为 1e-4。

4.2. 人体姿态估计在 MPII 上

数据集. MPII 人体姿态数据集 [36] 包含超过 25,000 张图像，并对 16 个身体关节的 2D 姿态关键点进行标注。我们使用标准的训练和验证拆分，大约有 24,000 张训练图像和 1,000 张验证图像。

评估指标. 我们使用正确估计关键点百分比 (PCK) 指标，该指标衡量关键点落在地面真值一定距离内的百分比。我们报告所有关节在不同阈值距离下的平均 PCK。

训练. 我们使用与 COCO 关键点检测实验中相同的 data augmentation 和训练策略。我们在 8 个 NVIDIA Tesla V100 GPU 上训练我们的模型，批次大小为 32，训练 140 个 epochs。学习率初始化为 1e-3，并在第 90 和 120 个 epochs 时降低 10 倍。我们使用 Adam 优化器，权重衰减为 1e-4。