人体关键点检测实验：COCO 和 MPII 数据集的评估

4. 实验

4.1. COCO 关键点检测

数据集. COCO 数据集 [35] 包含超过 200,000 张图像和 250,000 个标注了 17 个关键点的人体实例。我们使用 COCO train2017 数据集训练模型，包括 57K 张图像和 150K 个人体实例。我们使用 val2017 和 test-dev2017 集评估模型，分别包含 5000 张图像和 20K 张图像。

评估指标. 标准评估指标基于物体关键点相似度 (OKS)：

 P_OKS = sum_i(exp(-d_i^2 / (2s^2 k_i^2)) * δ(v_i > 0)) / sum_i(δ(v_i > 0))

其中，d_i 是检测到的关键点和对应真值的欧氏距离，v_i 是真值的可见性标记，s 是物体尺度，k_i 是每个关键点的常数，控制衰减。我们报告标准的平均精度和召回率分数 [1]：AP50 (OKS = 0.50)，AP75，AP (AP 分数在 10 个位置的平均值，OKS = 0.50, 0.55, ..., 0.90, 0.95；APM 表示中型物体，APL 表示大型物体)，以及 AR 在 OKS = 0.50, 0.55, ..., 0.90, 0.95 的值。

训练. 我们将人体检测框的高度或宽度扩展到固定长宽比：高度：宽度 = 4：3，然后从图像中裁剪框，并将其调整为固定大小，256 × 192 或 384 × 288。数据增强包括随机旋转（[-45°，45°]），随机缩放 (0.7 到 1.3) 以及随机水平翻转。我们使用 ResNet-50 作为主干网络，并以 32 的批大小训练模型 140k 次迭代。学习率初始化为 0.001，并在 90k 和 120k 次迭代时分别除以 10。我们使用 Adam 优化器，权重衰减为 0.0001。

4.2. MPII 人体姿态

数据集. MPII 人体姿态数据集 [13] 包含超过 25,000 张带有 2D 人体姿态标注的图像。我们使用标准的训练-测试分割，包含 16,717 张图像用于训练，3,863 张图像用于测试。

评估指标. 我们使用正确关键点百分比 (PCK) 指标，阈值为头部大小的 0.5 倍进行评估。我们分别报告头部和四肢的平均 PCKh 和 PCKl 分数。

训练. 我们使用与 COCO 关键点检测实验中相同的 data augmentation。我们使用 ResNet-50 作为主干网络，并以 32 的批大小训练模型 100k 次迭代。学习率初始化为 0.001，并在 70k 和 90k 次迭代时分别除以 10。我们使用 Adam 优化器，权重衰减为 0.0001。