基于深度学习的COCO关键点检测

4. 实验

4.1. COCO 关键点检测

数据集: COCO数据集 [35] 包含超过 200,000 张图片和 250,000 个人体实例，并标注了 17 个关键点。我们在 COCO train2017 数据集上训练我们的模型，该数据集包含 57K 张图片和 150K 个人体实例。我们在 val2017 和 test-dev2017 数据集上评估我们的方法，这两个数据集分别包含 5000 张图片和 20K 张图片。

评估指标: 标准评估指标是基于目标关键点相似度 (OKS)：

P OKS = Σi exp(−d²i /2s²k²i P)δ(vi>0) / Σi δ(vi>0) .

其中 di 是检测到的关键点与对应真实值之间的欧几里得距离，vi 是真实值的可见性标志，s 是目标尺度，ki 是控制下降速度的每个关键点常数。我们报告了标准平均精度和召回率分数1：AP50 (OKS = 0.50 时的 AP)、AP75、AP (OKS = 0.50、0.55、...、0.90、0.95 共 10 个位置的 AP 分数的平均值；APM 表示中等目标，APL 表示大型目标) 以及 OKS = 0.50、0.55、...、0.90、0.95 时的 AR。

训练: 我们将人体检测框的高度或宽度扩展到固定的纵横比：高度 : 宽度 = 4 : 3，然后从图像中裁剪该框，并将其调整为固定大小 256 × 192 或 384 × 288。数据增强包括随机旋转 ([-45°，45°])、随机缩放 ([0.7, 1.3])、随机水平翻转和颜色抖动。我们使用 ResNet-50 骨干网络和具有 8 个堆栈的 Hourglass 网络训练我们的模型。学习率初始化为 2.5e-4，并在 90 个 epoch 后降低 10 倍。总训练 epoch 为 120。

结果: 我们的方法在 COCO 关键点检测任务上取得了最先进的结果。具体来说，在 val2017 数据集上，我们的方法实现了 72.1 的 AP，比之前最先进的方法高出 1.3 个百分点。在 test-dev2017 数据集上，我们的方法实现了 71.4 的 AP，这也是新的最先进结果。我们的方法在中等和大型目标上也表现出优异的性能，分别实现了 67.8 的 APM 和 75.6 的 APL。在不同的 OKS 阈值下，我们方法的 AR 曲线也高于其他方法。