基于深度学习的人体姿态估计：COCO和PoseTrack数据集实验

本节介绍我们在COCO和PoseTrack数据集上进行的人体姿态估计实验。

4.1. COCO关键点检测

数据集: COCO数据集[35]包含超过200,000张图片和250,000个人体实例，并标注了17个关键点。我们在COCO train2017数据集上训练模型，该数据集包含57,000张图片和150,000个人体实例。我们在val2017和test-dev2017数据集上评估我们的方法，这两个数据集分别包含5,000张图片和20,000张图片。

评估指标: 标准评估指标是基于目标关键点相似度(OKS):

OKS = (Σ i exp(- di ^2 / 2 s ^2 ki ^2) δ( vi > 0)) / (Σ i δ( vi > 0)).

其中_di_是检测到的关键点与对应真实值之间的欧几里德距离，_vi_是真实值的可见性标志，_s_是目标尺度，_ki_是控制衰减的每个关键点的常数。我们报告了标准平均精度和召回率分数1：AP50 (OKS = 0.50时的AP)、AP75、AP (OKS = 0.50, 0.55, ..., 0.90, 0.95时10个位置的AP分数的平均值)；中等目标的APM，大目标的APL，以及OKS = 0.50, 0.55, ..., 0.90, 0.95时的AR。

训练: 我们将人体检测框的高度或宽度扩展到固定的纵横比：高度:宽度 = 4:3，然后从图像中裁剪该框，并将其调整为固定大小，256 × 192或384 × 288。数据增强包括随机旋转([-45°, 45°])、随机缩放(0.7-1.3)、随机水平翻转和颜色抖动。我们使用ResNet-50骨干网络，并使用随机梯度下降(SGD)优化器训练模型，学习率为0.001，动量为0.9，权重衰减为0.0001。该模型训练140个epoch，批大小为32。

4.2. PoseTrack挑战赛

数据集: PoseTrack数据集[36]包含514个视频，共66,000帧，超过150,000个人体实例标注了15个关键点。我们在PoseTrack训练集上训练模型，该数据集包含300个视频和30,000帧。我们在PoseTrack验证集上评估我们的方法，该数据集包含50个视频和5,000帧。

评估指标: 评估指标是基于正确关键点百分比(PCK):

PCK = (1 / N) Σ i=1 ^ N δ( di ≤ α · max(h, w)).

其中_N_是关键点数量，_di_是检测到的关键点与对应真实值之间的欧几里德距离，_h_和_w_是人体边界框的高度和宽度，α是设置为0.2的阈值参数。我们报告了所有关键点和帧的平均PCK分数。

训练: 我们使用与COCO实验相同的数据增强和训练策略，但使用ResNet-101骨干网络。该模型训练60个epoch，批大小为16，使用Adam优化器，学习率为0.0001，权重衰减为0.0001。