基于深度学习的人体姿态估计:COCO和PoseTrack数据集实验
基于深度学习的人体姿态估计:COCO和PoseTrack数据集实验
本节介绍我们在COCO和PoseTrack数据集上进行的人体姿态估计实验。
4.1. COCO关键点检测
数据集: COCO数据集[35]包含超过200,000张图片和250,000个人体实例,并标注了17个关键点。我们在COCO train2017数据集上训练模型,该数据集包含57,000张图片和150,000个人体实例。我们在val2017和test-dev2017数据集上评估我们的方法,这两个数据集分别包含5,000张图片和20,000张图片。
评估指标: 标准评估指标是基于目标关键点相似度(OKS):
OKS = (Σ i exp(- di ^2 / 2 s ^2 ki ^2) δ( vi > 0)) / (Σ i δ( vi > 0)).
其中_di_是检测到的关键点与对应真实值之间的欧几里德距离,_vi_是真实值的可见性标志,_s_是目标尺度,_ki_是控制衰减的每个关键点的常数。我们报告了标准平均精度和召回率分数1:AP50 (OKS = 0.50时的AP)、AP75、AP (OKS = 0.50, 0.55, ..., 0.90, 0.95时10个位置的AP分数的平均值);中等目标的APM,大目标的APL,以及OKS = 0.50, 0.55, ..., 0.90, 0.95时的AR。
训练: 我们将人体检测框的高度或宽度扩展到固定的纵横比:高度:宽度 = 4:3,然后从图像中裁剪该框,并将其调整为固定大小,256 × 192或384 × 288。数据增强包括随机旋转([-45°, 45°])、随机缩放(0.7-1.3)、随机水平翻转和颜色抖动。我们使用ResNet-50骨干网络,并使用随机梯度下降(SGD)优化器训练模型,学习率为0.001,动量为0.9,权重衰减为0.0001。该模型训练140个epoch,批大小为32。
4.2. PoseTrack挑战赛
数据集: PoseTrack数据集[36]包含514个视频,共66,000帧,超过150,000个人体实例标注了15个关键点。我们在PoseTrack训练集上训练模型,该数据集包含300个视频和30,000帧。我们在PoseTrack验证集上评估我们的方法,该数据集包含50个视频和5,000帧。
评估指标: 评估指标是基于正确关键点百分比(PCK):
PCK = (1 / N) Σ i=1 ^ N δ( di ≤ α · max(h, w)).
其中_N_是关键点数量,_di_是检测到的关键点与对应真实值之间的欧几里德距离,_h_和_w_是人体边界框的高度和宽度,α是设置为0.2的阈值参数。我们报告了所有关键点和帧的平均PCK分数。
训练: 我们使用与COCO实验相同的数据增强和训练策略,但使用ResNet-101骨干网络。该模型训练60个epoch,批大小为16,使用Adam优化器,学习率为0.0001,权重衰减为0.0001。
原文地址: https://www.cveoy.top/t/topic/f0I1 著作权归作者所有。请勿转载和采集!