4. 实验

4.1. COCO 关键点检测

数据集. COCO 数据集 [35] 包含超过 200,000 张图像和 250,000 个标注了 17 个关键点的人体实例。我们使用 COCO train2017 数据集训练模型,包括 57K 张图像和 150K 个人体实例。我们使用 val2017 和 test-dev2017 集评估模型,分别包含 5000 张图像和 20K 张图像。

评估指标. 标准评估指标基于物体关键点相似度 (OKS):

 P_OKS = sum_i(exp(-d_i^2 / (2s^2 k_i^2)) * δ(v_i > 0)) / sum_i(δ(v_i > 0)) 

其中,d_i 是检测到的关键点和对应真值的欧氏距离,v_i 是真值的可见性标记,s 是物体尺度,k_i 是每个关键点的常数,控制衰减。我们报告标准的平均精度和召回率分数 [1]:AP50 (OKS = 0.50),AP75,AP (AP 分数在 10 个位置的平均值,OKS = 0.50, 0.55, ..., 0.90, 0.95;APM 表示中型物体,APL 表示大型物体),以及 AR 在 OKS = 0.50, 0.55, ..., 0.90, 0.95 的值。

训练. 我们将人体检测框的高度或宽度扩展到固定长宽比:高度:宽度 = 4:3,然后从图像中裁剪框,并将其调整为固定大小,256 × 192 或 384 × 288。数据增强包括随机旋转([-45°,45°]),随机缩放 (0.7 到 1.3) 以及随机水平翻转。我们使用 ResNet-50 作为主干网络,并以 32 的批大小训练模型 140k 次迭代。学习率初始化为 0.001,并在 90k 和 120k 次迭代时分别除以 10。我们使用 Adam 优化器,权重衰减为 0.0001。

4.2. MPII 人体姿态

数据集. MPII 人体姿态数据集 [13] 包含超过 25,000 张带有 2D 人体姿态标注的图像。我们使用标准的训练-测试分割,包含 16,717 张图像用于训练,3,863 张图像用于测试。

评估指标. 我们使用正确关键点百分比 (PCK) 指标,阈值为头部大小的 0.5 倍进行评估。我们分别报告头部和四肢的平均 PCKh 和 PCKl 分数。

训练. 我们使用与 COCO 关键点检测实验中相同的 data augmentation。我们使用 ResNet-50 作为主干网络,并以 32 的批大小训练模型 100k 次迭代。学习率初始化为 0.001,并在 70k 和 90k 次迭代时分别除以 10。我们使用 Adam 优化器,权重衰减为 0.0001。


原文地址: https://www.cveoy.top/t/topic/f0I3 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录