基于改进HRNet的多人姿态估计与跟踪
基于改进HRNet的多人姿态估计与跟踪
数据集
本研究使用基于流行的MPII人体姿势数据集构建的扩展数据集,包含550个视频序列,共计66,374帧。这些视频序列被划分为训练集(292个视频)、验证集(50个视频)和测试集(208个视频)。训练视频长度在41到151帧之间,并对每个视频中心区域的30帧进行密集标注。验证集和测试集视频长度在65到298帧之间,同样对MPII Pose数据集中关键帧周围的30帧进行密集标注,之后每隔4帧进行一次标注。整个数据集包含约23,000个标注帧和153,615个姿态标注。
评估指标
本研究从两个方面评估算法性能:逐帧多人姿态估计和多人姿态跟踪。
- 姿态估计: 采用平均精度均值(mAP)作为评估指标,与文献[50, 27]一致。* 姿态跟踪: 采用多目标跟踪准确度(MOTA)[37, 27]作为评估指标。
具体细节请参考文献[27]。
训练
本研究使用PoseTrack2017训练集对HRNet-W48网络进行单人姿态估计训练。网络初始化采用在COCO数据集上预训练的模型。训练过程中,将标注关键点的外接矩形扩展15%作为网络输入的人物框。除学习率调整外,其他训练设置(包括数据增强)与COCO训练过程基本一致。学习率初始设置为1e-4,在第10个epoch下降至1e-5,在第15个epoch下降至1e-6,训练过程在20个epoch内结束。
测试
本研究采用文献[70]提出的三步方法进行跨帧姿态跟踪:
- 人物框检测和传播2. 人体姿态估计3. 跨相邻帧的姿态关联
人物框检测器与SimpleBaseline [70]中相同,并根据FlowNet 2.0 [25]计算的光流传播预测的关键点,实现人物框在相邻帧间的传播,最后使用非极大值抑制去除冗余框。姿态关联则基于相邻帧间关键点的相似度,并使用贪心匹配算法计算相邻帧关键点之间的对应关系。更多细节请参考文献[70]。
PoseTrack2017测试集结果
表5展示了本研究方法在PoseTrack2017测试集上的结果。与目前性能最佳的方法FlowTrack (SimpleBaseline [70], ResNet-152)相比,本方法在mAP和MOTA指标上分别提升了0.3和0.1。该结果与在COCO关键点检测和MPII人体姿态估计数据集上的观察一致,进一步证明了本研究所提出的姿态估计网络的有效性。
原文地址: https://www.cveoy.top/t/topic/f0Jf 著作权归作者所有。请勿转载和采集!