基于改进HRNet的多人姿态估计与跟踪

数据集

本研究使用基于流行的MPII人体姿势数据集构建的扩展数据集，包含550个视频序列，共计66,374帧。这些视频序列被划分为训练集（292个视频）、验证集（50个视频）和测试集（208个视频）。训练视频长度在41到151帧之间，并对每个视频中心区域的30帧进行密集标注。验证集和测试集视频长度在65到298帧之间，同样对MPII Pose数据集中关键帧周围的30帧进行密集标注，之后每隔4帧进行一次标注。整个数据集包含约23,000个标注帧和153,615个姿态标注。

评估指标

本研究从两个方面评估算法性能：逐帧多人姿态估计和多人姿态跟踪。

姿态估计: 采用平均精度均值（mAP）作为评估指标，与文献[50, 27]一致。* 姿态跟踪: 采用多目标跟踪准确度（MOTA）[37, 27]作为评估指标。

具体细节请参考文献[27]。

训练

本研究使用PoseTrack2017训练集对HRNet-W48网络进行单人姿态估计训练。网络初始化采用在COCO数据集上预训练的模型。训练过程中，将标注关键点的外接矩形扩展15%作为网络输入的人物框。除学习率调整外，其他训练设置（包括数据增强）与COCO训练过程基本一致。学习率初始设置为1e-4，在第10个epoch下降至1e-5，在第15个epoch下降至1e-6，训练过程在20个epoch内结束。

测试

本研究采用文献[70]提出的三步方法进行跨帧姿态跟踪：

人物框检测和传播2. 人体姿态估计3. 跨相邻帧的姿态关联

人物框检测器与SimpleBaseline [70]中相同，并根据FlowNet 2.0 [25]计算的光流传播预测的关键点，实现人物框在相邻帧间的传播，最后使用非极大值抑制去除冗余框。姿态关联则基于相邻帧间关键点的相似度，并使用贪心匹配算法计算相邻帧关键点之间的对应关系。更多细节请参考文献[70]。

PoseTrack2017测试集结果

表5展示了本研究方法在PoseTrack2017测试集上的结果。与目前性能最佳的方法FlowTrack (SimpleBaseline [70], ResNet-152)相比，本方法在mAP和MOTA指标上分别提升了0.3和0.1。该结果与在COCO关键点检测和MPII人体姿态估计数据集上的观察一致，进一步证明了本研究所提出的姿态估计网络的有效性。