OpenPose: 实时多人2D姿态估计 - 使用部件亲和力场

摘要:

本文介绍了 OpenPose,这是一个用于实时多人2D姿态估计的库,包括身体、足部、手部和面部关键点。我们针对这项任务提出了一种新的自下而上的方法,其中首先在整个图像上检测低级部件,然后将其用作检测高级部件的输入。我们的方法使用卷积神经网络 (CNN) 来联合预测所有关键点及其部件亲和力,这些亲和力编码了关键点之间关联的程度。该网络在大型多样的图像数据集上训练,可以对任意大小的图像进行操作。我们在 COCO 关键点检测基准和包含多人的视频序列上取得了最先进的性能。

引言:

2D 姿态估计是计算机视觉中的一个基本任务,有着许多应用,例如动作识别、人机交互和运动分析。它涉及检测和定位人体的关键点,例如头部、颈部、肩膀、肘部、手腕、臀部、膝盖和脚踝。由于人体外观、姿势和遮挡的高度可变性,这个问题极具挑战性。

以往关于 2D 姿态估计的研究主要集中在自上而下的方法上,其中首先使用人检测器定位图像中的人,然后对每个人分别应用姿态估计器。虽然自上而下的方法在单人图像上可以实现很高的精度,但它们计算量大,无法处理同一图像中的多个人。另一方面,自下而上的方法在不依赖人检测器的情况下检测关键点,可以处理多个人。然而,由于关键点在不同人之间关联以及处理遮挡的困难,它们通常精度较低。

在本文中,我们提出了一种新的用于多人2D姿态估计的自下而上的方法,称为 OpenPose。我们的方法使用 CNN 来联合预测所有关键点及其部件亲和力,这些亲和力编码了关键点之间关联的程度。我们证明了我们的方法在 COCO 关键点检测基准和包含多人的视频序列上取得了最先进的性能。

方法:

我们的方法包括三个主要阶段:关键点估计、部件亲和力预测和关键点关联。在第一阶段,我们使用 CNN 独立检测每个部件的关键点,例如鼻子、眼睛、耳朵、肩膀、肘部、手腕、臀部、膝盖和脚踝。在第二阶段,我们预测关键点之间的部件亲和力,这些亲和力编码了两个关键点属于同一部件的可能性。这是使用第二个 CNN 完成的,该 CNN 将第一阶段的特征图作为输入。在第三阶段,我们使用贪婪的关键点关联算法将图像中不同人的关键点关联起来。

结果:

我们在 COCO 关键点检测基准和包含多人的视频序列上评估了我们的方法。我们在两个任务上都取得了最先进的性能,在 COCO 测试开发集上的平均精度 (mAP) 为 0.746,在 GPU 上的帧速率为 15 FPS。我们还表明,我们的方法可以处理遮挡、极端姿势和拥挤场景等具有挑战性的场景。

结论:

我们介绍了 OpenPose,这是一个用于实时多人2D姿态估计的库。我们的方法使用了一种自下而上的方法,可以在不依赖人检测器的情况下处理同一图像中的多个人。我们在 COCO 关键点检测基准和包含多人的视频序列上取得了最先进的性能。我们的方法具有可扩展性,可以对任意大小的图像进行操作。我们相信 OpenPose 将对计算机视觉和机器人技术的许多应用有所帮助。

OpenPose: 实时多人2D姿态估计 - 使用部件亲和力场

原文地址: https://www.cveoy.top/t/topic/oEGm 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录