翻译In recent years visual understanding methods 1–15 have made tremendous progress partly becauseof advances in deep learning 16–19 and partly due to the introduction of large-scale annotateddatasets 2
近年来,视觉理解方法[1-15]取得了巨大的进展,部分原因是深度学习[16-19]的进步,部分原因是大规模标注数据集[20, 21]的引入。在本文中,我们考虑姿态估计的问题,这个问题在最近建立的大规模数据集[22, 23]的支持下得到了很大的进展。然而,最近这个领域的大部分进展集中在静态图像的姿态估计任务上[3, 23-27]。然而,直接将这些图像级别的模型应用于视频是具有挑战性的,因为存在运动模糊、视频虚焦和频繁的姿态遮挡等干扰因素。此外,在多人视频中收集带注释的姿态数据的过程既昂贵又耗时。一个视频通常包含数百帧需要由人工标注者进行密集标注。因此,与图像对应物[21]相比,视频姿态估计的数据集[22]通常较小且缺乏多样性。这是一个问题,因为现代深度模型需要大量标注数据才能达到良好的性能。同时,视频具有高信息冗余性,因为内容在帧与帧之间变化很少。这就引发了一个问题,即在训练视频中是否需要标注每一帧才能获得良好的姿态估计精度。
原文地址: https://www.cveoy.top/t/topic/iQ12 著作权归作者所有。请勿转载和采集!