翻译In recent years visual understanding methods 1–15 have made tremendous progress partly becauseof advances in deep learning 16–19 and partly due to the introduction of large-scale annotateddatasets 2

日期: 2026-11-05

标签: 常规

近年来，视觉理解方法[1-15]取得了巨大的进展，部分原因是深度学习[16-19]的进步，部分原因是大规模标注数据集[20, 21]的引入。在本文中，我们考虑姿态估计的问题，这个问题在最近建立的大规模数据集[22, 23]的支持下得到了很大的进展。然而，最近这个领域的大部分进展集中在静态图像的姿态估计任务上[3, 23-27]。然而，直接将这些图像级别的模型应用于视频是具有挑战性的，因为存在运动模糊、视频虚焦和频繁的姿态遮挡等干扰因素。此外，在多人视频中收集带注释的姿态数据的过程既昂贵又耗时。一个视频通常包含数百帧需要由人工标注者进行密集标注。因此，与图像对应物[21]相比，视频姿态估计的数据集[22]通常较小且缺乏多样性。这是一个问题，因为现代深度模型需要大量标注数据才能达到良好的性能。同时，视频具有高信息冗余性，因为内容在帧与帧之间变化很少。这就引发了一个问题，即在训练视频中是否需要标注每一帧才能获得良好的姿态估计精度。

翻译In recent years visual understanding methods 1–15 have made tremendous progress partly becauseof advances in deep learning 16–19 and partly due to the introduction of large-scale annotateddatasets 2

原文地址: https://www.cveoy.top/t/topic/iQ12 著作权归作者所有。请勿转载和采集!