3. 方法

人体姿态估计, 也称为关键点检测, 旨在从尺寸为 W × H × 3 的图像 I 中检测出 K 个关键点或部位(例如肘部、手腕等)的位置。现有的最先进方法将此问题转化为估计 K 个大小为 W'×H'的热图 {H1、H2、……、HK}, 其中每个热图 Hk 表示第 k 个关键点的位置置信度。

我们遵循广泛采用的管道 [39, 70, 11], 使用卷积网络预测人体关键点, 该网络由以下部分组成:

  • 主干网络: 由两个步长卷积构成, 用于降低分辨率。* 主体: 输出与其输入特征图相同分辨率的特征图。* 回归器: 估计热图, 并将关键点位置转换为全分辨率。

我们专注于主体的设计, 并引入了我们的高分辨率网络(HRNet), 如图 1 所示。

顺序多分辨率子网络

现有的姿态估计网络是通过连接串行的高到低分辨率子网络构建的, 其中每个子网络形成一个阶段, 由一系列卷积组成, 并且在相邻的子网络之间有一个下采样层来减半分辨率。

令 Nsr 为第 s 个阶段中的子网络, r 为分辨率索引(其分辨率是第一个子网络的 1/2^(r-1))。带有 S(例如, 4)个阶段的高到低网络可以表示为:

N11 → N22 → N33 → N44. (1)

并行多分辨率子网络

我们从高分辨率子网络开始作为第一阶段, 逐步添加高到低分辨率子网络, 一个接一个地形成新的阶段, 并将多分辨率子网络并行连接。因此, 后期阶段的并行子网络的分辨率由前一阶段的分辨率和额外的较低分辨率组成。

以下是一个包含 4 个并行子网络的示例网络结构:

N11 → N21 → N31 → N41 ↘ N22 → N32 → N42 ↘ N33 → N43 ↘ N44. (2)

重复多尺度融合

我们引入交换单元, 跨并行子网络使每个子网络重复接收来自其他并行子网络的信息。以下是一个示例, 显示了交换信息的方案。我们将第三阶段分成几个(例如 3 个)交换块, 每个块由 3 个并行卷积单元和一个跨并行单元的交换单元组成, 如下所示:

C1_31 ⇄ C2_31 ⇄ C3_31 ↓ ↗ ↓ ↗ ↓ ↗ C1_32 → E1_3 → C2_32 → E2_3 → C3_32 → E3_3, ↑ ↘ ↑ ↘ ↑ ↘C1_33 ⇄ C2_33 ⇄ C3_33 (3)

其中 Cb_sr 表示第 s 个阶段中第 b 个块中 r 分辨率的卷积单元, Eb_s 是相应的交换单元。

我们在图 3 中说明了交换单元并在以下公式中进行了介绍。为了方便讨论, 我们省略了下标 s 和上标 b。输入是 s 个响应映射: {X1、X2、……、Xs}。输出是 s 个响应映射: {Y1、Y2、……、Ys}, 其分辨率和宽度与输入相同。每个输出都是输入映射的聚合, Yk = Σ(i=1~s) a(Xi, k)。跨阶段的交换单元具有一个额外的输出映射 Ys+1: Ys+1 = a(Ys, s + 1)。

函数 a(Xi, k) 由从分辨率 i 到分辨率 k 的上采样或下采样的 Xi 组成。我们采用步幅为 2 的分层 3×3 卷积进行下采样。例如, 一个步幅为 2 的分层 3×3 卷积可进行 2× 下采样, 两个连续的步幅为 2 的 3×3 卷积可进行 4× 下采样。对于上采样, 我们采用简单的最近邻采样, 跟随一个 1×1 卷积以对齐通道数。如果 i = k, 则 a(·, ·) 就是一个身份连接: a(Xi, k) = Xi。

热图估计

我们简单地从最后一个交换单元输出的高分辨率表示中回归热图, 这在经验上表现良好。损失函数定义为均方误差, 用于比较预测的热图和地面实况热图。地面实况热图是通过在每个关键点的实况位置上居中应用标准差为 1 像素的 2D 高斯生成的。

网络实例化

我们通过遵循 ResNet 的设计规则将深度分配到每个阶段和通道数分配到每个分辨率来实例化关键点热图估计网络。

主体, 即我们的 HRNet, 包含四个阶段, 每个阶段有四个并行子网络, 其分辨率逐渐降低到一半, 相应地宽度(通道数)增加到两倍。第一阶段包含 4 个残差单元, 每个单元与 ResNet-50 相同, 由一个宽度为 64 的瓶颈组成, 并跟随一个 3×3 卷积, 将特征图的宽度减小到 C。第二、第三、第四阶段分别包含 1、4、3 个交换块。一个交换块包含 4 个残差单元, 每个单元在每个分辨率中包含两个 3×3 卷积和一个跨分辨率的交换单元。总之, 共有 8 个交换单元, 即进行了 8 次多尺度融合。

在我们的实验中, 我们研究了一个小型网络和一个大型网络: HRNet-W32 和 HRNet-W48, 其中 32 和 48 分别表示最后三个阶段中高分辨率子网络的宽度(C)。 HRNet-W32 的其他三个并行子网络的宽度为 64、128、256, HRNet-W48 的其他三个并行子网络的宽度为 96、192、384。


原文地址: https://www.cveoy.top/t/topic/f0IH 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录