基于双超分辨率学习的低计算量语义分割和姿态估计
基于双超分辨率学习的低计算量语义分割和姿态估计
当前最先进的语义分割方法通常依赖于高分辨率输入以实现高性能,但这会导致计算成本高昂,限制了其在资源受限设备上的应用。为了解决这个问题,本文提出了一种简单而灵活的双流框架,称为双超分辨率学习(DSRL),该框架能够在不增加额外计算成本的情况下有效提高分割精度。
DSRL框架的核心思想是在低分辨率输入下保持高分辨率表示。该方法由三个主要部分组成:
- 语义分割超分辨率(SSSR): 利用低分辨率输入生成高分辨率的分割结果。* 单图像超分辨率(SISR): 将低分辨率输入图像上采样到高分辨率。* 特征亲和(FA)模块: 用于对齐和融合SSSR和SISR分支的特征,以增强表示学习。
DSRL方法简单有效,可以轻松推广到其他任务,例如人体姿态估计。通过实验验证,DSRL在语义分割和人体姿态估计任务上均取得了显著的性能提升。
主要实验结果:
- 语义分割: 在CityScapes数据集上,DSRL在相似的计算量下实现了超过2%的mIoU提升,并在70%的计算量下保持了相当的性能。* 人体姿态估计: DSRL在相同的计算量下获得了超过2%的mAP提升,并在减少30%计算量的情况下保持了mAP。
结论:
DSRL是一种高效且通用的框架,能够在不增加计算成本的情况下显著提高语义分割和姿态估计的性能。这种方法为在资源受限设备上部署高性能视觉模型提供了新的思路。
代码和模型: https://github.com/wanglixilinx/DSRL
原文地址: http://www.cveoy.top/t/topic/fb0Z 著作权归作者所有。请勿转载和采集!