图像分割通常在单个图像补丁的级别上存在歧义,并需要上下文信息才能达成标签一致。在本文中,我们介绍了Segmenter,一种用于语义分割的转换器模型。与基于卷积的方法不同,我们的方法允许在第一层和整个网络中建模全局上下文。我们基于最近的Vision Transformer(ViT)并将其扩展到语义分割。为此,我们依靠与图像补丁对应的输出嵌入,并使用点对点线性解码器或掩码转换器解码器从这些嵌入获取类标签。我们利用预先训练的用于图像分类的模型,并展示我们可以在可用于语义分割的中等大小的数据集上对其进行微调。线性解码器已经可以获得出色的结果,但通过生成类掩码的掩码转换器可以进一步提高性能。我们进行了广泛的消融研究以展示不同参数的影响,特别是大型模型和小型补丁大小的性能更好。Segmenter在语义分割方面取得了出色的结果。它在ADE20K和Pascal Context数据集上优于现有技术水平,并在Cityscapes上具有竞争力。

Image segmentation is often ambiguous at the level ofindividual image patches and requires contextual information to reach label consensus In this paper we introduceSegmenter a transformer model for

原文地址: https://www.cveoy.top/t/topic/clrZ 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录