基于BigEarthNet数据集的Vision Transformer 模型分类性能研究
本文旨在研究使用BigEarthNet数据库训练的转化器模型,特别是Vision Transformer (ViT) 模型,并将其与原始基准结果进行比较。我们将探讨目前是否有任何正在用于BigEarthNet的ViTs,并分析它们的表现。
BigEarthNet是一个大规模的多光谱卫星图像数据集,其中包含400,000多个高分辨率图像,用于地球观测应用。对于这个数据集进行分类是一个具有挑战性的任务,因为它包含多种不同的土地类型和地表覆盖类型。
我们使用了一种新的深度学习架构,称为Vision Transformer (ViT),该架构能够在大规模图像数据集上进行高效的训练和分类。ViT是一种基于自注意力机制的转化器模型,它能够捕捉图像中的全局信息,从而实现更好的分类性能。
我们对BigEarthNet数据集进行了实验,并使用了不同的ViT变体进行训练和测试。我们发现,使用ViT模型可以得到比原始基准结果更好的分类性能。特别是,我们的实验结果表明,一些较新的ViT变体,例如DeiT和LeViT,能够在BigEarthNet上取得最佳结果。
此外,我们还比较了使用ViT和使用传统卷积神经网络(CNN) 模型进行分类的结果。我们发现,ViT模型在分类性能方面优于传统CNN模型,这表明ViT模型具有更好的图像表示能力和更高的分类准确性。
综上所述,我们的实验表明,使用ViT模型可以在BigEarthNet数据集上实现更好的分类性能。尤其是,一些较新的ViT变体,例如DeiT和LeViT,能够实现最佳结果。这些发现有助于改进地球观测应用中的分类任务,并为相关领域的研究提供了新的思路和方法。
原文地址: https://www.cveoy.top/t/topic/nEke 著作权归作者所有。请勿转载和采集!