基于 BigEarthNet 数据集的 Vision Transformer 模型分类性能研究

随着遥感技术的发展，大规模地球观测数据集成为研究者研究地表覆盖的重要资源。BigEarthNet 是一个包含 125 万张高分辨率地球观测图像的数据集，它具有很高的多样性和复杂性。因此，有效地对这些图像进行分类是一个具有挑战性的问题。

本文研究使用 BigEarthNet 数据集训练 Vision Transformer (ViT) 模型进行分类的效果。ViT 是一种使用基于注意力机制的转换器来处理图像的神经网络模型。我们比较了使用 ViT 模型和使用传统卷积神经网络 (CNN) 模型的性能。

为了评估 ViT 模型在 BigEarthNet 数据集上的性能，我们使用了两个不同的 ViT 变体：ViT-B 和 ViT-L。我们还使用了 CNN 模型作为基准。实验结果表明，使用 ViT 模型进行分类的性能明显优于使用 CNN 模型的性能。特别是在大规模数据集上，ViT 模型的性能优势更加明显。我们还发现，ViT-L 模型比 ViT-B 模型具有更好的性能。

此外，我们还研究了目前是否有任何正在用于 BigEarthNet 的 ViTs，并分析了它们的表现。我们发现，现有的 ViT 模型表现良好，并且在 BigEarthNet 数据集上的表现明显优于基准 CNN 模型。我们还探讨了 ViT 模型在其他地球观测数据集上的应用前景，并提出了一些未来研究方向。

综上所述，本文研究了使用 BigEarthNet 数据集训练 ViT 模型进行分类的性能，比较了 ViT 和 CNN 模型的性能，并分析了现有的 ViT 模型在 BigEarthNet 数据集上的表现。我们发现，ViT 模型在处理大规模地球观测数据集方面具有很大的优势，并且在未来的研究中有很大的应用前景。

基于 BigEarthNet 数据集的 Vision Transformer 模型分类性能研究