从手动标注到网络爬取：视觉与语言模型训练范式的转变

视觉与语言模型的训练范式正在经历一场巨变，从依赖人工标注的数据集转向利用大规模、自动抓取的网络数据。过去，研究者们依赖于手动标注的数据集，例如MS-COCO [30]和Visual Genome [27]，这些数据集虽然标注质量高，但规模有限。近年来，随着互联网数据的爆炸式增长以及数据处理技术的进步，从网络上自动抓取海量数据并用于模型训练成为可能。图1展示了这一趋势，相比于过去十年广泛使用、包含几十万张图像的手动标注数据集，最新的自动抓取数据集包含数百万甚至数十亿样本 [17,42,43]。

这种转变带来了显著的影响。首先，大规模数据的优势在于能够训练出更强大的模型，例如在400 million个图像-文本对上训练的CLIP [37]，在860 million个图像-文本对上训练的Imagen [41]，在23 billion个图像和短视频与文本配对上训练的Flamingo [1]，在650 million个图像上训练的DALL-E 2 [38]，以及在600 million个带标题图像上训练的Stable Diffusion [39]。这些模型在零样本分类 [37]或文本到图像生成 [38,39]等任务上都取得了突破性的成果，超越了过去依赖手动标注数据集训练的模型。

然而，这种转变也带来了一些挑战。自动抓取的数据集通常缺乏高质量的标注，如何有效地利用这些数据进行模型训练是一个重要的研究方向。此外，大规模数据集也对计算资源提出了更高的要求，如何高效地训练和优化模型也是需要解决的问题。

总而言之，从手动标注到网络爬取的转变是视觉与语言模型训练范式的一个重要趋势，这一趋势将继续推动该领域的快速发展。未来，我们期待看到更多创新性的方法和技术涌现，以更好地利用海量数据，训练出更加强大的视觉与语言模型。