从手动标注到海量数据：视觉与语言模型训练范式转变

视觉与语言模型的训练范式已经从依赖手动标注数据集（如MS-COCO [30]和Visual Genome [27]）转变为利用从互联网自动抓取的海量数据集，这些数据集几乎没有或很少进行人工策划[17,42,43]。图1展示了这一趋势，比较了配对图像-文本数据集的大小随时间的变化。过去十年广泛使用的手动注释数据集每个仅包含几十万张图像，而最新的自动抓取数据集则包含数百万个样本。

海量数据的出现催生了一批颠覆性的模型，例如：

在400 million个图像-文本对上训练的CLIP [37]；
在860 million个图像-文本对上训练的Imagen [41]；
在23亿个图像和短视频与文本对上训练的Flamingo [1]；
在6.5亿个图像上训练的DALL-E 2 [38]；
在6亿个带字幕图像上训练的Stable Diffusion [39]。

这些模型在零样本分类[37]或文本到图像生成[38,39]等任务中展现出优于先前最先进方法的视觉和语言表示能力。