视觉与语言模型训练范式：从手动标注到自动抓取

视觉与语言模型的训练范式已经从手动注释的数据集（如MS-COCO和Visual Genome）转变为从互联网自动抓取的大规模数据集。图1通过比较随时间变化的配对图像-文本数据集的大小来说明这一趋势。过去十年广泛使用的手动注释数据集每个包含几十万张图片，而最新的自动抓取数据集由数百万个样本组成。这么大量的数据导致了该领域一些具有颠覆性的模型的训练，例如在400万个图像-文本对上训练的CLIP模型；在8.6亿个图像-文本对上训练的Imagen模型；在23亿个图像和短视频与文本对上训练的Flamingo模型；在6.5亿张图片上训练的DALL-E 2模型；或者在6亿个带有标题的图片上训练的Stable Diffusion模型。这些模型已经证明在零样本分类或文本到图像生成等任务上学习到了优于之前最先进模型的视觉和语言表示。