视觉与语言模型的训练范式已经从依赖手动标注数据集(如MS-COCO [30]和Visual Genome [27])转变为利用从互联网自动抓取的海量数据集,这些数据集几乎没有或很少进行人工策划[17,42,43]。 图1展示了这一趋势,比较了配对图像-文本数据集的大小随时间的变化。过去十年广泛使用的手动注释数据集每个仅包含几十万张图像,而最新的自动抓取数据集则包含数百万个样本。

海量数据的出现催生了一批颠覆性的模型,例如:

  • 在400 million个图像-文本对上训练的CLIP [37];
  • 在860 million个图像-文本对上训练的Imagen [41];
  • 在23亿个图像和短视频与文本对上训练的Flamingo [1];
  • 在6.5亿个图像上训练的DALL-E 2 [38];
  • 在6亿个带字幕图像上训练的Stable Diffusion [39]。

这些模型在零样本分类[37]或文本到图像生成[38,39]等任务中展现出优于先前最先进方法的视觉和语言表示能力。

从手动标注到海量数据:视觉与语言模型训练范式转变

原文地址: https://www.cveoy.top/t/topic/fBmC 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录