The training paradigm in vision-and-language models has shifted from manually annotated collections such as MS-COCO 30 and Visual Genome 27 to massive datasets with little-to-none curation automatical
视觉和语言模型的训练范式已经从手动注释的集合(如MS-COCO和Visual Genome)转变为从互联网自动抓取的大规模数据集。图1通过比较随时间变化的配对图像-文本数据集的大小来说明这种趋势。过去十年广泛使用的手动注释数据集每个包含几十万张图片,而最新的自动抓取集合由数百万个样本组成。这么大量的数据导致了该领域中一些具有颠覆性的模型的训练,例如在400 million个图像-文本对上训练的CLIP模型;在860 million个图像-文本对上训练的Imagen模型;在23亿个图像和短视频与文本对上训练的Flamingo模型;在6.5亿张图片上训练的DALL-E 2模型;或在6亿个带标题图片上训练的Stable Diffusion模型。这些模型已经证明在零样本分类或文本到图像生成等任务上学习到了优于以往最先进模型的视觉和语言表示能力。
原文地址: https://www.cveoy.top/t/topic/hS27 著作权归作者所有。请勿转载和采集!