翻译一下:Motivated bythe powerful pre-trained model of BERT 12 some re-searchers start to investigate visual-linguistic pre-trainingVLP 10 26 30 43 57 to jointly represent images andtexts In general these
受BERT(12)强大的预训练模型的启发,一些研究人员开始研究视觉-语言预训练(VLP)[10, 26, 30, 43, 57],以共同表示图像和文本。一般来说,这些模型将对象提议和文本作为输入,并设计了几个Transformer编码器层进行联合表示学习。引入了许多预训练任务,包括图像-文本匹配(ITM)、单词-区域对齐(WRA)、掩码语言建模(MLM)、掩码区域建模(MRM)等。虽然基本单元相似(即Transformer编码器层),但VLP的目标是学习可推广的视觉-语言表示,并利用大规模数据促进下游任务。相反,我们专注于开发一种新型的基于Transformer的视觉基础框架,并学习使用少量的视觉基础数据进行同质多模态推理。
原文地址: https://www.cveoy.top/t/topic/flSW 著作权归作者所有。请勿转载和采集!