翻译一下：Motivated bythe powerful pre-trained model of BERT 12 some re-searchers start to investigate visual-linguistic pre-trainingVLP 10 26 30 43 57 to jointly represent images andtexts In general these

日期: 2025-10-05

标签: 科技

受BERT（12）强大的预训练模型的启发，一些研究人员开始研究视觉-语言预训练（VLP）[10, 26, 30, 43, 57]，以共同表示图像和文本。一般来说，这些模型将对象提议和文本作为输入，并设计了几个Transformer编码器层进行联合表示学习。引入了许多预训练任务，包括图像-文本匹配（ITM）、单词-区域对齐（WRA）、掩码语言建模（MLM）、掩码区域建模（MRM）等。虽然基本单元相似（即Transformer编码器层），但VLP的目标是学习可推广的视觉-语言表示，并利用大规模数据促进下游任务。相反，我们专注于开发一种新型的基于Transformer的视觉基础框架，并学习使用少量的视觉基础数据进行同质多模态推理。

翻译一下：Motivated bythe powerful pre-trained model of BERT 12 some re-searchers start to investigate visual-linguistic pre-trainingVLP 10 26 30 43 57 to jointly represent images andtexts In general these

原文地址: https://www.cveoy.top/t/topic/flSW 著作权归作者所有。请勿转载和采集!