ViLT Vision-and-Language Transformer for Image Captioning with Unaligned Data by Liunian Harold Li et al 2021 发表在哪里
"ViLT: Vision-and-Language Transformer for Image Captioning with Unaligned Data" 一文由 Liunian Harold Li 等人于2021年发表。该论文发表在计算机视觉领域的国际会议 CVPR(Computer Vision and Pattern Recognition)2021 上。
原文地址: http://www.cveoy.top/t/topic/iRxr 著作权归作者所有。请勿转载和采集!