2021年1月,Esser等人[6]提出了VQGAN(vector quantised generative adversarial network),它巧妙地将Transformer和CNN结合起来,成为第一个能够通过语义引导生成百万像素图像的Transformer架构。VQGAN的出现,标志着基于Transformer的模型在计算机视觉领域的兴起,为该领域注入了新的活力,并引领了一场新的变革。

VQGAN: 基于Transformer的百万像素图像生成模型

原文地址: https://www.cveoy.top/t/topic/O7D 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录