VQGAN: 基于Transformer的百万像素图像生成模型

日期: 2025-10-20 21:11:35
标签: 常规

2021年1月，Esser等人[6]提出了VQGAN（vector quantised generative adversarial network），它巧妙地将Transformer和CNN结合起来，成为第一个能够通过语义引导生成百万像素图像的Transformer架构。VQGAN的出现，标志着基于Transformer的模型在计算机视觉领域的兴起，为该领域注入了新的活力，并引领了一场新的变革。

原文地址: https://www.cveoy.top/t/topic/O7D 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: Du Fu: The 'Poet Sage' of China
下一篇: 小红书内容特点：用户生成、体验至上、跨境购物、社交互动