文本到图像生成模型:基于GAN的架构和训练细节
我们对所有数据集都使用了相同的GAN体系结构。训练图像大小设置为64×64×3。文本编码器产生了102个4维嵌入,在深度连接到卷积特征图之前,在生成器和鉴别器中投影到128维。
生成器采用了类似DCGAN的体系结构,包括4个转置卷积层和一个sigmoid输出层。每个转置卷积层都有128个滤波器,滤波器大小设置为4×4,步幅为2。生成器的输入是一个128维的噪声向量,以及一个102维的文本编码向量,这两个向量通过连接操作合并为一个输入向量。
鉴别器采用了类似DCGAN的体系结构,包括4个卷积层和一个sigmoid输出层。每个卷积层都有128个滤波器,滤波器大小设置为4×4,步幅为2。鉴别器的输入是一张64×64×3的图像,以及一个102维的文本编码向量,这两个向量通过连接操作合并为一个输入向量。
在训练过程中,我们使用了Adam优化器,学习率为0.0002,beta1为0.5。我们使用了L1损失来约束生成的图像与真实图像之间的差异。生成器和鉴别器的初始权重都是从高斯分布中随机初始化的。在每个epoch结束时,我们保存了生成器的权重,并使用测试集进行评估。
原文地址: https://www.cveoy.top/t/topic/nH59 著作权归作者所有。请勿转载和采集!