文本到图像生成模型：基于GAN的架构和训练细节

我们对所有数据集都使用了相同的GAN体系结构。训练图像大小设置为64×64×3。文本编码器产生了102个4维嵌入，在深度连接到卷积特征图之前，在生成器和鉴别器中投影到128维。

生成器采用了类似DCGAN的体系结构，包括4个转置卷积层和一个sigmoid输出层。每个转置卷积层都有128个滤波器，滤波器大小设置为4×4，步幅为2。生成器的输入是一个128维的噪声向量，以及一个102维的文本编码向量，这两个向量通过连接操作合并为一个输入向量。

鉴别器采用了类似DCGAN的体系结构，包括4个卷积层和一个sigmoid输出层。每个卷积层都有128个滤波器，滤波器大小设置为4×4，步幅为2。鉴别器的输入是一张64×64×3的图像，以及一个102维的文本编码向量，这两个向量通过连接操作合并为一个输入向量。

在训练过程中，我们使用了Adam优化器，学习率为0.0002，beta1为0.5。我们使用了L1损失来约束生成的图像与真实图像之间的差异。生成器和鉴别器的初始权重都是从高斯分布中随机初始化的。在每个epoch结束时，我们保存了生成器的权重，并使用测试集进行评估。