本研究采用了一个 GAN-CLS 模型,利用 MS-COCO 数据集进行实验,展示了该方法在一般图像集上包含多个对象和可变背景的泛化能力。与 CUB 和 Oxford-102 相同的文本编码器架构、GAN 架构和超参数用于训练文本编码器学习实例级别的图像和文本匹配函数。尽管 COCO 数据集缺乏每个类别的单个对象类别,但我成功地学习了一个具有清晰度和样本多样性的模型。未来的工作将引入层次结构,以更好地处理复杂的多对象场景,并改善生成器和判别器的架构,例如采用具有多个生成器和判别器的层次结构,或使用更复杂的文本编码器,以进一步提高模型的能力。总之,我的研究为图像合成领域的进一步研究提供了有价值的启示,表明 GAN-CLS 模型在处理多对象图像合成任务方面具有很好的表现。我的方法不仅能够对单个对象进行合成,还能够处理包含多个对象和可变背景的一般图像。图 5 展示了该方法应用于其他种类的图像。


原文地址: https://www.cveoy.top/t/topic/nP9C 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录