基于详细视觉描述的图像生成模型
在这项工作中,我们致力于解决基于文本描述生成图像的问题。我们开发了一个简单而有效的模型,该模型可以接受文本标题并生成与之相对应的图像。我们的模型可以合成许多可能的图像解释给定文本标题。为了进一步提高该模型的综合效果,我们使用了流形插值正则化器,该正则化器可以显著提高文本到图像的综合效果。
我们的模型具有风格和内容的解耦,这使得我们可以将查询图像中的鸟类姿势和背景从文本描述中转移。我们还展示了我们的模型对于在 MS-COCO 数据集上生成具有多个对象和可变背景的图像的普适性。我们的研究结果表明,我们的模型可以成功地应用于各种不同类型的文本描述,并且可以生成符合预期的高质量图像。
在未来的工作中,我们的目标是进一步扩大模型的规模以处理更高分辨率的图像,并添加更多类型的文本。通过进一步改进我们的模型,我们希望能够更好地理解文本和图像之间的关系,并提高文本到图像的综合效果。
原文地址: https://www.cveoy.top/t/topic/nLtn 著作权归作者所有。请勿转载和采集!