翻译In this work we developed a simple and effective model for generating images based on detailed visual descriptions We demonstrated that the model can synthesize many plausible visual interpretations

日期: 2025-07-25

标签: 科技

在这项工作中，我们开发了一个简单而有效的模型，用于基于详细的视觉描述生成图像。我们展示了该模型可以合成许多可能的图像解释给定文本标题。我们的流形插值正则化器在CUB上显著提高了文本到图像的综合效果。我们展示了风格和内容的解耦以及鸟类姿势和背景从查询图像转移到文本描述。最后，我们展示了我们的方法对于在MS-COCO数据集上生成具有多个对象和可变背景的图像的普适性。在未来的工作中，我们的目标是进一步扩大模型的规模以处理更高分辨率的图像，并添加更多类型的文本。

原文地址: http://www.cveoy.top/t/topic/dTRn 著作权归作者所有。请勿转载和采集!