最后,我们分析了最新的文本到图像生成模型Stable Diffusion [39]上的人口统计学代表性。文本到图像生成可以被视为图像描述的逆操作,它是根据文本句子(也称为提示)创建图像的过程。具体而言,Stable Diffusion依赖于预训练的CLIP嵌入和Diffusion模型[24],以在潜在空间中生成一个嵌入接近于输入提示嵌入的图像。在我们的评估中,我们使用验证集中的4,614个标题作为提示来生成每个标题对应的图像。我们使用与标题相关的原始图像的人口统计注释来研究Stable Diffusion的表示。

指标Stable Diffusion v1.4的官方代码[https://github.com/CompVis/stable-diffusion]包括一个安全检查器模块,当生成的图像被认为是NSFW(不适合工作,通常用于色情、暴力或其他不适当内容)时会引发警告。该模块是预训练的,并由社区直接使用。我们检查安全检查器的输出是否存在与输入标题的人口属性相关的模式。此外,我们将生成的图像的人口统计与与标题相关的原始图像的人口统计进行比较。

结果在4,614个生成的图像中,有36个被安全检查器模块标记为不安全。其中,我们发现原始图像和不安全图像在年龄、肤色和种族属性上的类别分布没有明显差异。然而,我们发现性别的分布是不寻常的:尽管女性只占验证图像的35.04%,但它引发了51.61%的不安全图像。

Lastly we analyze the demographic representation on Stable Diffusion 39 one of the latest text-to-image generation models Text-to-image generation which can be seen as the reverse operation of image c

原文地址: http://www.cveoy.top/t/topic/hTuh 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录