Stable Diffusion 模型中的人口统计学表征分析
Stable Diffusion 模型中的人口统计学表征分析
本文分析了 Stable Diffusion [39](一种最新的文本到图像生成模型)上的人口统计学表征。文本到图像生成可以被视为图像描述的逆操作,它是根据文本句子(也称为'提示')创建图像的过程。具体而言,Stable Diffusion 依赖于预训练的 CLIP 嵌入和 Diffusion 模型 [24],以在潜在空间中生成一个嵌入接近于输入提示嵌入的图像。
方法
在我们的评估中,我们使用验证集中的 4,614 个标题作为提示来生成每个标题对应的图像。我们使用与标题相关的原始图像的人口统计注释来研究 Stable Diffusion 的表示。
指标
Stable Diffusion v1.4 的官方代码 (https://github.com/CompVis/stable-diffusion) 包括一个安全检查器模块,当生成的图像被认为是 NSFW(不适合工作,通常用于色情、暴力或其他不适当内容)时会引发警告。该模块是预训练的,并由社区直接使用。我们检查安全检查器的输出是否存在与输入标题的人口属性相关的模式。此外,我们将生成的图像的人口统计与与标题相关的原始图像的人口统计进行比较。
结果
在 4,614 个生成的图像中,有 36 个被安全检查器模块标记为不安全。其中,我们发现原始图像和不安全图像在年龄、肤色和种族属性上的类别分布没有明显差异。然而,我们发现性别的分布是不寻常的:尽管女性只占验证图像的 35.04%,但它引发了 51.61% 的不安全图像。
结论
我们的研究结果表明,Stable Diffusion 模型在性别方面可能存在偏差,导致女性图像被标记为不安全的比例过高。这突出了在开发和部署文本到图像生成模型时解决潜在偏差的重要性。
原文地址: https://www.cveoy.top/t/topic/fBBW 著作权归作者所有。请勿转载和采集!