Stable Diffusion 限制与偏见：无法完美照片真实感、存在语言和文化偏差

限制和偏见

限制

该模型无法实现完美的照片级别真实感。
该模型无法渲染清晰可读的文本。
该模型在涉及组合性更难的任务上表现不佳，例如渲染与'一个红色立方体在蓝色球体上方'相对应的图像。
面部和人物可能无法正确生成。
该模型主要使用英语字幕进行训练，在其他语言中的表现不如英语。
该模型的自编码部分存在损失。
该模型是在包含成人、暴力和性内容的大规模数据集LAION-5B的子集上进行训练的。为了部分缓解这一问题，我们使用了LAION的NFSW检测器来过滤数据集（请参见训练部分）。

偏见

虽然图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏见。Stable Diffusion vw主要是在LAION-2B（en）的子集上进行训练的，该数据集包含仅限于英语描述的图像。来自使用其他语言的社区和文化的文本和图像可能会被不充分考虑。这会影响模型的整体输出，因为白人和西方文化通常被设置为默认值。此外，模型生成非英语提示内容的能力明显不如生成英语提示内容。Stable Diffusion v2反映和加剧了偏见，以至于无论输入或其意图如何，都必须建议观众自行决定。