Stable Diffusion v2 模型卡片：用于生成和修改图像的文本到图像模型

该模型卡片关注的是与稳定扩散 v2 模型相关的模型，该模型可在此处找到。

这个稳定扩散 2 深度模型是从稳定扩散 2 基础模型 (512-base-ema.ckpt) 恢复，经过 200k 步的微调。增加了一个额外的输入通道来处理由 MiDaS (dpt_hybrid) 产生的（相对）深度预测，作为额外的调节。

使用 stablediffusion 存储库：在此处下载 512-depth-ema.ckpt。使用 🧨 扩散器

模型详细信息开发者：Robin Rombach，Patrick Esser

模型类型：基于扩散的文本到图像生成模型

语言：英语

许可证：CreativeML Open RAIL++-M 许可证

模型描述：这是一个可以根据文本提示生成和修改图像的模型。它是一个潜在扩散模型，使用固定的、预先训练的文本编码器 (OpenCLIP-ViT/H)。

获取更多信息的资源：GitHub 存储库。

引用方式：

@InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

示例使用 🤗 的 Diffusers 库以简单高效的方式运行 Stable Diffusion 2。

pip install -U git+https://github.com/huggingface/transformers.git pip install diffusers transformers accelerate scipy safetensors

运行管道 (如果您不交换调度程序，它将使用默认的 DDIM 运行，在本例中，我们将其交换为 EulerDiscreteScheduler)：

import torch import requests from PIL import Image from diffusers import StableDiffusionDepth2ImgPipeline

pipe = StableDiffusionDepth2ImgPipeline.from_pretrained( 'stabilityai/stable-diffusion-2-depth', torch_dtype=torch.float16, ).to('cuda')

url = 'http://images.cocodataset.org/val2017/000000039769.jpg' init_image = Image.open(requests.get(url, stream=True).raw)

prompt = 'two tigers' n_propmt = 'bad, deformed, ugly, bad anotomy' image = pipe(prompt=prompt, image=init_image, negative_prompt=n_propmt, strength=0.7).images[0]

注意：

尽管不是依赖项，但我们强烈建议您安装 xformers 以实现内存高效的注意力 (更好的性能) 如果您的 GPU RAM 可用空间较低，请确保在将其发送到 cuda 后添加 pipe.enable_attention_slicing()，以减少 VRAM 使用 (以速度为代价)

用途直接使用该模型仅用于研究目的。可能的研究领域和任务包括

部署具有生成有害内容潜力的模型的安全性。探索和理解生成模型的局限性和偏见。生成艺术作品并在设计和其他艺术过程中使用。在教育或创意工具中应用。生成模型的研究。下面描述了排除使用。

滥用、恶意使用和超出范围的使用注意：本节最初取自 DALLE-MINI 模型卡片，用于稳定扩散 v1，但同样适用于稳定扩散 v2。

该模型不应用于有意创造或传播会对人造成敌意或疏远环境的图像。这包括生成人们预见到会感到不安、痛苦或冒犯的图像，或者传播历史或当前的刻板印象的内容。

超出范围的使用该模型没有被训练成人或事件的真实表示，因此使用该模型生成此类内容超出了该模型的能力范围。

滥用和恶意使用使用该模型生成对个人残酷的内容是对该模型的滥用。这包括但不限于：

生成贬低、贬低或以其他方式有害的人或其环境、文化、宗教等的代表。有意宣传或传播歧视性内容或有害的刻板印象。未经个人同意冒充个人。未经可能看到的人的同意的性内容。误导和虚假信息严重暴力和血腥的表现共享受版权或许可的材料，违反其使用条款。共享侵犯版权或许可的材料的内容，违反其使用条款。

局限性和偏见局限性该模型不能实现完美的照片真实性该模型无法渲染可读的文本该模型在涉及组合性的更困难的任务上表现不佳，例如渲染与“一个红色的立方体在一个蓝色的球体上方”相对应的图像。脸部和人物总体上可能无法正确生成。该模型主要使用英文标题进行训练，在其他语言中的效果不如英文标题。该模型的自动编码部分是有损的。该模型是在包含成人、暴力和性内容的大规模数据集 LAION-5B 的子集上进行训练的。为了部分缓解这个问题，我们使用了 LAION 的 NFSW 检测器对数据集进行了过滤 (请参见训练部分)。

偏见尽管图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏见。稳定扩散 vw 主要是在 LAION-2B(en) 的子集上进行训练的，该子集包含受限于英语描述的图像。来自使用其他语言的社区和文化的文本和图像可能不足以被考虑。这会影响模型的整体输出，因为白色和西方文化通常被设置为默认值。此外，模型生成非英语提示内容的能力明显低于英语提示。稳定扩散 v2 反映并加剧了这种偏见，以至于无论输入或意图如何，都需要谨慎查看。

训练训练数据模型开发者使用以下数据集来训练模型：

LAION-5B 和子集 (详细信息如下)。训练数据使用 LAION 的 NSFW 检测器进行进一步过滤，'p_unsafe' 得分为 0.1 (保守)。有关更多详细信息，请参阅 LAION-5B 的 NeurIPS 2022 论文以及有关该主题的审稿人讨论。

训练过程稳定扩散 v2 是一种潜在扩散模型，它将自动编码器与在自动编码器的潜在空间中训练的扩散模型结合起来。在训练期间，

图像通过编码器进行编码，将图像转换为潜在表示。自动编码器使用 8 的相对降采样因子，并将形状为 H x W x 3 的图像映射到形状为 H/f x W/f x 4 的潜在表示文本提示通过 OpenCLIP-ViT/H 文本编码器进行编码。文本编码器的输出通过交叉注意馈送到潜在扩散模型的 UNet 主干网络中。损失是添加到潜在表示中的噪声与 UNet 做出的预测之间的重建目标。我们还使用所谓的 v-目标，请参见 https://arxiv.org/abs/2202.00512。

我们目前提供以下检查点：

512-base-ema.ckpt：在 LAION-5B 的子集上使用 punsafe=0.1 和美学分数 >= 4.5 的 LAION-NSFW 分类器，对显式色情材料进行过滤，在 256x256 分辨率下进行 550k 步训练。在分辨率 >= 512x512 的相同数据集上以 512x512 分辨率进行 850k 步训练。

768-v-ema.ckpt：从 512-base-ema.ckpt 恢复，使用相同数据集的 v-目标进行 150k 步训练。在数据集的 768x768 子集上继续进行 140k 步训练。

512-depth-ema.ckpt：从 512-base-ema.ckpt 恢复，并经过 200k 步的微调。增加了一个额外的输入通道来处理由 MiDaS (dpt_hybrid) 产生的 (相对) 深度预测，作为额外的调节。处理此额外信息的 UNet 的额外输入通道被初始化为零。

512-inpainting-ema.ckpt：从 512-base-ema.ckpt 恢复，并经过 200k 步的训练。遵循 LAMA 中提出的掩码生成策略，该策略结合了掩码图像的潜在 VAE 表示，作为额外的调节。处理此额外信息的 UNet 的额外输入通道被初始化为零。相同的策略用于训练 1.5-inpainting 检查点。

x4-upscaling-ema.ckpt：在包含 >2048x2048 图像的 LAION 10M 子集上经过 1.25M 步训练。该模型在 512x512 大小的裁剪上进行训练，是一个文本引导的潜在上采样扩散模型。除了文本输入外，它还接收 noise_level 作为输入参数，可用于根据预定义的扩散时间表向低分辨率输入添加噪声。

硬件：32 x 8 x A100 GPU

优化器：AdamW

梯度累积：1

批次：32 x 8 x 2 x 4 = 2048

学习率：在 10,000 步内预热至 0.0001，然后保持不变

评估结果使用不同的无分类器引导比例 (1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0) 和 50 步 DDIM 采样步长进行评估，显示了检查点的相对改进：

pareto

使用 50 步 DDIM 和来自 COCO2017 验证集的 10000 个随机提示进行评估，在 512x512 分辨率下进行评估。未针对 FID 分数进行优化。

环境影响稳定扩散 v1 估计排放根据这些信息，我们使用 Lacoste 等人 (2019) 中提出的机器学习影响计算器估计以下 CO2 排放量。硬件、运行时间、云提供商和计算区域用于估计碳影响。

硬件类型：A100 PCIe 40GB

使用的小时数：200000

云提供商：AWS

计算区域：US-east

排放的碳 (功耗 x 时间 x 基于电网位置产生的碳)：15000 公斤二氧化碳当量

引用 @InProceedings{Rombach_2022_CVPR, author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj"orn}, title = {High-Resolution Image Synthesis With Latent Diffusion Models}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2022}, pages = {10684-10695} }

该模型卡片由 Robin Rombach、Patrick Esser 和 David Ha 撰写，并基于

Stable Diffusion v2 模型卡片：用于生成和修改图像的文本到图像模型