稳定扩散模型训练：数据集、过程和结果 - 中文 - 常规

训练训练数据模型开发者使用以下数据集来训练模型：LAION-5B和子集（详见下文）。训练数据进一步通过LAION的NSFW检测器进行过滤，使用'p_unsafe'得分为0.1（保守）。有关更多详细信息，请参见LAION-5B的NeurIPS 2022论文和有关该主题的审稿人讨论。

训练过程稳定扩散v2是一种潜在扩散模型，它将自动编码器与在自动编码器的潜在空间中训练的扩散模型相结合。在训练期间，

图像通过编码器进行编码，将图像转换为潜在表示。自动编码器使用相对下采样因子8，并将形状为H x W x 3的图像映射到形状为H/f x W/f x 4的潜在空间中。文本提示通过OpenCLIP-ViT/H文本编码器进行编码。文本编码器的输出通过交叉注意力输入到潜在扩散模型的UNet主干中。损失是潜在噪声添加到潜在空间中的重建目标与UNet所做的预测之间的重建目标。我们还使用所谓的v目标，请参见https://arxiv.org/abs/2202.00512。我们目前提供以下检查点：

512-base-ema.ckpt：在分辨率256x256上的LAION-5B的子集上进行了55万步的训练，过滤了明确的色情材料，使用LAION-NSFW分类器，punsafe=0.1，美学分数>=4.5。在分辨率>=512x512的相同数据集上进行了85万步的训练。

768-v-ema.ckpt：从512-base-ema.ckpt恢复，并在相同数据集上使用v目标进行了150k步的训练。在我们的数据集的768x768子集上恢复了另外140k步的训练。

512-depth-ema.ckpt：从512-base-ema.ckpt恢复，并进行了200k步的微调。添加了一个额外的输入通道来处理MiDaS（dpt_hybrid）产生的（相对）深度预测，该预测用作附加条件。处理此额外信息的U-Net的附加输入通道被初始化为零。

512-inpainting-ema.ckpt：从512-base-ema.ckpt恢复，并进行了另外200k步的训练。遵循LAMA中提出的掩模生成策略，与掩蔽图像的潜在VAE表示结合使用作为附加条件。处理此额外信息的U-Net的附加输入通道被初始化为零。相同的策略用于训练1.5-inpainting检查点。

x4-upscaling-ema.ckpt：在包含图像>2048x2048的LAION的10M子集上进行了125万步的训练。该模型在文本引导下进行潜在的上采样扩散模型。除了文本输入外，它还接收一个noise_level作为输入参数，可以根据预定义的扩散时间表将噪声添加到低分辨率输入中。

硬件：32 x 8 x A100 GPU

优化器：AdamW

梯度积累：1

批次：32 x 8 x 2 x 4 = 2048

学习率：热身到0.0001，进行10000步，然后保持不变

评估结果使用不同的无分类器引导尺度（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）和50步DDIM采样步骤进行的评估显示了检查点的相对改进：