稳定扩散v2模型训练详解：数据集、过程和评估结果

日期: 2027-10-04
标签: 常规

训练训练数据：模型开发者使用以下数据集进行模型训练：LAION-5B和其子集（详见下文）。使用LAION的NSFW检测器对训练数据进行进一步筛选，筛选阈值为'p_unsafe'得分为0.1（保守）。有关更多详细信息，请参阅LAION-5B的NeurIPS 2022论文以及有关此主题的审稿人讨论。

训练过程：稳定扩散v2是一种潜在扩散模型，它将自编码器与在自编码器的潜在空间中训练的扩散模型相结合。在训练期间，

图像通过编码器进行编码，将图像转换为潜在表示。自编码器使用相对下采样因子8，将形状为H x W x 3的图像映射到形状为H/f x W/f x 4的潜在表示中。

文本提示通过OpenCLIP-ViT/H文本编码器进行编码。

文本编码器的输出通过交叉注意力传递到潜在扩散模型的UNet骨干网络中。

损失是噪声添加到潜在表示中产生的噪声和UNet预测之间的重构目标。我们还使用所谓的v目标，请参见https://arxiv.org/abs/2202.00512。

我们目前提供以下检查点：

512-base-ema.ckpt：在LAION-5B的子集上，经过过滤的显式色情材料，使用LAION-NSFW分类器，punsafe = 0.1和美学分数>= 4.5，在分辨率256x256下进行了550k步，在相同数据集上分辨率大于等于512x512的情况下进行了850k步。

768-v-ema.ckpt：从512-base-ema.ckpt恢复并在相同数据集上使用v目标进行了150k步。在我们的数据集的768x768子集上恢复了另外140k步。

512-depth-ema.ckpt：从512-base-ema.ckpt恢复并进行了200k步的微调。添加了一个额外的输入通道，用于处理MiDaS（dpt_hybrid）产生的（相对）深度预测，这是一种额外的条件。处理此额外信息的U-Net的附加输入通道被初始化为零。

512-inpainting-ema.ckpt：从512-base-ema.ckpt恢复并进行了另外200k步的训练。遵循LAMA中提出的掩码生成策略，结合掩码图像的潜在VAE表示，作为额外的条件使用。处理此额外信息的U-Net的附加输入通道被初始化为零。同样的策略用于训练1.5-inpainting检查点。

x4-upscaling-ema.ckpt：在包含图像> 2048x2048的LAION的10M子集上进行了1.25M步的训练。该模型是一个文本引导的潜在放大扩散模型。除了文本输入外，还接收一个噪声级别作为输入参数，可以根据预定义的扩散计划向低分辨率输入添加噪声。

硬件：32 x 8 x A100 GPU

优化器：AdamW

梯度累积：1

批次：32 x 8 x 2 x 4 = 2048

学习率：热身到0.0001，进行10000步，然后保持不变

评估结果使用不同的无分类器指导比例（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）和50步DDIM采样步骤进行评估显示出检查点的相对改进：

稳定扩散v2模型训练详解：数据集、过程和评估结果

原文地址: https://www.cveoy.top/t/topic/lfur 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录

上一篇: Python 矩阵乘法：10x20 矩阵乘以 20x30 矩阵
下一篇: 稳定扩散v2模型训练数据和过程详解