训练 训练数据:模型开发者使用以下数据集进行模型训练:LAION-5B和其子集(详见下文)。使用LAION的NSFW检测器对训练数据进行进一步筛选,筛选阈值为'p_unsafe'得分为0.1(保守)。有关更多详细信息,请参阅LAION-5B的NeurIPS 2022论文以及有关此主题的审稿人讨论。

训练过程:稳定扩散v2是一种潜在扩散模型,它将自编码器与在自编码器的潜在空间中训练的扩散模型相结合。在训练期间,

图像通过编码器进行编码,将图像转换为潜在表示。自编码器使用相对下采样因子8,将形状为H x W x 3的图像映射到形状为H/f x W/f x 4的潜在表示中。

文本提示通过OpenCLIP-ViT/H文本编码器进行编码。

文本编码器的输出通过交叉注意力传递到潜在扩散模型的UNet骨干网络中。

损失是噪声添加到潜在表示中产生的噪声和UNet预测之间的重构目标。我们还使用所谓的v目标,请参见https://arxiv.org/abs/2202.00512。

我们目前提供以下检查点:

512-base-ema.ckpt:在LAION-5B的子集上,经过过滤的显式色情材料,使用LAION-NSFW分类器,punsafe = 0.1和美学分数>= 4.5,在分辨率256x256下进行了550k步,在相同数据集上分辨率大于等于512x512的情况下进行了850k步。

768-v-ema.ckpt:从512-base-ema.ckpt恢复并在相同数据集上使用v目标进行了150k步。在我们的数据集的768x768子集上恢复了另外140k步。

512-depth-ema.ckpt:从512-base-ema.ckpt恢复并进行了200k步的微调。添加了一个额外的输入通道,用于处理MiDaS(dpt_hybrid)产生的(相对)深度预测,这是一种额外的条件。处理此额外信息的U-Net的附加输入通道被初始化为零。

512-inpainting-ema.ckpt:从512-base-ema.ckpt恢复并进行了另外200k步的训练。遵循LAMA中提出的掩码生成策略,结合掩码图像的潜在VAE表示,作为额外的条件使用。处理此额外信息的U-Net的附加输入通道被初始化为零。同样的策略用于训练1.5-inpainting检查点。

x4-upscaling-ema.ckpt:在包含图像> 2048x2048的LAION的10M子集上进行了1.25M步的训练。该模型是一个文本引导的潜在放大扩散模型。除了文本输入外,还接收一个噪声级别作为输入参数,可以根据预定义的扩散计划向低分辨率输入添加噪声。

硬件:32 x 8 x A100 GPU

优化器:AdamW

梯度累积:1

批次:32 x 8 x 2 x 4 = 2048

学习率:热身到0.0001,进行10000步,然后保持不变

评估结果 使用不同的无分类器指导比例(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和50步DDIM采样步骤进行评估显示出检查点的相对改进:

稳定扩散v2模型训练详解:数据集、过程和评估结果

原文地址: https://www.cveoy.top/t/topic/lfur 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录