稳定扩散v2模型训练详解:数据、过程、检查点和评估
训练 训练数据:模型开发者使用以下数据集进行模型训练:LAION-5B和其子集(详见下文)。通过LAION的NSFW检测器对训练数据进行进一步筛选,使用'p_unsafe'得分为0.1(保守)。更多详情请参考LAION-5B的NeurIPS 2022论文以及有关此主题的审稿人讨论。 训练过程:稳定扩散v2是一种潜在扩散模型,它将自动编码器与在自动编码器的潜在空间中训练的扩散模型相结合。在训练过程中:
图像通过编码器进行编码,将图像转换为潜在表示。自动编码器使用相对降采样因子8,将形状为H x W x 3的图像映射到形状为H/f x W/f x 4的潜在空间中。 文本提示通过OpenCLIP-ViT/H文本编码器进行编码。 文本编码器的输出通过交叉注意力被馈送到潜在扩散模型的UNet骨干网络中。 损失是潜在空间中添加的噪声与UNet进行的预测之间的重构目标。我们还使用所谓的v-objective,详见https://arxiv.org/abs/2202.00512。 我们目前提供以下检查点:
512-base-ema.ckpt:在LAION-5B的一个子集上,分辨率为256x256,使用LAION-NSFW分类器进行了过滤,过滤掉了明确的色情材料,使用punsafe=0.1和美学得分>=4.5进行了训练,共进行了550k步。在相同的数据集上,分辨率>=512x512,进行了850k步训练。
768-v-ema.ckpt:从512-base-ema.ckpt恢复并在相同数据集上使用v-objective进行了150k步训练。在我们数据集的768x768子集上进行了另外140k步的继续训练。
512-depth-ema.ckpt:从512-base-ema.ckpt恢复并进行了200k步的微调。添加了一个额外的输入通道,用于处理MiDaS(dpt_hybrid)产生的(相对)深度预测,作为额外的条件。处理这些额外信息的U-Net的额外输入通道被初始化为零。
512-inpainting-ema.ckpt:从512-base-ema.ckpt恢复并进行了另外200k步的训练。采用LAMA中提出的遮罩生成策略,与遮罩图像的潜在VAE表示相结合,作为额外的条件。处理这些额外信息的U-Net的额外输入通道被初始化为零。相同的策略用于训练1.5-inpainting检查点。
x4-upscaling-ema.ckpt:在包含分辨率>2048x2048的图像的LAION的10M子集上进行了1.25M步的训练。该模型是一个文本引导的潜在上采样扩散模型。除了文本输入外,它还接收一个noise_level作为输入参数,可以根据预定义的扩散计划向低分辨率输入添加噪声。
硬件:32 x 8 x A100 GPU
优化器:AdamW
梯度积累:1
批次:32 x 8 x 2 x 4 = 2048
学习率:热身到0.0001,进行10000步,然后保持不变
评估结果 使用不同的无分类器引导比例(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和50步DDIM采样步骤进行评估,显示了检查点的相对改进:
原文地址: https://www.cveoy.top/t/topic/lfup 著作权归作者所有。请勿转载和采集!