潜在扩散模型(LDM)是一项高分辨率图像合成训练工具,它在图像修复和各种任务(包括无条件图像生成、语义场景合成和超分辨率)上实现了高度竞争的性能,同时与基于像素的DM相比显着降低了计算要求。
通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型(DM)在图像数据及其他数据上实现了最先进的合成结果。然而,由于这些扩散模型通常直接在像素空间中运行,强大的DM的优化通常会消耗数百个GPU天数,并且由于顺序评估,推理成本很高。为了在有限的计算资源上启用DM训练,同时保持它们的质量和灵活性,LDM将模型应用在强大的预训练自编码器的潜在空间中。
在这种基础上训练扩散模型,首次允许在降低复杂性和保留细节之间达到近乎最佳的点,从而大大提高了视觉保真度。通过在模型架构中引入交叉注意力层,可将扩散模型转变为强大而灵活的生成器,用于一般条件输入(例如文本或边界框),并且以卷积方式进行高分辨率图像合成成为可能。
评论