Latent Diffusion Models 高分辨率图像合成训练工具开源项目

我要开发同款
匿名用户2022年04月15日
64阅读
开发技术Python
所属分类人工智能、计算机视觉库/人脸识别
授权协议MIT

作品详情

潜在扩散模型(LDM)是一项高分辨率图像合成训练工具,它在图像修复和各种任务(包括无条件图像生成、语义场景合成和超分辨率)上实现了高度竞争的性能,同时与基于像素的DM相比显着降低了计算要求。

通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型(DM)在图像数据及其他数据上实现了最先进的合成结果。然而,由于这些扩散模型通常直接在像素空间中运行,强大的DM的优化通常会消耗数百个GPU天数,并且由于顺序评估,推理成本很高。为了在有限的计算资源上启用DM训练,同时保持它们的质量和灵活性,LDM将模型应用在强大的预训练自编码器的潜在空间中。

在这种基础上训练扩散模型,首次允许在降低复杂性和保留细节之间达到近乎最佳的点,从而大大提高了视觉保真度。通过在模型架构中引入交叉注意力层,可将扩散模型转变为强大而灵活的生成器,用于一般条件输入(例如文本或边界框),并且以卷积方式进行高分辨率图像合成成为可能。

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论