基于扩散模型的虚拟画作生成器

我要开发同款
my麦呢2023年07月27日
149阅读
所属分类ai绘画

作品详情

最近计算机视觉的进展是由从互联网上收集的带标题的图像的大型数据集上的扩展模型推动的,在这个框架内,CLIP已经成为一个成功的图像表示学习者。CLIP embeddings有一些理想的特性:它们对图像分布的偏移是稳健的,有令人印象深刻的zero-shot能力,并已被微调以在各种视觉和语言任务上取得最先进的结果。 同时,扩散模型作为一个有前途的生成性建模框架出现,推动了图像和视频生成任务的最先进水平。 为了达到最佳效果,扩散模型利用了一种指导技术,它以样本的多样性为代价提高了样本的保真度对于图像来说,就是逼真度。 在这项工作中,我们将这两种方法结合起来,用于文本条件下的图像生成问题。我们首先训练一个扩散解码器来反转CLIP图像编码器,我们的反转器是非决定性的,可以产生对应于给定图像embedding的多个图像。编码器和它的近似反向(解码器)的存在允许超越文本到图像的翻译能力。编码器和它的近似反向(解码器)的存在允许超越文本到图像的翻译能力。正如在GAN反转中,对输入图像进行编码和解码会产生语义上相似的输出图像。我们还可以通过对输入图像的图像embeddings进行反转插值
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论