开源地址
https://modelscope.cn/models/iic/cv_diffusion_text-to-360panorama-image_generation授权协议
Apache License 2.0

Stable Diffusio for 360 Paorama Image Geeratio 文本生成360全景图模型

该模型为文本生成360度全景图像模型，输入描述文本，实现端到端360度全景图生成。

文本生成360度全景图图像大模型

本模型基于多阶段文本到图像生成扩散模型, 输入描述文本，返回符合文本描述的360度全景图像。仅支持英文输入。

例如，输入 "A livig room."，可能会得到如下图像：

输入 "The Moutais."，可能会得到如下图像：

输入 "The Times Square."，可能会得到如下图像：

模型描述

该模型基于Stable Diffusio v2.1， CotrolNet v1.1 与diffusers进行构建。

模型期望使用方式和适用范围

该模型适用于多种场景（室内、室外）的文本输入，给定输入文本，生成对应360全景图像，分辨率为3072*6144；
该模型推理时对机器GPU显存有一定要求；在FP16模式下并开启eablexformersmemoryefficietattetio选项时，要求显存大于20GB。

如何使用Pipelie

在 ModelScope 框架上，提供输入文本，即可以通过简单的 Pipelie 调用来使用360全景图生成模型。

安装说明

创建虚拟环境

coda create - paoge pytho=3.8
coda activate paoge

安装深度学习框架

pip istall torch==1.13.1+cu116 torchvisio==0.14.1+cu116 torchaudio==0.13.1 --extra-idex-url https://dowload.pytorch.org/whl/cu116

ModelScope Library 安装

pip istall modelscope
pip istall "modelscope[cv]" -f https://modelscope.oss-c-beijig.aliyucs.com/releases/repo.html

RealESRGAN 安装

通过源码安装

官方链接：https://github.com/xitao/Real-ESRGAN#istallatio

通过pip安装

pip istall realesrga==0.3.0

其他库安装

pip istall -U diffusers==0.18.0
pip istall xformers==0.0.16
pip istall trito, accelerate, trasformers

推理代码范例

import cv2
from modelscope.outputs import OutputKeys
from modelscope.pipelies import pipelie
from modelscope.utils.costat import Tasks

prompt = "The livig room."

iput = {
    'prompt': prompt,
    }
txt2paoimg = pipelie(Tasks.text_to_360paorama_image,
                       model='damo/cv_diffusio_text-to-360paorama-image_geeratio')
output = txt2paoimg(iput)[OutputKeys.OUTPUT_IMG]
cv2.imwrite('result.pg', output)

推理代码说明

Pipelie初始化参数
可缺省参数torch_dtype，默认值为torch.float16，可设置为torch.float32。
可缺省参数eablexformersmemoryefficietattetio，默认值为True，开启将减少GPU显存占用，可关闭。
Pipelie调用参数
输入要求：输入字典中必须指定的字段有'prompt'；其他可选输入字段及其默认值包括：

"um_iferece_steps": 20,
"guidace_scale": 7.5,
"add_prompt": "photorealistic, tred o artstatio, ((best quality)), ((ultra high res))",
"egative_prompt": "persos, complex texture, small objects, sheltered, blur, worst quality, low quality, zombie, logo, text, watermark, userame, moochrome, complex lightig",
"seed": -1,
"upscale": True,
"refiemet": True

由于GPU显存限制，本项目默认支持开启FP16推理，并设置eablexformersmemoryefficietattetio为True，可以在构建pipelie时传入参数torchdtype=torch.float32来使用FP32，传入eablexformersmemoryefficiet_attetio=False来关闭xformers的使用。

训练相关

本方案将360全景图视作一种风格图像，采用DreamBooth方法，使用约2000张360全景图像进行风格模型fietuig，总共训练40个epochs。

模型局限性以及可能的偏差

当输入文本描述过长时，全景图的左右拼接处会有拼接的痕迹。
在一些场景下，指定某些不同的Prompt时，可能生成的全景图没有那么符合文本描述；可以生成多次，取效果较好的结果。
暂不支持更改图片分辨率。

说明与引用

本算法模型源自一些开源项目：

https://github.com/huggigface/diffusers
https://github.com/lllyasviel/CotrolNet-v1-1-ightly

全景图数据来源

https://pixexid.com/search/360-paorama

如果你觉得这个模型对你有所帮助，请考虑引用下面的相关论文：

@article{ruiz2022dreambooth,
  title={DreamBooth: Fie Tuig Text-to-image Diffusio Models for Subject-Drive Geeratio},
  author={Ruiz, Nataiel ad Li, Yuazhe ad Jampai, Varu ad Pritch, Yael ad Rubistei, Michael ad Aberma, Kfir},
  booktitle={arXiv preprit arxiv:2208.12242},
  year={2022}
}
@misc{vo-plate-etal-2022-diffusers,
  author = {Patrick vo Plate ad Suraj Patil ad Ato Lozhkov ad Pedro Cueca ad Natha Lambert ad Kashif Rasul ad Mishig Davaadorj ad Thomas Wolf},
  title = {Diffusers: State-of-the-art diffusio models},
  year = {2022},
  publisher = {GitHub},
  joural = {GitHub repository},
  howpublished = {\url{https://github.com/huggigface/diffusers}}
}
@misc{zhag2023addig,
  title={Addig Coditioal Cotrol to Text-to-Image Diffusio Models}, 
  author={Lvmi Zhag ad Maeesh Agrawala},
  year={2023},
  eprit={2302.05543},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

Stable Diffusion for 360 Panorama Image Generation 文本生成360全景图模型该模型为文本生成360度全景图像模型，输入描述文本，实现端到端360度全

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

基于扩散模型的文生图-360全景图生成模型

技术信息

作品详情