ruDALL-E是一个可以根据文本自动生成图像的工具。基于简短的文本描述,ruDALL-E可以生成关于各种主题和主题的明亮多彩的图像。该模型理解广泛的概念,并生成现实世界中不存在的全新图像和对象。
其目标是创建一个“多模态”神经网络,以多种模态学习概念,主要是在文本和视觉领域,以便更好地理解世界。转换器被教导将文本和图像标记作为单个数据流进行自回归建模。
fromrudalle.pipelinesimportgenerate_images,show,super_resolution,cherry_pick_by_clipfromrudalleimportget_rudalle_model,get_tokenizer,get_vae,get_realesrgan,get_ruclipfromrudalle.utilsimportseed_everything#preparemodels:device='cuda'dalle=get_rudalle_model('Malevich',pretrained=True,fp16=True,device=device)tokenizer=get_tokenizer()vae=get_vae(dwt=True).to(device)#pipelineutils:realesrgan=get_realesrgan('x2',device=device)ruclip,ruclip_processor=get_ruclip('ruclip-vit-base-patch32-v5')ruclip=ruclip.to(device)text='изображениерадугинафоненочногогорода'seed_everything(42)pil_images=[]scores=[]fortop_k,top_p,images_numin[(2048,0.995,3),(1536,0.99,3),(1024,0.99,3),(1024,0.98,3),(512,0.97,3),(384,0.96,3),(256,0.95,3),(128,0.95,3),]:_pil_images,_scores=generate_images(text,tokenizer,dalle,vae,top_k=top_k,images_num=images_num,top_p=top_p)pil_images+=_pil_imagesscores+=_scoresshow(pil_images,6)
评论