单图可控3D头像生成

我要开发同款
匿名用户2024年07月31日
32阅读
所属分类ai、3D_reconstruction、Pytorch、SIGGRAPH2023、neural radiance fiel、可控生成、3D生成、lp3d、EG3D、3D reconstructions
开源地址https://modelscope.cn/models/iic/cv_vit_image-control-3d-portrait-synthesis
授权协议Apache License 2.0

作品详情

单图可控3D头像生成

论文 | 项目主页

本模型为SIGGRAPH2023论文"Real-Time Radiance Fields for Single-Image Portrait View Synthesis"的非官方代码实现,依托于EG3D预训练模型的强大生成能力,只需要单张人脸图像的输入,即可实时可控的生成具有3D感知的多视角图像和该输入图像的三维几何结果。

生成效果

模型描述

该模型提出了一个前向encoder网络,学习一个图像到triplane三维表征的映射,从而能够实现实时前向推理。该网络基于视觉transformer,并对高低维特征进行了融合,保证了图像到3D表征学习的准确性。 模型训练无需生成伪多视觉的图像进行监督,而是利用EG3D生成的多视觉合成数据作为监督信息,极大降低了模型训练成本。

模型结构

使用方式和范围

使用范围:

  • 适用于包含人脸的人像照片,人脸分辨率大于256x256。
  • 正脸或小角度侧脸图像,脸部区域无遮挡。
  • 部分支持具有写实风格的人脸风格化图像作为输入。

目标场景:

  • 影视,娱乐等场景

运行环境:

  • 支持GPU推理。

如何使用

在ModelScope框架上,只需输入单张图像,即可以通过简单的Pipeline调用来得到根据输入图预测的3d结果,默认返回多视角渲染视频,如需返回多视角图像和预测的几何mesh(.ply),可以在configuration配置文件中分别将saveimages和saveshape参数设置为true。

代码实例

import os
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks


image_control_3d_portrait = pipeline(
    Tasks.image_control_3d_portrait,
    model='damo/cv_vit_image-control-3d-portrait-synthesis',
)

test_image = 'data/test/images/image_control_3d_portrait.jpg'
save_dir = './results'
os.makedirs(save_dir, exist_ok=True)

image_control_3d_portrait(
    dict(image=test_image, save_dir=save_dir))
print('finished!')
### render results will be saved in save_dir

模型局限性以及可能的偏差

  • 建议输入正面头像进行推理,输入偏侧角度的人像可能导致展示效果不佳,此时需要用户自定义采样输出的camera信息以获取合理结果。
  • 分辨率过小时可能会导致生成结果精度较差、纹理不清晰。
  • 对于脸部存在遮挡的情况,生成效果可能不理想。

预处理

  • 人脸区域提取&对齐(遵循EG3D数据预处理方式),得到512x512大小的图像用于模型推理。

后处理

  • 将预测的3维几何信息输出为ply文件,将多视角图像进行采样并和成video进行保存。

相关工作

@inproceedings{trevithick2023,
  author = {Alex Trevithick and Matthew Chan and Michael Stengel and Eric R. Chan and Chao Liu and Zhiding Yu and Sameh Khamis and Manmohan Chandraker and Ravi Ramamoorthi and Koki Nagano},
  title = {Real-Time Radiance Fields for Single-Image Portrait View Synthesis},
  booktitle = {ACM Transactions on Graphics (SIGGRAPH)},
  year = {2023}
}

@inproceedings{Chan2022,
  author = {Eric R. Chan and Connor Z. Lin and Matthew A. Chan and Koki Nagano and Boxiao Pan and Shalini De Mello and Orazio Gallo and Leonidas Guibas and Jonathan Tremblay and Sameh Khamis and Tero Karras and Gordon Wetzstein},
  title = {Efficient Geometry-aware {3D} Generative Adversarial Networks},
  booktitle = {CVPR},
  year = {2022}
}
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论