单图可控3D头像生成
论文 | 项目主页
本模型为SIGGRAPH2023论文"Real-Time Radiance Fields for Single-Image Portrait View Synthesis"的非官方代码实现,依托于EG3D预训练模型的强大生成能力,只需要单张人脸图像的输入,即可实时可控的生成具有3D感知的多视角图像和该输入图像的三维几何结果。
模型描述
该模型提出了一个前向encoder网络,学习一个图像到triplane三维表征的映射,从而能够实现实时前向推理。该网络基于视觉transformer,并对高低维特征进行了融合,保证了图像到3D表征学习的准确性。 模型训练无需生成伪多视觉的图像进行监督,而是利用EG3D生成的多视觉合成数据作为监督信息,极大降低了模型训练成本。
使用方式和范围
使用范围:
- 适用于包含人脸的人像照片,人脸分辨率大于256x256。
- 正脸或小角度侧脸图像,脸部区域无遮挡。
- 部分支持具有写实风格的人脸风格化图像作为输入。
目标场景:
- 影视,娱乐等场景
运行环境:
- 支持GPU推理。
如何使用
在ModelScope框架上,只需输入单张图像,即可以通过简单的Pipeline调用来得到根据输入图预测的3d结果,默认返回多视角渲染视频,如需返回多视角图像和预测的几何mesh(.ply),可以在configuration配置文件中分别将saveimages和saveshape参数设置为true。
代码实例
import os
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
image_control_3d_portrait = pipeline(
Tasks.image_control_3d_portrait,
model='damo/cv_vit_image-control-3d-portrait-synthesis',
)
test_image = 'data/test/images/image_control_3d_portrait.jpg'
save_dir = './results'
os.makedirs(save_dir, exist_ok=True)
image_control_3d_portrait(
dict(image=test_image, save_dir=save_dir))
print('finished!')
### render results will be saved in save_dir
模型局限性以及可能的偏差
- 建议输入正面头像进行推理,输入偏侧角度的人像可能导致展示效果不佳,此时需要用户自定义采样输出的camera信息以获取合理结果。
- 分辨率过小时可能会导致生成结果精度较差、纹理不清晰。
- 对于脸部存在遮挡的情况,生成效果可能不理想。
预处理
- 人脸区域提取&对齐(遵循EG3D数据预处理方式),得到512x512大小的图像用于模型推理。
后处理
- 将预测的3维几何信息输出为ply文件,将多视角图像进行采样并和成video进行保存。
相关工作
@inproceedings{trevithick2023,
author = {Alex Trevithick and Matthew Chan and Michael Stengel and Eric R. Chan and Chao Liu and Zhiding Yu and Sameh Khamis and Manmohan Chandraker and Ravi Ramamoorthi and Koki Nagano},
title = {Real-Time Radiance Fields for Single-Image Portrait View Synthesis},
booktitle = {ACM Transactions on Graphics (SIGGRAPH)},
year = {2023}
}
@inproceedings{Chan2022,
author = {Eric R. Chan and Connor Z. Lin and Matthew A. Chan and Koki Nagano and Boxiao Pan and Shalini De Mello and Orazio Gallo and Leonidas Guibas and Jonathan Tremblay and Sameh Khamis and Tero Karras and Gordon Wetzstein},
title = {Efficient Geometry-aware {3D} Generative Adversarial Networks},
booktitle = {CVPR},
year = {2022}
}
评论