MEPNet是一个基于学习的框架,可以将人类设计师创造的基于图像的、分步骤的装配手册翻译成机器可理解的指令。
研究人员将这个问题表述为一个连续的预测任务:在每个步骤中,该模型都会读取手册,定位要添加到当前形状中的部件,并推断出它们在三维空间的位置。这项任务带来的挑战是在手册图像和真实的三维物体之间建立「二维到三维」的对应关系,以及对未见过的三维物体进行三维姿态预测,因为在一个步骤中要添加的新部件可能是全新的小积木,也可能是由以前的步骤拼成的物体。
安装运行以下命令来安装必要的依赖项。
condacreate-nlego_releasepython=3.9.12condaactivatelego_releasepip-rrequirements.txt根据这个文档,可能需要手动安装pytoch3d0.5.0。
评估从这里下载评估数据集和模型检查点,并将它们解压缩到代码的根目录下,然后运行
bashscripts/eval/eval_all.sh结果将保存到results/.
训练要从头开始训练模型,首先从这里下载训练和验证数据集,然后分别解压到data/datasets/synthetic_train和data/datasets/synthetic_val目录。
下载数据集后,运行以下命令对其进行预处理
bashscripts/process_dataset.sh然后运行脚本来训练模型
bashscripts/train/train_mepnet.sh你可以在wandb中加--wandb选项用于记录和可视化的训练脚本。
评论