当前位置:首页 > 工业用地 >2d图像转3d模型(2d图像转3d图形)

2d图像转3d模型(2d图像转3d图形)

背景

利用NeRF提供的可微渲染算法,3D生成算法,如EG3D和StyleSDF,在静态物体类别的生成方面取得了非常好的效果。然而,与人脸或CAD模型等类别相比,人体在外观和几何形状上更加复杂,并且人体是可变形的,因此学习从2D图像生成3D人体仍然是一项非常困难的任务。研究人员在这个任务上做了一些尝试,比如ENARF-GAN和GNARF,但受限于人类表达效率低下,无法实现高分辨率生成,因此生成质量也很低。

2d图像转3d模型(2d图像转3d图形)

为了解决这个问题,本文提出了一种高效的组合3D人体NeRF表示,以实现高分辨率(512x256)3D人体GAN训练和生成。下面将介绍本文提出的人类NeRF表示以及三维人类GAN训练框架。

高效的人类NeRF 表示

本文提出的人体NeRF基于参数化人体模型SMPL,提供了对人体姿势和体形的便捷控制。在做NeRF建模时,如下图所示,本文将人体分为16个部分。每个部分对应一个小型NeRF 网络,用于局部建模。在渲染各个部分时,本文只需要对局部NeRF进行推理。这种稀疏渲染方法也可以用较低的计算资源实现原生高分辨率渲染。

例如,在渲染人体时,其身体形状和动作参数都是点,被转换到规范空间。然后计算Canonical空间中的采样点属于一个或多个局部NeRF边界框,然后对NeRF模型进行推断,得到每个采样点对应的颜色和密度;当某个采样点落入多个局部NeRF 重叠区域时,会对每个NeRF 模型进行推断,并利用窗函数对多个结果进行插值;最后,这些信息将用于光集成以获得最终的渲染。

3D人体GAN框架

基于所提出的高效人类NeRF 表示,本文实现了三维人类GAN 训练框架。在每次训练迭代中,本文首先从数据集中采样SMPL参数和相机参数,并随机生成高斯噪声z。利用本文提出的人体NeRF,本文可以将采样的参数渲染成二维人体图片作为假样本。本文利用数据集中的真实样本,进行GAN的对抗性训练。

数据集极度不平衡

2D人体数据集,例如DeepFashion,通常是为2D视觉任务准备的,因此人体的姿势多样性非常有限。为了量化不平衡程度,本文统计了DeepFashion 中模型面部朝向的频率。如下图所示,橙色线代表DeepFashion中人脸朝向的分布。可以看出它极不平衡,这使得学习三维人体表示变得困难。为了缓解这个问题,我们提出了一种以人体姿势为指导的采样方法来压平分布曲线,如下图其他彩色线所示。这使得模型在训练过程中能够看到更多样化、更大角度的人体图像,从而有助于学习三维人体几何形状。我们对采样参数进行了实验分析。从下表可以看出,加入人体姿态引导采样方法后,虽然图像质量(FID)会略有下降,但学习到的三维几何(Depth)明显更好。

高质量生成的结果

下图是EVA3D的一些生成结果。 EVA3D可以随机采样人体外观并控制渲染相机参数、人体姿势和体形。

本文在DeepFashion、SHHQ、UBCFashion、AIST 四个大规模人体数据集上进行了实验。本研究将最先进的静态3D 对象生成算法EG3D 与StyleSDF 进行了比较。同时,研究人员还对比了专门用于3D人体生成的算法ENARF-GAN。在指标选取上,本文综合考虑了渲染质量(FID/KID)、人体控制精度(PCK)和几何生成质量(Depth)的评价。如下图所示,这篇文章在所有数据集、所有指标上都显着超越了之前的解决方案。

应用潜力

最后,本文还展示了EVA3D 的一些应用潜力。首先,该研究测试了潜在空间的差异。如下图所示,本文能够在两个三维人之间进行平滑的变化,并且中间结果保持高质量。另外,本文还对GAN反转进行了实验。研究人员使用了Pivotal Tuning Inversion,这是二维GAN 反演中常用的算法。如下右图所示,该方法能够较好地还原重建目标的外观,但几何部分丢失了很多细节。可见,三维GAN的反演仍然是一个非常具有挑战性的任务。

结论

本文提出了第一个高清3D人体NeRF生成算法EVA3D,该算法可以仅使用2D人体图像数据进行训练。 EVA3D 在多个大规模人类数据集上实现了最先进的性能,并显示出在下游任务上的应用潜力。 EVA3D的训练和测试代码已经开源,欢迎大家尝试!

审稿人:李茜

最新资讯

推荐资讯