三维头部重建的混合方法:神经网络与视觉几何相结合

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

从单个输入图像中恢复人脸的三维几何结构是计算机视觉中一个具有挑战性的研究领域。本文提出了一种基于深度学习和几何技术的混合方法,从单个或多个图像中重建三维头部。作者提出了一种基于U-net架构的编解码器网络,并仅在合成数据上进行训练。它从单个输入照片预测像素级的法向量和地标地图。利用地标进行位姿计算和优化问题的初始化,进而利用参数变形模型和法向向量场重建三维头部几何。通过对单视图和多视图设置进行定性和定量评估测试,可以获得最先进的结果。尽管该模型只训练了合成数据,但它成功地恢复了三维几何和真实世界图像的精确姿态。

论文创新点

本文的主要贡献有:

  • 提出的方法预测像素级的法向量和地标地图从一个单一的输入照片。

  • 提出了一种基于表面法向量的网格拟合策略,直接从单个或多个图像中重建头部,以恢复完整的人脸头部及其姿态。

  • 作者证明了作者的方法在BU-3DFE[15]数据集上取得了最先进的性能。作者证明了所提出的模型可以很好地推广到真实世界的图像,即使它只在合成数据上训练过。

框架结构

作者提出的三维人脸重建方法的概述

给定输入的面部图像(a),作者估计了两种不同的地图(法线表面地图N (b),地标地图Z (c)),用于通过LYHM [16] morphable模型拟合过程来重建三维面部形状。

Normal-Landmark Network的详细资料

作者的编码器-解码器架构从一个面部输入图像(如左图所示)生成两张不同的地图(如右图所示)。空间大小和层数分别显示在每个块的下面和上面。

实验结果

训练数据样本

从上到下:合成面部图像,法线表面地图N和地标地图Z。

作者的多视图拟合方法的一个例子

作者从每个输入图像(a)中估计出两个映射N (b)和Z (c),然后在相同的拟合过程中使用它们得到唯一的三维头部重建。

一些名人的面部图像与其他方法的视觉对比

行包含顺序;输入图像,预测的N图,带有预测的标志物(红色方块)和密集对齐结果(作者拟合过程产生的3DMM投影顶点)的输入图像,Ours(正面视图),Ours(对齐)RingNet [23], PRN[20]和R-C-Nets [24]。

基于BU-3DFE[15]数据集的立体和单声道拟合示例

输入图像(a),法线曲面图N (b),地标图Z (c)。(多视图拟合):使用所有图像在同一拟合过程中进行三维头部重建。(Mono拟合):仅利用拟合过程中的正面图像(第三行)进行三维头部拟合。(GT): 3D头部网格的ground-truth。

结论

在本文中,作者提出了一种新的方法,由深度学习和基于视觉几何的方法,从单一或多幅图像中估计完整的三维人头形状。作者的方法采用一种编码-解码器网络,将输入图像映射到栅格化法线图N和路标图z,然后使用这些地图进行拟合过程,从LYHM模型回归人脸身份的3DMM参数。据作者所知,像素级拟合通常基于光度信息,而不是神经网络的输出,作者坚信这个过程在本质上比基于积分的表面重建方法更好。

作者的网络只接受过合成面部数据集的训练。该网络在真实图像的准确性和泛化方面都表现出了良好的效果。除了头部的三维重建,地标地图Z可以直接用于人脸跟踪和姿态估计,这是作者重建管道中必不可少的一部分。在进行细粒度拟合之前,利用地标对姿态进行良好的初始猜测。它提高了回归过程的收敛速度,并使达到局部最小值的机会最小化。

作者进行了定量和定性实验来评估作者的管道性能。作者证明了作者提出的框架实现了最先进的性能,在三维人脸重建的单一和多视图设置。总的来说,多视图设置给出了很好的结果,但是需要进一步的工作来充分利用它。

尽管作者的方法在许多情况下具有鲁棒性能,但仍有一些局限性。所使用的3DMM不包括面部表情,年龄范围有限。这就是为什么在3DMM中很难重建最精细的细节,因为恢复的几何形状的精度受限于该模型的灵活性。这个限制不是作者所提出的方法的根本。对合成数据生成器和拟合过程采用更具表达性的变形模型可以克服这一问题。另一个限制是,合成数据可能具有不现实的特征,这反过来会在学习过程中引入某些偏差。使用GAN架构结合经典的3D渲染可以提高生成照片的真实感。

论文链接:https://arxiv.org/pdf/2104.13710.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

(0)

相关推荐