Im2Mesh GAN:从一张RGB图像中恢复3D手部网格
重磅干货,第一时间送达
小白导读
论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。
这项工作解决了从单一的RGB图像手部网格恢复。与大多数现有的方法相比,先前使用的参数化手模型,我们表明,可以直接从输入图像学习手网格。我们提出了一种新型的神经网络,即Im2Mesh神经网络,通过端对端对抗训练来学习网格。通过将网格解释为一个图,我们的模型能够捕获网格顶点之间的拓扑关系。我们还在GAN体系结构中引入了一个3D表面描述符,以进一步捕获相关的3D特征。我们试验了两种方法,其中一种可以获得图像的地面真相数据可用性和相应的网格相结合的好处,而另一种则解决了在没有相应地面真相的情况下进行网格估计的更具有挑战性的问题。通过广泛的评估,我们证明所提出的方法优于最先进的。
重要的是,通过将网格解释为图,我们可以利用图神经网络(GNNs)的最新进展来支持生成器和鉴别器网络中的网格处理。gnn已经展示了处理非欧几里得结构化数据(如图和流形)的能力。与文献中现有的基于图的网格估计方法只考虑CNN生成的特征不同,我们引入了一种3D描述符,将表层信息编码到GNNs中,允许它们更好地利用图结构手数据中网格顶点之间的拓扑关系。这提高了网格恢复的精度,因为恢复算法不仅考虑了顶点的三维坐标,而且考虑了与顶点相关的三维特征。
本文的主要贡献如下:
我们提出了一种名为Im2Mesh的新的GAN架构,可以直接从单一RGB输入图像对手网进行端到端学习,而不需要任何热图处理、3D关键点注释或外部参数化手模型。
我们将GAN的生成器建模为图形架构,允许它建模网格顶点之间的拓扑关系,同时引入3D描述符将表面级别信息编码到gnn中,进一步捕获与网格顶点相关的3D特征。
该方法不仅解决了图像与地真网格之间存在一对一映射的耦合数据集的网格重建问题,而且解决了不包含相应地真标注的数据集的网格重建问题。
我们不使用深度图像;因此,我们增加了在没有相应深度图像的数据集上使用我们的模型的潜力。
本文所提出的条件氮化镓架构的概述。位置值和镜头描述符值由生成网络生成并传递给鉴别器网络,鉴别器网络对它们是生成的还是地面真值进行分类。
本文所提出的循环氮化镓架构概述。G M为从输入图像I中估计图像的生成器,其中G I为从输入网格M中估计图像的生成器。
在我们的工作中使用的图形增强过程。需要注意的是,这幅图描述了将一个有N个节点,特征维数为d的图上采样到一个有R个节点的图的过程。描述的网络包含两个级联的图上采样,然后是坐标重构器,它计算上采样图的位置向量。k和q是生成的特征在级联1级和2级时的特征维数。由于我们工作的目标是在保持特征数量的同时对图进行上采样,所以我们设k = q = d。
通过改变与表面光洁度有关的参数,得到了定性结果
虽然利用单一图像对人手进行三维网格重建已经被研究过,但由于人手具有很高的自由度,这一问题仍然是一个挑战。在本文中,我们提出了一种利用单一图像来创建手部三维网格的方法,该方法可以有效地利用现有的数据库来更好地利用单一图像来重建三维网格。我们设计了一个损失函数来生成更真实的手网,并在两种生成对抗网络中证明了损失函数的有效性。第一种设置的目标是有效地使用耦合数据集,其中groundtruth网格是可用的,而第二种设置的目标是非耦合数据集。此外,我们在此工作中使用了三维表面描述符和图卷积网络,使生成的网格的表面细节得以保留。我们确认,我们的框架优于最先进的技术,以及在单一基于图像的3D网格重建中整合明确的3D特征的第一次努力。提出的网格恢复方法的一个有趣的性质是,不需要参数化的手模型作为先验。手的几何形状是学习和编码直接在发生器通过端到端的对抗训练过程。这一事实使所提出的算法很容易适应其他网格问题,如其他身体部位或3D对象。
论文链接:https://arxiv.org/pdf/2101.11239.pdf
每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。