Im2Mesh GAN：从一张RGB图像中恢复3D手部网格

2024-07-31 06:50:13

重磅干货，第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

这项工作解决了从单一的RGB图像手部网格恢复。与大多数现有的方法相比，先前使用的参数化手模型，我们表明，可以直接从输入图像学习手网格。我们提出了一种新型的神经网络，即Im2Mesh神经网络，通过端对端对抗训练来学习网格。通过将网格解释为一个图，我们的模型能够捕获网格顶点之间的拓扑关系。我们还在GAN体系结构中引入了一个3D表面描述符，以进一步捕获相关的3D特征。我们试验了两种方法，其中一种可以获得图像的地面真相数据可用性和相应的网格相结合的好处，而另一种则解决了在没有相应地面真相的情况下进行网格估计的更具有挑战性的问题。通过广泛的评估，我们证明所提出的方法优于最先进的。

论文创新点

重要的是，通过将网格解释为图，我们可以利用图神经网络(GNNs)的最新进展来支持生成器和鉴别器网络中的网格处理。gnn已经展示了处理非欧几里得结构化数据(如图和流形)的能力。与文献中现有的基于图的网格估计方法只考虑CNN生成的特征不同，我们引入了一种3D描述符，将表层信息编码到GNNs中，允许它们更好地利用图结构手数据中网格顶点之间的拓扑关系。这提高了网格恢复的精度，因为恢复算法不仅考虑了顶点的三维坐标，而且考虑了与顶点相关的三维特征。

本文的主要贡献如下:

我们提出了一种名为Im2Mesh的新的GAN架构，可以直接从单一RGB输入图像对手网进行端到端学习，而不需要任何热图处理、3D关键点注释或外部参数化手模型。
我们将GAN的生成器建模为图形架构，允许它建模网格顶点之间的拓扑关系，同时引入3D描述符将表面级别信息编码到gnn中，进一步捕获与网格顶点相关的3D特征。
该方法不仅解决了图像与地真网格之间存在一对一映射的耦合数据集的网格重建问题，而且解决了不包含相应地真标注的数据集的网格重建问题。
我们不使用深度图像;因此，我们增加了在没有相应深度图像的数据集上使用我们的模型的潜力。

网络框架

本文所提出的条件氮化镓架构的概述。位置值和镜头描述符值由生成网络生成并传递给鉴别器网络，鉴别器网络对它们是生成的还是地面真值进行分类。

本文所提出的循环氮化镓架构概述。G M为从输入图像I中估计图像的生成器，其中G I为从输入网格M中估计图像的生成器。

在我们的工作中使用的图形增强过程。需要注意的是，这幅图描述了将一个有N个节点，特征维数为d的图上采样到一个有R个节点的图的过程。描述的网络包含两个级联的图上采样，然后是坐标重构器，它计算上采样图的位置向量。k和q是生成的特征在级联1级和2级时的特征维数。由于我们工作的目标是在保持特征数量的同时对图进行上采样，所以我们设k = q = d。

实验结果

通过改变与表面光洁度有关的参数，得到了定性结果

结论

虽然利用单一图像对人手进行三维网格重建已经被研究过，但由于人手具有很高的自由度，这一问题仍然是一个挑战。在本文中，我们提出了一种利用单一图像来创建手部三维网格的方法，该方法可以有效地利用现有的数据库来更好地利用单一图像来重建三维网格。我们设计了一个损失函数来生成更真实的手网，并在两种生成对抗网络中证明了损失函数的有效性。第一种设置的目标是有效地使用耦合数据集，其中groundtruth网格是可用的，而第二种设置的目标是非耦合数据集。此外，我们在此工作中使用了三维表面描述符和图卷积网络，使生成的网格的表面细节得以保留。我们确认，我们的框架优于最先进的技术，以及在单一基于图像的3D网格重建中整合明确的3D特征的第一次努力。提出的网格恢复方法的一个有趣的性质是，不需要参数化的手模型作为先验。手的几何形状是学习和编码直接在发生器通过端到端的对抗训练过程。这一事实使所提出的算法很容易适应其他网格问题，如其他身体部位或3D对象。

论文链接：https://arxiv.org/pdf/2101.11239.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

给你看个宝贝：GitHub 最野的开源模型库！

前阵子抖音爆火的应用蚂蚁呀嘿都笑过吧?这技术让一向严肃认真的giao哥都多了几分俏皮,这么秀的代码,必须狗一波.于是本狗啊不本人有了一个温暖(欠揍)的想法:想弄一个自家爹妈爷爷奶奶一起摇摆的鬼畜视频. ...
MO-LTR：基于单目RGB视频的多目标定位、跟踪与重建

干货第一时间送达标题:MO-LTR: Multiple Object Localization, Tracking and Reconstruction from Monocular RGB Vid ...
最全综述：基于深度学习的三维重建算法

前言目前,三维重建技术已在游戏.电影.测绘.定位.导航.自动驾驶.VR/AR.工业制造以及消费品领域等方面得到了广泛的应用.方法同样也层出不穷,我们将这些方法依据原理分为两类: 基于传统多视图几何的 ...
虚拟在左，真实在右：德国学者用AI合成一亿像素逼真3D图像，可任意旋转

近日,来自德国埃尔兰根-纽伦堡大学的学者提出了一种新颖的神经网络方法,用于3D图像的场景细化和新视图合成. 只需要输入点云和相机参数的初始估计,就可以输出由任意相机角度合成的图像,360度旋转都不是问 ...
Matlab 图像处理基础

一.图像处理的基本操作 1.从图形文件读取图像 pic = imread('C:\Users\Good\Pictures\m.jpg'); 通过matlab自带的imread读入图像,函数内为图像的路 ...
【百战GAN】GAN也可以拿来做图像分割，看起来效果还不错？

大家好,欢迎来到专栏<百战GAN>,在这个专栏里,我们会进行算法的核心思想讲解,代码的详解,模型的训练和测试等内容. 作者&编辑 | 言有三本文资源与生成结果展示本文篇幅:56 ...
CVPR 2020 | 用于点云中3D对象检测的图神经网络

论文原文:Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud 论文地址:https://www.amine ...
如果张无忌没中玄冥神掌，留在武当山能否到达后来的高度？

作者:萨沙本文章为萨沙原创,谢绝任何媒体转载萨沙一本正经的胡说八道第201期如果张无忌没中玄冥神掌,留在武当山能否到达后来的高度? 当然不能. 张三丰是人不是神,他的武功需要一定的资质才能学好, ...
骨科精读 | 100张骨科图像，从此再也不怕急诊

骨科精读 | 100张骨科图像，从此再也不怕急诊
张德龙：中坝烈士陵园

文/张德龙(彝族) 云南省元谋县羊街镇中坝村与牟定县安乐乡羊臼河村.小村相邻,是一个典型的河谷地区.如果您是第一次来这里,您第一眼看到的便是犹如一条钢铁巨龙的成昆铁路在几个村庄之间蜿蜒盘旋. 我的家乡 ...
图像中弯曲的纸张怎么通过图像处理纠正成平展的纸张？

找到上下两条曲线,根据曲线曲率拉伸,插值.大功告成
图像中倾斜的纸张校正成正面的图像，应该如何处理？

图像中倾斜的纸张校正成正面的图像，应该如何处理？
NASA“毅力号”探测器发回其拍摄的第一张火星图像

这张图片来自一个用于导航和发现危险的工程相机,所以它不是最终会发回华丽风景照片的主要高质量相机之一.但这仍然是一个里程碑,是成功的标志,也是漫游车运行良好的初步迹象. 画面显示火星是一个岩石和尘土飞扬 ...
下面这张照片拍摄于1937年，图像中那个...

下面这张照片拍摄于1937年,图像中那个身穿皮衣.面色冷峻的男子是苏维埃政权中最神秘的人物之一--纳夫塔利·弗伦克尔. 首先这个人的来历就是谜,在不同人.不同系统的记载中差异极大,有人说他是伊斯坦布尔 ...
张派唱腔中的“冲”

(转帖作者不详) 一个新的流派,除了有兼容其他流派的一些共性特点外,还有很多他自己新形成的东西,这是他的发明.今天,我谈谈张派唱腔中的"冲". (请原谅我用"冲&qu ...
秦皇岛老照片，每一张都戳中秦皇岛人的泪点

{第五元素} [align=center] [/align] 1959年,秦皇岛港"一条龙"运输大协作现场 [align=center] [/align] 70年的文化路,今天,由 ...

Im2Mesh GAN：从一张RGB图像中恢复3D手部网格

相关推荐