【NeurIPS 2019】“杰出新方向”荣誉提名论文解读:一种场景表征网络模型SRNs
Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations
论文作者:
Vincent Sitzmann、Michael Zollhöfer、Gordon Wetzstein(斯坦福大学)
论文地址:
https://www.aminer.cn/pub/5d04e90fda56295d08de0a15/
论文代码:
https://github.com/vsitzmann/scene-representation-networks
摘要
利用生成模型进行无监督学习以发现3D场景丰富表征的潜力巨大。但是现有的这些表征方法并没有明确地涉及几何推理,因此也没有考虑场景潜在的3D结构。虽然几何深度学习已经探索了场景几何的 3D结构感知表征,但这些模型通常需要显式的 3D 监督学习。
为此,本文提出场景表征网络(Scene Representation Networks,SRNs),这是一种连续的、3D 结构感知的场景表征模型,该模型能够同时编码几何和外观。SRNs 将场景表征为连续函数,将世界坐标(world coordinate)映射为局部场景属性的一个特征表示。通过将成像系统地描述为一个可微的射线行进算法(ray-marching),SRNs 只基于2D图像及其图像的摄像机位便可进行端到端的训练,无需景深或形状信息。这种方法可以在不同场景之间自然泛化,在这个过程中学习强大的几何和外观先验知识。本文通过新视野图的合成、少样本重建、联合形状和外观插值和非刚性面模型的无监督发现来评估SRNs的潜力。
简介
本文提出Scene Representation Networks (SRNs),该模型关键在于将场景隐含地表征为连续、可微的函数,该函数将3D世界坐标映射到基于特征的场景属性表征。这使得SRNs能够与已建立的多视图和投影几何技术进行自然地交互,同时在内存中以高空间分辨率高效运行。SRNs仅需一组场景2D图像便可以进行端到端的训练学习。SRNs生成高质量图像时无需2D卷积,而只需对单个像素进行操作,这使得生成任意分辨率的图像成为可能。这很自然地泛化到相机转换和在训练时完全看不到内在参数的情况。例如,SRNs能够在只有一个固定距离看到过物体,便能够完美地呈现出物体的特写。
小结下本文的贡献:
(1)提出一个连续的、3D结构感知神经场景表征和渲染的模型-SRNs。SRNs能够有效地封装场景的几何和外观信息;
(2)SRNs端到端的训练方式,只需2D空间内的图像,而无需3D空间内的显式监督学习;
(3)证明了SRNs在新视野图合成、形状和外观插值、和少样本重建以及非刚性面部模型的无监督发现任务上显著优于最近的文献基准。
SNRs 介绍
Figure 1
1.将场景表征为函数
2.神经渲染
· 可微Ray Marching算法
· 像素生成器框架
3.跨场景泛化
4.联合优化
实验结果
本文在数个物体类别上训练SRNs,并在新视图合成和少样本重建中评估。同时进一步证明了非刚性面模型的发现。在论文的补充材料中详细阐述了单场景新视图合成中SRNs和DeepVoxels的对比。超参数、框架细节等等也在补充材料,这里就不赘述了。
1.Shepard-Metzler objects:
选用7-element Shepard-Metzler类物体,参照的基准是dGQN,评估指标是新视图重建准确率。在训练集上,SRNs上的像素近乎完美果,其PSNR(峰值信噪比)达到30.41 dB。而dGQN在这有限的数据集中无法学习物体的形状和多视图几何信息,最终的PSNR只有20.85dB。
采用two-shot,SRNs能够重建出被观察到的物体的任何部分,其最终指标为24.36dB。与此同时,dGQN只能取得18.56dB。在one-shot中,SRNs能够重建一个与观察到的视图一致的物体。正如预期的那样,由于当前模型是非概率实现,dGQN和SRNs虽然都重建了对象,但该对象是生成观测结果的数百个可能对象的平均值,最终的指标分别是17.51dB 和 18.11dB。
2.Shapenet v2:
这里只选取Shapenet v2中的"chair"和"car"这两个类。在训练集和留存测试集上评估新视图合成效果。SRNs和基准模型的定量和定性对比结果分别在Table 1和 Figure 2。
Table 1
Figure 2:与基准模型的定性比较
从实验结果可以看出SRNs模型显著优于其他模型。通常情况下,SRNs视图是完全多视图一致的,唯一的例外是对象有独特的、精细的几何细节,如挡风玻璃。而基准模型生成的视图都无法做到多视图一致性。对于two-shot,物体的大部分已经被看到过,SRNs能稳健地重建出物体的外观和几何形状。而对于single-shot,SRNs以一种看似合理的方式完成了物体中不可见的部分的重建,这表明学习到的先验已经真实地捕获了底层的分布。
3.非刚性形变的参数管理:
当获悉了场景的隐参数,则可以对这些参数进行条件设定,而不是共同求解隐变量$\mathbf{z}_j$。从Basel face模型中随机采样1000张人脸,每张生成50张渲染图。每张脸都由一个224维的参数向量定义,其中前160维定义身份,后64维控制着面部表情。SRNs能够重建人脸的几何形状和外观。在训练之后通过改变64个表情参数来激活面部表情,同时保持身份不变,即使这种特定的身份和表情的组合之前并没有被观察到过。Figure 3展示了这种非刚性形变的定性结果:
Figure 3:脸部非刚性形变。注意:嘴的动作直接受控于normal maps
4.几何重建:
SRNs以完全无监督的方式进行几何重建。几何重建仅仅是为了更好地辅助解释3D中的观测。Figure 4展示了几何重建结果:
Figure 4:所选物体的Normal maps。注意:几何重建结果是完全无监督学习的,纯粹是由图像的视图和多视图几何约束产生的
5.隐空间插值:
本文模型学习到的隐空间允许对物体实例进行插值,以Figure 5为例:
Figure 5:Shapenet数据集中cars和chairs的隐编码向量插值结果。同时旋转模型周围的相机。特征从一个模型平稳地过渡到另一个模型
6.相机 Pose extrapolation:
由于显性的3D感知和逐像素建模方式,SRNs对3D转换(如相机的镜头特写拉近或者相机的转动)天然具有泛化能力。这部分可以参考补充资料中pose extrapolation的示例视频。
讨论
本文提出SRNs,这是一个面向3D结构的神经场景表征模型。该模型将场景表示为一个连续、可微的函数。该函数将3D坐标映射为基于特征的场景表征,再用可微的ray marcher将特征表征渲染为2D图像。整个过程是端到端的训练。SRNs无需形状监督,只能通过一组摆拍的2D图像进行训练。SRNs在新视图合成、形状和外观插值、少镜头重建任务上进行评测。
未来的工作:
(1)在概率框架下探索SRNs;
(2)扩展到对视图相关因素、光照相关影响因素、透明度和参与媒介的建模;
(3)扩展到其他图像形成模型,如计算机断层扫描(CT)或磁共振成像(MRI);
(4)将相机参数与算法结合,进行相机姿态估计;
(5)SRNs在视觉和图形之外也有令人兴奋的应用,未来的工作可能会探索SRNs在机器人操作或作为一个独立智能体对世界建模;
(6)在复杂、杂乱的3D环境中进行泛化;
(7)与元学习结合提高跨场景泛化能力。
作者:刘杰鹏
排版:学术菠菜
校对:小满、艺之
责编:学术青、优学术