多视图立体匹配论文分享 | Fast-MVSNet
论文题目:Fast-MVSNet: Sparse-to-Dense Multi-View Stereo with Learned Propagation and Gauss-Newton Refinement
摘要:
以往基于深度学习的多视图立体匹配 (MVS) 方法几乎都是为了提高重建质量。除了重建质量,效率也是现实场景中重建的一个重要特征。为此,本文提出Fast-MVSNet,一种新的由稀疏到稠密、由粗糙到精细的框架,用于快速和准确的多视图深度估计。具体而言,在Fast-MVSNet中,我们首先构造一个稀疏的代价体来学习一个稀疏但高分辨率的深度图。然后我们利用小型卷积神经网络对局部区域内像素的深度依赖进行编码,以稠密化稀疏但高分辨率的深度图。最后提出简单且有效的高斯-牛顿层来进一步优化深度图。一方面,高分辨率的深度图、数据驱动的自适应传播方法和高斯-牛顿层保证了算法的有效性。另一方面,Fast-MVSNet中所有模块都是轻量级的,因此保证了算法的高效性。此外由于稀疏深度图的表示,我们方法也是memory-friendly的。实验结果表明Fast-MVSNet比Point-MVSNet快5倍,比R-MVSNet快14倍,同时在Tanks and Temples的DTU上取得了可比较甚至更好的结果。
图 1. Fast-MVSNet的网络架构。第一阶段,首先基于2D CNN提取的特征构建稀疏代价体,并使用3D CNN预测稀疏的低分辨率深度图。第二阶段:设计了一个简单而有效的网络将稀疏深度图传播为稠密深度图。第三阶段:使用可微分的高斯-牛顿层来进一步优化深度图。
一、方法
为此,我们提出了Fast-MVSNet,一个高效的MVS框架,利用由稀疏到稠密、由粗糙到精细的策略来进行深度估计。具体地,首先估计一个稀疏的高分辨率深度图,这样现有的MVS方法可以以更低的成本应用;然后设计了一个简单而有效的传播模块来稠密化稀疏深度图;最后,提出一种可微的高斯-牛顿层来进一步优化深度图,实现亚像素精度的深度估计。方法的整体流程如图1所示。
图 2. 深度图的初始化。(a) MVSNet和R-MVSNet方法使用的高分辨率深度图。(b) Point-MVSNet使用的低分辨率深度图。(c) 和之前的方法不同,本方法使用的是稀疏的高分辨率深度图。
1.1 稀疏的高分辨率深度图预测
算法的第一步是为参考图像I0估计稀疏的高分辨率深度图。图2展示了稀疏深度图表示和其他类型深度图之间的差异。本方法以较低的内存消耗和代价计算来预测稀疏的高分辨率深度图,而其他方法要么估计高分辨率的深度图,但是内存成本高;要么估计低分辨率的深度图,细节处会丢失。我们认为,稀疏的高分辨率表示比低分辨率表示更加合适,原因有以下两点:1)使用低分辨率深度图进行训练需要对ground-truth深度图进行下采样。如果使用最近邻方式,那么低分辨率的表示形式和我们稀疏的高分辨率表示是相同的。然而在这种情况下,得到的深度图与提取的低分辨率特征图没有很好地对齐。如果下采样使用双线性插值,那么将会在深度值不连续区域出现伪影。2)细节在低分辨率的深度图中丢失了。从低分辨率深度图中恢复出具有良好细节的高分辨率深度图需要复杂的上采样技术。
为了预测稀疏的高分辨率深度图,使用MVSNet作为基础网络。具体地,首先使用8层的2D CNN网络来提取图像特征,然后基于参考图像的视锥体来构建稀疏的代价体。最后使用3D CNN网络对代价体进行正则化,并通过soft-argmin操作进行深度图回归。
另外稀疏的代价体表示使得3D CNN在空间域的表现类似于dilation为2的空洞卷积。因此在正则化中,有融合更大空间信息的能力。
图 3 传播模块的图示
1.2深度图传播
图 4. 可微分高斯-牛顿层的图示。
1.3 高斯-牛顿优化
在上一步中,我们关注稠密深度图的高效预测,然后预测得到的深度图精度是不够的。因此我们提出使用高斯-牛顿算法对深度图进行优化。尽管深度图优化的方法有很多,但出于对效率的考量选择了高斯-牛顿算法。
1.4 损失函数
按照之前的方法,我们使用估计深度图和ground-truth深度图之间的平均绝对误差 (mean absolute error, MAE) 作为训练损失函数。初始深度图和细化后的深度图都被考虑在内:
图 5. DTU数据集scan 9的重建结果。如图中蓝色圆圈区域所示,我们的重建方法在精细结构周围包含了更少的噪声,证明了我们方法的有效性。
二、实验结果
2.1 DTU数据集
本文方法与传统方法和基于学习的方法进行了比较。定量评测结果如表1所示。其中Gipuma的准确性 (Acc.) 最好,本文方法在完整性 (Comp.) 和整体质量 (Overall) 方面表现最佳。图5展示了本文方法与Point-MVSNet重建结果的可视化对比。本文方法在精细结构处的重建更加干净,验证了本方法的有效性。
表 1. DTU数据集上重建质量的评测结果
更近一步地,如表2所示,作者通过与state-of-the-art方法比较三维点云重建质量、深度图分辨率、GPU显存占用和运行时间方面的性能指标来证明本文的有效性和高效性。
表2. DTU数据集上关于重建质量、深度图分辨率、GPU显存占用和运行时间的对比结果
2.2 Tanks and Temples数据集
为了评测本文方法的泛化性能,作者在Tanks and Temples数据集中进行了测试。直接使用在DTU数据集上训练的模型,没有经过任何的fine-tuning。输入图像的分辨率为1920×1056。深度假设的平面数D = 96,实验使用MVSNet提供的相机参数。评测结果如表3所示,本文取得了与state-of-the-art方法接近较的结果,证明本方法具有较好的泛化性能。如图6所示,重建的点云是稠密且具有良好视觉效果的。
表 3. Tanks and Temples数据集上的评测结果。本文方法获得了与state-of-the-art方法可比较的实验结果。
图 6. Tanks and Temples数据集中intermediate set的重建结果。
三、结论
本文提出一个高效的MVS框架Fast-MVSNet,本框架利用了有稀疏到稠密、由粗糙到精细的策略。首先以较低的成本估计稀疏的高分辨率深度图。然后通过一个简单的传播模块将稀疏深度图传播为稠密深度图。最后利用可微的高斯-牛顿层来进一步优化深度图,来提高深度估计的准确性。在两个具有挑战性的数据集上 (DTU, Tanks and Temples) 的实验结果验证了本方法的有效性和高效性。
本文仅做学术分享,如有侵权,请联系删文。