多视图立体匹配论文分享:BlendedMVS

作者:Toddi-Qi

来源:微信公众号|3D视觉工坊(系投稿)

论文题目:BlendedMVS: A Large-scale Dataset for Generalized Multi-view Stereo Networks

数据集和预训练模型地址:在公众号「3D视觉工坊」,后台回复「BlendedMVS」,即可直接下载。

摘要:

尽管深度学习在多视图立体匹配领域取得了很大的进展,但是有限的训练数据使得训练模型很难泛化到看不见的场景。与其他的计算机视觉任务相比,制作大规模的MVS数据集是相对困难的,因为它需要昂贵的主动激光扫描仪和劳动密集的处理去获得ground-truth的三维结构。本文提出一个新的大规模数据集BlendedMVS,为基于学习的MVS算法提供了足够的训练样本。为了创建数据集,首先利用三维重建算法从给定的场景图像中恢复出带纹理的三维网格模型。然后将重建得到的三维网格模型渲染得到彩色图像和深度图。为了在模型训练中引入环境的光照信息,渲染得到的彩色图像和原始输入图像进行混合,混合得到的彩色图像作为网络模型的训练输入。BlendedMVS数据集中包含超过17k的高分辨率图像,涵盖了各种场景,包括城市、建筑、雕塑和小物体。实验表明:和其他数据集相比,使用BlendedMVS训练的网络模型具有更好的泛化能力。

图 1 渲染数据的生成流程,首先从输入图像中生成带纹理的三维模型,然后将三维模型渲染到不同的视点下得到渲染图像和深度图。

一、数据集的制作:

数据集制作的流程如图1所示,首先使用三维重建算法从输入的图像中生成带纹理的三维网格模型。接下来,将三维网格模型渲染到每个相机视点下以获得渲染的图像和对应的深度图。最终用于训练的输入图像是渲染图像和输入图像进行混合得到混合图像。

1.1. 生成带纹理的三维网格模型

构建合成MVS数据集的第一步是生成高质量的带纹理的三维网格模型。给定输入图像,首先利用Altizure平台进行三维网格重建。该软件会执行完整的三维重建算法,三维重建的输出结果为带纹理的三维网格模型和相机位姿。

如图1所示,根据三维网格模型和输入图像的相机位姿,可以把三维模型渲染到各个视点下得到渲染的图像和渲染的深度图。渲染得到的深度图将作为模型训练时深度图的ground-truth。

图 2 混合图像生成的流程,高通滤波器用于从渲染图像中提取视觉线索,而低通滤波器从输入图像中提取环境光照信息。

1. 2. 生成混合图像

直观上讲,渲染得到的图像可以直接作为网络训练。然而,一个潜在的问题是渲染得到的图像不包含依赖视图的光照。事实上,一个理想的MVS网络训练样本应该满足以下两个条件:

① 图像和深度图应该一致对齐,训练样本应该提供从输入图像到ground-truth深度图的可靠映射。

② 图像应该反射视点相关的光照。逼真的环境光照可以增强模型对真实场景的泛化能力。

二、场景

BlendedMVS数据集包含113个场景,涵盖了各种不同的场景,包括建筑、街景、雕塑和小型物体。每个场景包含20到1000张不等的输入图像,整个数据集共有17818张图像。与DTU数据集相比,DTU数据集场景是通过一个固定的机械臂获取的,BlendedMVS数据集中的场景包含各种不同的相机轨迹。非结构化的相机轨迹可以更好地建模不同的图像捕捉风格,使得网络对真实世界的重建具有更好的泛化性能。

图 3 BlendedMVS数据集中带有相机轨迹的三维纹理模型,图中蓝色框表示三维空间中相机的位置。

三、实验结果

为了验证提出的数据集的有效性,作者在BlendedMVS数据集上训练和评测了MVSNet、R-MVSNet和Point-MVSNet三种网络模型。

3.1. 深度图验证

为了验证BlendedMVS数据集的有效性,作者比较了在1)DTU训练集、2)ETH3D低分辨率训练集、3)MegaDepth数据集和4)BlendedMVS训练集上训练模型的效果。评测在对应数据集的验证集上进行的。实验中考虑的三个指标:1)终点误差(end point error, EPE),即预测的深度图与深度图ground-truth的平均误差;2)大于1像素误差,即误差大于1个深度像素的比例;3)大于3像素误差。定量结果如图4所示。

图 4 模型训练过程中验证集上的深度图误差。使用BlendedMVS数据集(红线)训练的模型在DTU和ETH3D验证集上都表现出良好的泛化性能。

3.2. 点云评测

除了深度图评测之外,作者还比较了在DTU、ETH3D、MegaDepth和BlendedMVS数据集训练的模型在Tanks and Temples训练集上的点云重建效果。点云评测包括三个评价指标,即精度(accuracy)、召回率(completeness)和整体来衡量重建质量。如表5所示,在DTU和MegaDepth数据集上训练的模型取得了接近的分数,而在BlendedMVS数据集上训练的模型在所有场景上都优于其他三个数据集上训练的模型。将训练数据从DTU改为BlendedMVS,从47.5%提高到53.2%.深度图的可视化比较如图6所示。

图 5 Tanks and Temples数据上的点云评测,在BlendedMVS数据上训练的模型在所有场景上性能优于在其他数据集上训练的模型。

图 6 深度图重建的可视化比较,与其他三个数据集相比,使用BlendedMVS数据集训练的模型预测的深度图结果更清晰。

结论:

本文提出用于MVS网络模型训练的BlendedMVS数据集。数据集提供了超过17k的高质量训练样本,涵盖了各种场景。为了构建数据集,首先从输入图像中重建带纹理的三维网格模型,然后将三维网格模型渲染得到彩色图像和深度图。将渲染的彩色图像和输入图像进行混合作为模型训练的输入。使用了BlendedMVS数据集和其他MVS数据集对三种网络模型进行训练。定量和定性结果表明,在BlendedMVS数据集上训练的模型具有更好的泛化能力。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊-CV交流群

已建立3D视觉工坊-CV微信交流群!想要进CV交流群的同学,可以直接加微信号:CV_LAB 。加的时候备注一下:研究方向+学校+昵称,即可。然后就可以拉你进群了。

(0)

相关推荐

  • 游戏中“捏脸”还需要高手教程?用这个AI模型,一张肖像照就可以快速生成

    在游戏中,亲手创造一个与众不同的角色,乐趣不言而喻.但有时往往是"游戏五分钟,捏脸两小时". 从主机.PC 到手机游戏,随着硬件配置不断迭代,游戏在画面精细度和玩法操控度方面也越发 ...

  • 电影照片背后的技术

    视频介绍: 电影照片背后的技术 查看过去的照片可以帮助人们重温他们最珍贵的时刻.去年 12 月,我们推出了电影照片,这是 Google 相册中的一项新功能,旨在重现拍摄照片时的沉浸感,通过推断图像中的 ...

  • 简要概述三维重建3Dreconstruction技术

    三维重建的英文术语名称是3D Reconstruction. 三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机环境下对其进行处理.操作和分析其性质的基础,也是在计算机中建立表达客观 ...

  • 当深度学习遇上图: 图神经网络的兴起!

    当深度学习遇上图: 图神经网络的兴起!

  • 用于大规模图像识别的转换器

    视频介绍:用于大规模图像识别的转换器 虽然卷积神经网络(CNN)自 1980 年代以来一直用于计算机视觉,但直到 2012 年AlexNet 大幅超越当代最先进的图像识别方法的性能时,它们才处于最前沿 ...

  • 使用 YOLO 进行目标检测

    重磅干货,第一时间送达 自从世界了解人工智能以来,有一个特别的用例已经被讨论了很多.它们是自动驾驶汽车.我们经常在科幻电影中听到.读到甚至看到这些.有人说,我们将在2010年拥有自动驾驶汽车,有人说到 ...

  • 多视图立体匹配论文分享 | Fast-MVSNet (CVPR2020)

    计算机视觉工坊 94篇原创内容 公众号 论文题目:Fast-MVSNet: Sparse-to-Dense Multi-View Stereo with Learned Propagation and ...

  • 多视图立体匹配论文分享 | Fast-MVSNet

    论文题目:Fast-MVSNet: Sparse-to-Dense Multi-View Stereo with Learned Propagation and Gauss-Newton Refine ...

  • 论文分享:易学缘起——杨旭

    易学缘起 杨旭-学者自述 余本庶民,父母躬耕于乡野.沐国之恩光,有入学之机遇.不求显达于闹世,但谋立椎之本能. 天不遂愿,未尝金榜有名,却面母之暴毙!若平地之惊雷,破吾温馨之梦寐.故无力书文,惟劳苦以 ...

  • 论文分享:全面、系统和准确地了解易学

    本文作者:丘亮辉 易学文化是中华文明特有的.传承五千年的文化雄因,是中华民族代代相传的认知模式.思维方式和生活方式.随着社会发展,易学文化不断衍化出夏易连山.商易归藏.周易经传和历代易学.历代易学的产 ...

  • 四川大学华西医院麻醉科2021年4~6月发表SCI论文分享

    四川大学华西医院麻醉科 2021年4~6月 发表SCI论文分享 (第10期) 作者:麻醉手术中心 彭玲 张璐 2021年4月至6月,华西医院麻醉科总共发表SCI论文27篇,包括临床研究7篇,基础研究9 ...

  • 【论文分享】LOAM-SLAM:激光雷达里程计和实时建图

    重磅干货,第一时间送达 小白学视觉团队举行了每周精读并分享一篇论文的活动,欢迎各位小伙伴来报名参加.以后,我们会每天选择一篇优秀的论文总结与各位小伙伴们分享. 本总结的论文题目为:LOAM_Lidar ...

  • 《计算机视觉中的多视图几何》分享

    近期很很多小伙伴都希望小白推送<多视图几何>这本书,小白在网上搜了一下,找到了这本书的高清全版,并分享给小伙伴,最近一直在忙实习没有时间分享给大家,今天周末了,终于抽出时间可以陪陪小伙伴了 ...

  • FOP论文分享 | 用于吞咽障碍治疗的增稠流体和质地改良食品的质构参数评估

    LABORATORY of FOOD ORAL PROCESSING, ZHEJIANG GONGSHANG UNIVERSITY 食品口腔加工实验室(中国 · 杭州) 2021年09月30日 题目: ...

  • 我已亭亭,不忧不惧|8.22九型论文分享

    点评参见"遇见三山"微店"九型论文点评. 毕业论文要求: 请按照童年至今的时间顺序,通过至少3件你生命中发生的重要事情和时刻,要求有具体细节,比如让你印象深刻的语言和行为 ...