NeurIPS2019|首篇单目无监督深度估计与视觉里程计,效果超越双目算法,已开源
加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
本文为极市与阿德莱德大学博士生边佳旺原创,如需转载,请联系小助手(微信ID:cv-mart)
作为神经计算和机器学习领域的顶级会议,每年的NeurIPS(神经信息处理系统会议)吸引了不少中国学者投稿,今年NeurIPS(2019年12月8日-14日在加拿大温哥华举办)总共接收了6743份投稿,最后接收了1428份论文,21.24%的接受率,较计算机视觉顶会CVPR2019和ICCV2019要低一些。接收结果已经发送给作者。
本文要推荐的是阿德莱德大学博士生边佳旺被接收的NeurIPS2019论文
Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video。此前,边博曾经在极市分享过备受关注的图像特征匹配算法CVPR 2017中的快速且稳定的GMS匹配策略,关于论文详细解读也可以看看这个 CVPR 2017论文:基于网格的运动统计,用于快速、超鲁棒的特征匹配(附大神解读)。
论文简介
论文名:
Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video
项目链接:https://jwbian.net/sc-sfmlearner
论文链接:https://arxiv.org/abs/1908.10553
开源代码:https://github.com/JiawangBian/SC-SfMLearner-Release
摘要:最近工作表明基于CNN的深度估计和位姿网络可以在单目视频上进行无监督训练。然而,算法性能受限于动态物体。因为动态物体不符合三维重构的原理,会导致不正确的监督。更重要的是,之前算法不能输出尺度一致的结果,因为每个训练样本之前是没有关联的,他们的尺度都不一样,所以也不能在长视频上做视觉里程计(以前算法只做5帧)。本篇论文提出使用几何一致性约束来实现相邻帧之间的尺度一致性,并且利用尺度一致性检测并剔除动态物体和遮掩区域。因为不像之前算法一样使用光流,所以训练速度快而且算法简单。实验表明, 不仅在KITTI上获得最好的深度估计性能,而且可以在长视频上做视觉里程计。目前已知,这是第一篇能够通过在单目视频上进行无监督训练且实现在长视频上做视觉里程计的文章,并且性能超过之前在双目视频上训练的算法。
论文亮点
1.文章通过约束相邻帧间的几何一致性实现了整个视频序列上尺度一致的深度和位姿估计。同时能够利用几何特性来mask动态物体和occlusion,极大提升了训练效果。
2.最终结果不仅在depth上达到SOTA(训练一天超过之前训一周的算法),更使得预测的camera pose可以直接拼起来在长视频上做visual odometry(以前单目算法因为尺度不一致只能做5帧)
3.效果超过之前在双目视频上训练的方法。目前已知这是第一篇在单目视频上用无监督训练可以实现VO的文章。
结构
1. Lgc表示约束相邻帧之间的depth预测的一致性。也就是通过将其中一帧的depth预测投影到另外一帧上,在这一帧上计算投影来的depth与预测的depth之间的误差。通过优化这个误差来实现几何(以及尺度)的一致性。
2. M表示由depth相对误差推导出的mask。Mask代表了每个像素的投影confidence,这里low-confidence(depth误差大)的地方是由于噪音(动态物体或者occlusion)或者错误预测导致的。文章通过给这些区域一个低的权重来减小错误监督的影响。
3. 由于算法约束了尺度一致性,并且消除了动态物体的干扰。除了性能得到大幅提升以外,也实现了尺度一致的预测。最终结果可以在长视频上用作视觉里程计。
论文效果
写在最后
本篇论文已经开源,大家可以去star后下载模型尝试,有问题可以直接和作者沟通~另外极市同时组织了NeurIPS论文代码汇总开源GitHub项目,欢迎提交以及star~
开源项目:https://github.com/extreme-assistant/nips2019
-完-