AR设备单目视觉惯导SLAM算法综述与评价
标题:Survey and evaluation of monocular visual-inertial SLAM algorithms for augmented reality
作者:Jinyu LI, Bangbang YANG, Danpeng CHEN, Nan WANG, Guofeng ZHANG1
编译:particle
欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈分享快乐。
摘要
尽管VSLAM/VI-SLAM已经取得了巨大的成功,但是由于缺乏合适的标准的基准,从增强现实的角度定量评估各种SLAM系统的定位结果仍然困难。实际中的AR应用,由于用户可能不小心移动了AR设备,并且实际环境可能相当复杂,因此很容易遇到各种具有挑战性的场景(例如快速运动、强旋转、严重的运动模糊、动态干扰等)。此外,AR应用应尽量减少图像跟踪丢失的频率,并能够从故障的丢失状态中快速准确地恢复,以获得良好的AR体验。现有的SLAM数据集通常只提供姿态精度的评估,而且它们的相机运动很简单,不适合常见的移动AR应用场景。基于上述情况,我们建立了一个新的视觉惯性数据集和一系列AR的评价标准,并对现有的单目VSLAM/VI-SLAM方法进行了详细的分析和比较。特别是选择了8种具有代表性的单目VSLAM/VI-SLAM方法/系统,并在我们的基准上对它们进行了定量评价。我们的数据集、样本代码和相应的评估工具可以在网站找到: http://www.zjucvg.net/eval-vislam/.
主要内容
文章开始介绍了视觉SLAM以及VI-SLAM的基本理论,并且最终将两种的SLAM都归结为优化方程,比如视觉SLAM总结为优化相机位姿以及三维特征点的函数
这种优化称为捆集调整(BA)[1],即SfM和VSLAM的核心模块。
对于单目惯性SLAM,通过IMU的数据来恢复和优化单目SLAM中的绝对尺度问题,所以VI-SLAM结合了视觉测量和惯性测量的方式,可视为是VSLAM的扩展方法。所以VISLAM中的BA函数定义为:
接下来文章将着重介绍AR应用中的各种SLAM方案,并进行对比与评价。众所周知,SLAM系统可以通过滤波或优化来求解状态。基于此的SLAM方法可以分为基于滤波的方法和基于优化的方法。并且用于图像跟踪的前端部分也不尽相同。一些方法利用关键点匹配来优化重投影误差。也有一些方法直接使用图像像素最小化光度误差。这里将介绍一些有代表性的单目VSLAM/VI-SLAM方法。
1
基于滤波的SLAM
MonoSLAM是最早的单目VSLAM系统之一。由于它使用扩展卡尔曼滤波器来解决相机姿态问题,所以它是一个基于滤波的SLAM系统。对于Kalman更新步骤,所使用的观测值是标准针孔模型的重投影
2
基于优化的SLAM
基于滤波的SLAM系统不可避免地存在累积误差。据调查,基于优化的SLAM方法比基于滤波的方法具有更高的精度[2],首先介绍基于关键帧优化方法的PTAM,然后介绍了在PTAM之后的ORB-SLAM,它将图像跟踪、局部地图维护和回环检测放在三个线程中,在整个系统中使用ORB特征来提高系统的健壮性。ORB-SLAM使用了两种初始化的方式:单应矩阵模型和极线约束模型,并选择最佳模型初始化前两个关键帧。所以当有足够的运动时,系统会自动初始化。ORB-SLAM的开源激发了许多新的作品,包括基于惯性的ORB-SLAM.
OKVIS是设计用于融合惯性测量VI-SLAM系统,OKVIS的核心优化问题是一个既有重投影误差又有IMU运动误差的滑动窗口优化问题。而VINS Mono是一个强大的视觉惯性SLAM系统。与ORB-SLAM相比,它有许多新的亮点,拥有稳健的初始化与尺度估计。
3
基于直接法的SLAM
以上介绍的SLAM前端需要提取特征点,可以概括为特征点法的SLAM,直接法一般是求解最小化图像的光度误差作为SLAM的前端。直接法和间接法各有利弊。在大多数情况下,特征点法对几何噪声(如镜头畸变或卷帘效应)更为稳健,而直接法对几何噪声可能敏感。另一方面,直接方法对光度噪声更为鲁棒,因为使用了具有强度梯度的所有图像区域(边缘、无特征的墙等)。具有代表性的是DSO(Direct Sparse Odometry)
接下来主要就是介绍基于视觉与惯导的数据的采集以及对采集硬件的介绍,并且与常见的开源数据及进行了对比,同时也介绍了一些相机与IMU对齐和标定的工作。
并且文章介绍到使用了安卓和IOS设备采集各种场景的数据。并将数据集应用到以上的8中SLAM方案中,从跟踪精度,包括绝对误差、相对误差等进行比对,初始化的质量与快慢,以及跟踪的鲁棒性,重定位的耗时等方面进行评价和对比
实验结果
采集场景的介绍
VI-SLAM的跟踪精度的对比
初始化的时间对比
重定位的耗时对比
总结
现有的单目VSLAM和VI-SLAM方法,选择了8个有代表性的系统对我们的基准进行定量评估。虽然我们的视觉惯性数据是由手机采集的,但是评估仍然是在PC机上进行的,由于PC机的计算能力远远大于手机,所以SLAM结果不能真实反映手机上的实际SLAM效果。实际上,许多SLAM系统不能在手机上实时运行。PTAM和VINS Mono的移动版本已经上市。SenseSLAM是专门为移动AR开发的,能够在移动手机上实时跟踪。
由于文章的篇幅限制,有兴趣可以查看文章主页http://www.zjucvg.net/eval-vislam/,查看论文《Survey and evaluation of monocular visual-inertial SLAM algorithms for augmented reality》
参考文献
【1】Triggs B, McLauchlan P F, Hartley R I, Fitzgibbon A W. Bundle Adjustment—A Modern Synthesis. Vision Algorithms: Theory and Practice. Berlin, Heidelberg: Springer Berlin Heidelberg, 2000: 298-372
【2】Strasdat H, Montiel J M M, Davison A J. Visual SLAM: why filter? Image and Vision Computing, 2012, 30(2): 65–77