自动驾驶中高精地图的大规模生产：视觉惯导技术在高德的应用 / 开普饭

导读：导航、驾驶辅助、自动驾驶等技术的不断发展对地图的精细程度提出了更高的要求。常规的道路级地图对于智能交通系统存在很多不足，针对自动驾驶应用的需求，我们提出了利用视觉惯导技术制作高精地图的方法。

本文将首先介绍视觉和惯导的主流设备，视觉惯导融合的框架和关键技术，高德在基于视觉方式生成高精地图道路标志和地面标识要素的计算方案，最后总结了这项技术在高精地图精度上所面临的挑战和未来发展方向。

视觉惯导技术具有广泛前景

高精地图是自动驾驶的核心技术之一，精准的地图对无人车定位、导航与控制，以及安全至关重要。随着自动驾驶的不断发展，越来越多的车企选择和地图供应商合作。高精度地图需要考虑规模和实时的问题，高德能面向不同品牌车型提供大规模的数据服务，在高精地图行业具有领先优势。

目前，高德完成了全国超过32万公里高等级道路的高精地图数据，采用了搭配激光雷达采集、图像视觉惯导融合两种方式。

通过图像视觉惯导结合的方式采集数据，一方面能大大降低成本。另一方面，基于图像视觉的高精地图在识别上具有一定优势，能提高车道级别要素作业的效率。因此，这项技术在大规模高精地图生产中具有广泛的前景。

高精地图由高精度的地图要素矢量信息组成，获取这些高精度的地图要素信息，一方面是通过识别视觉图像获取地图要素目标，另一方面通过惯导信息获取车辆高精度的位置和姿态，两方面融合得到对应的矢量地图要素。

视觉惯导硬件工具篇

视觉设备

主流视觉设备按照工作方式的不同，相机可以分为单目相机（Monocular）、双目相机（Stereo）和深度相机（RGB-D）三大类。

单目相机结构简单，成本低，劣势在于照片是三维到二维的映射平面，缺少深度信息，无法通过单张图片来计算场景中物体与我们之间的距离，只有运动才能估计深度。

双目相机由两个单目相机组成，但彼此之间的距离（基线）是已知的。我们通过基线来估计每个像素的空间位置。双目相机测量到的深度范围与基线相关，基线距离越大，能够测量到的就越远。

所以，无人车上搭载的双目相机通常会是个很大的家伙。它的缺点是配置与标定均较为复杂，其深度量程和精度受双目的基线与分辨率所限，而且视差的计算非常消耗计算资源。

深度相机原理是通过红外结构光，类似激光传感器，主动向物体发射光并接收返回的光，测出物体与相机之间的距离。这部分并不像双目相机那样通过软件计算来解决，而是通过物理的测量手段，所以相比于双目相机可节省大量的计算。

深度相机缺点是可能存在测量范围窄、噪声大、视野小、易受日光干扰、无法测量透射材质等诸多问题，室外场景较难应用。

针对高精地图需要大规模生产的需求，单目相机因其成本低，安装简单的特点是目前主流的高精地图视觉设备。

惯导设备

惯性导航系统（简称惯导）是一种不依赖于外部信息、也不向外部辐射能量的自主式导航系统。工作环境不仅包括空中、地面，还可以在水下。

惯导的基本工作原理是以牛顿力学定律为基础，通过测量载体在惯性参考系的加速度，将它对时间进行积分，且把它变换到导航坐标系中，就能够得到在导航坐标系中的速度、偏航角和位置等信息，被广泛应用在军事、测绘、资源勘探、机器人、自动驾驶等领域。

惯导系统具有抗干扰、自主性强、数据频率高、稳定性好等优点。按漂移率从小到大可分为导航级、战术级、工业级、车载级和消费级。目前自动驾驶和高精地图制作领域多选用战术级的惯导设备，以满足高精定位需求。

此外，惯导系统已发展出挠性惯导、光纤惯导、激光惯导、微机电系统惯导等多种方式。其中微机电系统（Micro-electromechanical Systems, MEMS）具有体积小、重量轻、功耗低、价格便宜、抗冲击等优点，被广泛应用，目前已拓展至中低精度的战术级应用领域。

惯导系统单独使用时会有累计误差，实际应用中多与以GPS和北斗为代表的全球导航卫星系统（Global Navigation Satellite System, GNSS）等辅助系统构成组合系统，得到载体的全局位置。

当卫星信号丢失时，通过惯导积分可以获取较为准确的实时位姿推算。对于不要求实时性的测绘应用，通过平滑算法能获取更高的定位精度。

在移动测绘领域，惯导的另一个作用是配合激光和相机等外部传感器。通过与GNSS耦合得到的载体位姿，可为图片姿态及激光脉冲发射姿态提供高精高频定位，经过传感器间的外部标定，将对应的信息投射到全局三维坐标系。

惯导的另一种组合方式是与视觉传感器耦合构成视觉惯性里程计（Visual Inertial Odometry，VIO）。视觉传感器在纹理丰富的场景中SLAM效果较好，但是如果遇到移动物体占据照片主体或者特征较少的场景，视觉传感器会失效。

融合惯导数据能提高整体定位精度和连续性。MEMS惯导单元广泛存在于智能手机当中，苹果公司推出的ARkit和谷歌公司推出的ARcore框架都提供了相应的VIO实现，以支持增强现实应用。

多传感器融合的定位导航方案已经成为趋势，惯导系统首先与GNSS组合，再结合图像、激光雷达等传感器构成的组合导航系统是目前自动驾驶及高精地图制作领域的研究热点和发展方向。

视觉惯导框架及关键技术

目前主流的视觉惯导融合框架分为两部分：前端和后端。前端提取传感器数据构建模型用于状态估计，后端根据前端提供的数据进行优化，最后输出相机的位置、姿态和全局地图，架构如图所示：

视觉惯导技术框架中前端和后端的优化是关键技术，本文介绍的是采用滑动窗口的模式进行视觉融合惯导的局部相对优化，当初始化失败的时候考虑融入纯视觉SFM加惯导对齐的方式进行初始化，相对优化之后会有一个全局的优化，最后对整个地图做绝对的优化。

高德高精地图生产技术方案

高精地图的生产主要从两类要素进行，一类是道路标志牌，例如路面导向指示牌，红绿灯等；一类是地面标识，例如车道分割线，导向箭头等。两种类别的地图要素均要先计算出位置，然后把要素和路网关联，得到要素的属性信息和几何信息。

地图要素的生产把人工作业和自动化提取融为一体。首先，通过外业采集的数据进行图像和轨迹的解算，获取自动化所需的视觉惯导信息，根据视觉惯导融合技术生成地图要素，在自动化地图的基础上采用人工进行Web编辑的模型，提高地图要素的精度，最后存储到对应的数据库中去。

感知结果示例：

生成地图示例：

展望

基于惯导视觉的高精地图生产方案有很多，国内外公司像Moment、宽凳科技，lvl5等都在研究，但是从目前市面上看，由于设备成本限制，基于视觉的高精地图精度极限在10cm。

后续，基于视觉的高精地图发展可能是朝着多源数据融合的方向，即同一道路多次采集，不同设备多次采集获取的数据源融合在一起，提高精度的同时提高地图更新的时效。

高德扎根于地图行业，有丰富的地图数据源，有行业领先的自动化生产技术和成熟的工艺流程，为未来基于多元视觉惯导融合的高精地图生产打下了坚实的基础，这些都会进一步推动自动驾驶的发展。

自动驾驶中高精地图的大规模生产：视觉惯导技术在高德的应用

相关推荐