自动驾驶感知系统是否可以打破障碍物识别不到的魔咒？ / 开普饭

文章转自：北京市高级别自动驾驶示范区

↓聊聊自动驾驶环境感知↓

❤欢迎关注《智驾最前沿》视频号❤

这两天自动驾驶又站在了风口浪尖，外界对于自动驾驶的批判主要在于当前方有障碍物时，为何车辆没能及时识别？本文将对自动驾驶感知系统进行剖析介绍，用更直观的角度带大家了解计算机视觉体系。

对障碍物的识别一直是自动驾驶最重要的环节之一。说到此处又不得不说自动驾驶最突出的部分依旧是感知系统，因为其模仿了人体的视觉功能系统。

感知(Perception)本身的概念来自拉丁语单词Perceptio，意思是'收集'或'接收'。大体上，感知可定义为组织、识别和解释感官信息，以表示和理解呈现的信息或环境。

图片来源：网络

我们如何看世界？

我们通过感官接收信息，即感知类型，包括视觉、声音、嗅觉、触觉和味觉。然而，视觉是人类最主要的感觉，感知近80%的事物。这意味着眼睛优先于其他感官。眼睛由不同的组成部分构成，各组成部分对视力都至关重要。

在人类的感知中，光学细胞的复杂结构捕捉到有关入射光的强度、颜色和位置信息。在信息被发送到大脑之前，视网膜上的神经元会对纹理和运动进行一些处理。总计约15种不同类型的信息通过视神经传递至大脑。

感知让我们能够立即识别周围的各种物体，视觉皮层帮助推断物体之间的关系。当大脑处理有关外部刺激的传入信息时，便创造了外部世界的表象。

自动驾驶汽车如何看世界？

图片来源：网络

对于计算机来说，对象只是一组绿色、红色和蓝色的图像数据集。因此，在自动驾驶汽车中，感知对于模拟大脑对车辆周围环境做出有意义的感知至关重要。

感知任务通常与计算机视觉、机器学习和神经网络有关。简而言之，自动驾驶汽车感知世界的四个核心任务：

检测(Detection)，以识别并确定物体在环境中的位置。
分类(Classification)用于确定目标物体。
跟踪(Tracking)观察随时间移动的物体，例如行人。这对于监控周围物体相对于本车（车辆本身）的速度非常有用。
分割(Segmentation)将图像中的每个像素与语义类别（如道路、车辆和天空）相匹配。

以Apollo为特色的自动驾驶基础，图片来源：Udacity

用于目标检测和分类的计算机视觉

就像人类视觉对感知一样，计算机视觉对自动驾驶汽车的感知亦是如此。用于检测和分类目标的常见方法是首先收集输入数据，例如摄像头图像和激光雷达传感器。

一旦收到数据，通常通过调整大小、旋转和变换颜色对图像进行预处理。图像预处理对提高学习速度至关重要，因此可以更快、更准确地检测目标。提取的特征有助于我们了解特定对象的形状和尺寸。

一旦输入数据得到处理，就使用计算机视觉中的分类模型来预测和确定该对象的类别。图像分类是一种算法，接受输入并输出识别输入的类。图像分类器还可以识别和预测与目标对象相关的行为，如车辆转弯及行人在路边行走。

'术语'目标识别(Object Recognition)'广泛用于包括图像分类（一项需要算法确定图像中存在哪些对象类别的任务）和目标检测（一项需要算法定位图像中存在的所有对象的任务）。'

图像预处理与转化

来自摄像头的图像与来自激光雷达的图像具有不同的尺寸：

1、摄像头图像

摄像头图像是计算机视觉中最常见的数据，其最容易获得。为更好了解计算机如何理解输入图像，请执行以下操作：

可将图像视为二维网格（即矩阵），其中矩阵中的各单元都是一个像素，每个像素都只是一个数值。数值表示颜色和强度的单位。

编辑在计算中是改变像素值。例如，通过添加图像值的比例来更改图像的亮度，或将图像值左右移动以生成所需的输出。

数字网格是许多图像处理技术的基础。大多数颜色和形状变换都是通过对图像进行数学运算并逐像素更改来完成的。这里能想到微积分中学习的数组旋转。

当处理彩色图像时，可以想到三维立方体的值，即RGB图像。每个立方体都有宽度、深度和高度，如下所示。这里的深度是颜色通道的数量：一层为红色，一层为绿色，另一层为蓝色。因此，RGB图像可以由一个薄框（3个堆栈，2维颜色层）来表示，它们共同创建一个完整的彩色图像。

RGB图像：3个堆叠的二维彩色层，创建一个完整的彩色图像

2、激光雷达图像

感知不仅仅是摄像头。激光雷达创建环境的点云图像，可提供通常很难单独从摄像头获得的其他信息，如距离和高度。

激光雷达通过发射激光光束来扫描环境, 并接收反射回来的光束获取检测数据,利用飞行时间测量法获取激光雷达到物体的距离。

以Apollo为特色的自动驾驶基础，图片来源：Udacity

激光雷达用三维来描述图像中点的位置。在上图中，蓝色点表示反射激光的对象。单是激光雷达数据就已创造了足够的空间信息来呈现现实世界，但有配合的摄像头图像，计算机视觉在检测、跟踪和分类目标方面会有更好的性能。

用于转换传感器数据的神经网络

神经网络是机器学习的一个分支，使用特殊算法训练计算机从大数据中学习。机器学习始于20世纪50年代，随着过去20年数字信息的蓬勃发展，直到近年，需求才稳步增长。

人工神经网络的灵感来自组成神经系统的人类生物神经元。我们的生物神经元连接在一起，形成一个神经元网络。类似地，可在机器学习中使用多层神经网络来学习复杂数据。这些经验通常存储在称为模型的数据结构中，而模型使我们能够明晰趋势和预测数据。

卷积神经网络（CNN）透视，图片来源：Miro (medium)

卷积神经网络，有时称为ConvNet或CNN，是一种人工神经网络，特别适用于感知问题。其接收多维输入图像，并使用可学习的权重和偏差为图像中的各种对象分配权重，以便区分目标。与人类大脑工作方式类似，卷积神经网络可以使用诸如车窗+车轮+车灯+颜色=汽车等功能识别图像中的汽车。

与其他分类算法相比，CNN所需的预处理通常要低得多，也就是说，通过足够的训练，CNN可以比原始方法更快学习图像的不同滤波器和特征。这是因为CNN的结构类似于人脑中神经元的连接模式，且受到视觉皮层组织的启发。单个神经元对刺激的反应仅限于视野的一个被称为感受域(Receptive field)的有限区域。这些区域的集合重叠以覆盖整个可视区域，从而实现更快、更有效学习图像数据。

训练神经网络的直观步骤，图源：OVH Cloud

学习或训练包括三个主要步骤：前馈、误差测量和反向传播。

训练的目标是将输入数据分类（实际）和神经网络分类（预测）之间的误差降至最低。

首先初始化权重，这表示人工神经元的值。而后，通过网络为每个图像提供信息，以生成输出值。这一步称为前馈。下一步是误差测量，计算正确的标注数据和前馈过程生成的输出之间的差异。

最后，在反向传播步骤中，我们通过网络向后发送错误，就像前馈过程一样，但却是反向发送。此过程根据发送回的错误调整值，创建一个精确的模型，以便根据新的、不可见数据进行预测。

计算机视觉在自动驾驶车辆感知系统中扮演着重要角色。然而，感知是自动驾驶领域最困难的挑战之一。2019年，以色列计算机科学家、Mobileye首席执行官和英特尔高级副总裁Amnon Shashua在他的一次有关自动驾驶汽车采访中提到，无人驾驶技术的最大挑战是其感知和决策能力。

首要挑战是建立一个比最好的人类驾驶员更能感知道路的自动驾驶系统。

然而，目前最好的驾驶辅助系统每数万小时就会错误地感知环境中的物体，Sashua强调: '我们说的是三个数量级的差距'。为缩小这一差距，他提出了使用摄像头、毫米波雷达和激光雷达的感知系统中冗余的重要性，并建立了高度详细的环境地图，使汽车更容易处理周围环境。

除了Sashua的建议外，还应继续发展强化学习（reinforcement learning）的开发与实践，这将有助于使用多种不同的方法提高模型的准确性和有效性。通过该方法，我们将找到适应任何给定环境并成功完成整个任务的最佳途径。

转载自北京市高级别自动驾驶示范区

自动驾驶感知系统是否可以打破障碍物识别不到的魔咒？

相关推荐