【泡泡图灵智库】自动驾驶高效视觉标签提取
作者: Aseem Behl, Kashyap Chitta, Aditya Prakash, Eshed Ohn-Bar, and Andreas Geiger
来源:CVPR 2020
编译 : Cirstan
审核:wyc
这是泡泡图灵智库推送的第 539篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是Label Efficient Visual Abstractions for Autonomous Driving
众所周知,语义分割可以作为学习驱动策略的有效中间表示。然而,树场景语义分割的任务需要昂贵的注释。此外,分割算法通常是训练与实际驾驶任务无关,使用辅助图像空间损失函数,这些函数不能保证最大化驾驶指标,如每次干预的安全性或行驶距离。在这项工作中,我们试图量化减少分段注释成本对学习行为克隆代理的影响。我们分析了几种基于分段的中间表示。我们使用这些可视化抽象来系统地研究注释效率和驱动性能之间的权衡,即标记的类的类型、用于学习视觉抽象模型的图像样本数量及其粒度(例如对象掩码与二维边界框)。我们的分析揭示了如何以更有效的标签方式利用基于分段的视觉抽象的一些实际见解。令人惊讶的是,我们发现最先进的驱动性能可以通过注释成本的数量级降低来实现。除了标签效率之外,我们还发现在利用视觉抽象时还有一些额外的培训好处,例如与最先进的端到端驱动模型相比,所学策略的差异显著减少。
https://github.com/autonomousvision/visual_abstractions
贡献
总体而言,我们的贡献有三个方面:
1.鉴于相同数量的培训数据,我们根据经验表明,使用与驾驶政策不太相关的课程会导致性能下降。我们发现,只有少数常用的类与驾驶任务直接相关。
2.我们证明,尽管除了专家驾驶演示外,只需要几百张带注释的图像,但通过视觉抽象训练行为克隆策略可以显著优于从原始图像学习驾驶的方法,以及需要大量监督的现有最先进方法。
3.我们进一步表明,当改变训练种子时,我们的视觉抽象会导致很大的方差减少,这在模仿学习中被认为是一个具有挑战性的问题[6]。
算法流程
1.问题
人们对街道场景的语义分割进行了大量的研究,将安装在车辆上的摄像机传感器图像分割成道路、人行道和行人等类别。
一个有用的可视化先验需要对环境的正确假设进行编码,以简化策略学习。在自主驾驶的情况下,语义分割编码图像中的某些像素可以被相似地处理:例如,代理可以在道路上行驶,但不能在人行道上行驶;代理不能与其他车辆或行人碰撞。
然而,目前还不清楚哪些语义类与驱动任务相关,以及它们应该标记到哪个粒度。这激发了我们对视觉抽象的研究,它是一种基于语义分割的场景表示,具有更少的类、更粗糙的注释以及在很少的监督下学习(只有几百幅图像)。我们考虑以下问题:当作为策略学习的视觉先验时,从注释成本较低的数据集中获得的表示在驱动能力方面是否具有竞争力?
2.方法
2.1
我们考虑了一种模块化方法,它包括两个学习映射,一个是从RGB图像到语义标签映射,另一个是从语义标签映射到控制。为了学习这些映射,我们使用两个基于图像的数据集,(i)s= {Xi,Si}n ns i=1,由语义标签标注的nSimple,和(ii)c= {xi,Ci}nCI=1,由专家驱动控制注释的NC图像组成。首先,我们使用分割数据集对由参数为参数的视觉抽象模型进行参数训练。然后,将训练后的视觉抽象堆栈应用于C变换,得到控制数据集C={ A(xi),Ci} NC I=1,用参数THI训练驱动策略πTh。在测试时,通过组合两个学习映射c*=πθ(aφ(x*))来获得图像x*的控制值。
我们的目标是建立一个经济有效的分割数据集,同时对所有相关信息进行编码以进行策略学习。
我们对以下问题感兴趣:选择特定的课程是否可以简化策略学习?
语义分割s将每个像素分配到一个离散类别k∈{1。,K}。如果知道某个像素不属于道路、车辆或行人类别,则知道该像素是否属于建筑类或树类可能不会向驾驶代理提供附加信息。我们有兴趣了解这组类别对驾驶任务的影响。
用很少的图像训练语义表征是否具有竞争性?
在策略学习环境中,驱动代理的训练可以自动补偿分段模型性能的下降。我们的目的是确定一个精简的训练数据集,通过减少训练图像的数目来获得满意的分割模型。
细粒度注释很重要吗?
利用诸如2D边界框之类的粗注释来代替像素精确的分割掩码可以减轻关键的挑战,
细粒度注释很重要吗?
利用诸如2D边界框之类的粗糙注释代替像素精确的分割掩码可以减轻构建分割模型的关键挑战:注释成本[37]。如果可以避免细粒度的标注,我们感兴趣的是如何在训练过程中选择一个φ来利用粗标注。在使用视觉训练时,
哪些抽象行为能减少变异?
行为克隆策略在性能上的显著差异是由于改变训练种子或训练数据的抽样[6]。在自动驾驶的环境下,这是一个问题,在这种情况下,评估一个代理是昂贵和耗时的,这使得很难评估性能的变化是否是算法改进或随机训练种子的结果。由于视觉先验提取了输入的某些方面,如光照和天气,我们有兴趣研究它们在不同随机训练种子下降低策略方差的效果。
在使用视觉训练时,哪些抽象行为能减少变异?
行为克隆策略在性能上的显著差异是由于改变训练种子或训练数据的抽样。在自动驾驶的环境下,这是一个问题,在这种情况下,评估一个代理是昂贵和耗时的,这使得很难评估性能的变化是否是算法改进或随机训练种子的结果。由于视觉先验提取了输入的某些方面,如光照和天气,我们有兴趣研究它们在不同随机训练种子下降低策略方差的效果。
图2 驱动代理体系结构。给定基于分割的视觉抽象、当前车辆速度和离散导航命令,CILRS模型预测控制值
主要结果
1.评估
Abstract
It is well known that semantic segmentation can be used as an effective intermediate representation for learning driving policies. However, the task of street scene semantic segmentation requires expensive annotations. Furthermore, segmentation algorithms are often trained irrespective of the actual driving task, using auxiliary image-space loss functions which
are not guaranteed to maximize driving metrics such as safety or distance traveled per intervention. In this work, we seek to quantify the impact of reducing segmentation annotation costs on learned behavior cloning agents. We analyze several segmentation-based intermediate representations. We use these visual abstractions to systematically study the trade-off between annotation efficiency and driving performance, i.e., the types of classes labeled, the number of image samples used to learn the visual abstraction model, and their granularity (e.g.,object masks vs. 2D bounding boxes). Our analysis uncovers several practical insights into how segmentation-based visual abstractions can be exploited in a more label efficient manner. Surprisingly, we find that state-of-the-art driving performance can be achieved with orders of magnitude reduction in annotation cost. Beyond label efficiency, we find several additional training benefits when leveraging visual abstractions, such as a significant reduction in the variance of the learned policy when compared to state-of-the-art end-to-end driving models.