【泡泡图灵智库】自动驾驶高效视觉标签提取

2024-06-23 15:07:53

作者: Aseem Behl, Kashyap Chitta, Aditya Prakash, Eshed Ohn-Bar, and Andreas Geiger

来源：CVPR 2020

编译 : Cirstan

审核：wyc

这是泡泡图灵智库推送的第 539篇文章，欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是Label Efficient Visual Abstractions for Autonomous Driving

众所周知，语义分割可以作为学习驱动策略的有效中间表示。然而，树场景语义分割的任务需要昂贵的注释。此外，分割算法通常是训练与实际驾驶任务无关，使用辅助图像空间损失函数，这些函数不能保证最大化驾驶指标，如每次干预的安全性或行驶距离。在这项工作中，我们试图量化减少分段注释成本对学习行为克隆代理的影响。我们分析了几种基于分段的中间表示。我们使用这些可视化抽象来系统地研究注释效率和驱动性能之间的权衡，即标记的类的类型、用于学习视觉抽象模型的图像样本数量及其粒度（例如对象掩码与二维边界框）。我们的分析揭示了如何以更有效的标签方式利用基于分段的视觉抽象的一些实际见解。令人惊讶的是，我们发现最先进的驱动性能可以通过注释成本的数量级降低来实现。除了标签效率之外，我们还发现在利用视觉抽象时还有一些额外的培训好处，例如与最先进的端到端驱动模型相比，所学策略的差异显著减少。

https://github.com/autonomousvision/visual_abstractions

贡献

总体而言，我们的贡献有三个方面：

1.鉴于相同数量的培训数据，我们根据经验表明，使用与驾驶政策不太相关的课程会导致性能下降。我们发现，只有少数常用的类与驾驶任务直接相关。

2.我们证明，尽管除了专家驾驶演示外，只需要几百张带注释的图像，但通过视觉抽象训练行为克隆策略可以显著优于从原始图像学习驾驶的方法，以及需要大量监督的现有最先进方法。

3.我们进一步表明，当改变训练种子时，我们的视觉抽象会导致很大的方差减少，这在模仿学习中被认为是一个具有挑战性的问题[6]。

算法流程

1.问题

人们对街道场景的语义分割进行了大量的研究，将安装在车辆上的摄像机传感器图像分割成道路、人行道和行人等类别。

一个有用的可视化先验需要对环境的正确假设进行编码，以简化策略学习。在自主驾驶的情况下，语义分割编码图像中的某些像素可以被相似地处理：例如，代理可以在道路上行驶，但不能在人行道上行驶；代理不能与其他车辆或行人碰撞。

然而，目前还不清楚哪些语义类与驱动任务相关，以及它们应该标记到哪个粒度。这激发了我们对视觉抽象的研究，它是一种基于语义分割的场景表示，具有更少的类、更粗糙的注释以及在很少的监督下学习（只有几百幅图像）。我们考虑以下问题：当作为策略学习的视觉先验时，从注释成本较低的数据集中获得的表示在驱动能力方面是否具有竞争力？

2.方法

2.1

我们考虑了一种模块化方法，它包括两个学习映射，一个是从RGB图像到语义标签映射，另一个是从语义标签映射到控制。为了学习这些映射，我们使用两个基于图像的数据集，（i）s= {Xi，Si}n ns i＝1，由语义标签标注的nSimple，和（ii）c= {xi，Ci}nCI＝1，由专家驱动控制注释的NC图像组成。首先，我们使用分割数据集对由参数为参数的视觉抽象模型进行参数训练。然后，将训练后的视觉抽象堆栈应用于C变换，得到控制数据集C＝{ A（xi），Ci} NC I＝1，用参数THI训练驱动策略πTh。在测试时，通过组合两个学习映射c*=πθ（aφ（x*））来获得图像x*的控制值。

我们的目标是建立一个经济有效的分割数据集，同时对所有相关信息进行编码以进行策略学习。

我们对以下问题感兴趣：选择特定的课程是否可以简化策略学习？

语义分割s将每个像素分配到一个离散类别k∈{1。，K}。如果知道某个像素不属于道路、车辆或行人类别，则知道该像素是否属于建筑类或树类可能不会向驾驶代理提供附加信息。我们有兴趣了解这组类别对驾驶任务的影响。

用很少的图像训练语义表征是否具有竞争性？

在策略学习环境中，驱动代理的训练可以自动补偿分段模型性能的下降。我们的目的是确定一个精简的训练数据集，通过减少训练图像的数目来获得满意的分割模型。

细粒度注释很重要吗？

利用诸如2D边界框之类的粗注释来代替像素精确的分割掩码可以减轻关键的挑战，

细粒度注释很重要吗？

利用诸如2D边界框之类的粗糙注释代替像素精确的分割掩码可以减轻构建分割模型的关键挑战：注释成本[37]。如果可以避免细粒度的标注，我们感兴趣的是如何在训练过程中选择一个φ来利用粗标注。在使用视觉训练时，

哪些抽象行为能减少变异？

行为克隆策略在性能上的显著差异是由于改变训练种子或训练数据的抽样[6]。在自动驾驶的环境下，这是一个问题，在这种情况下，评估一个代理是昂贵和耗时的，这使得很难评估性能的变化是否是算法改进或随机训练种子的结果。由于视觉先验提取了输入的某些方面，如光照和天气，我们有兴趣研究它们在不同随机训练种子下降低策略方差的效果。

在使用视觉训练时，哪些抽象行为能减少变异？

行为克隆策略在性能上的显著差异是由于改变训练种子或训练数据的抽样。在自动驾驶的环境下，这是一个问题，在这种情况下，评估一个代理是昂贵和耗时的，这使得很难评估性能的变化是否是算法改进或随机训练种子的结果。由于视觉先验提取了输入的某些方面，如光照和天气，我们有兴趣研究它们在不同随机训练种子下降低策略方差的效果。

图2 驱动代理体系结构。给定基于分割的视觉抽象、当前车辆速度和离散导航命令，CILRS模型预测控制值

主要结果

1.评估

Abstract

It is well known that semantic segmentation can be used as an effective intermediate representation for learning driving policies. However, the task of street scene semantic segmentation requires expensive annotations. Furthermore, segmentation algorithms are often trained irrespective of the actual driving task, using auxiliary image-space loss functions which

are not guaranteed to maximize driving metrics such as safety or distance traveled per intervention. In this work, we seek to quantify the impact of reducing segmentation annotation costs on learned behavior cloning agents. We analyze several segmentation-based intermediate representations. We use these visual abstractions to systematically study the trade-off between annotation efficiency and driving performance, i.e., the types of classes labeled, the number of image samples used to learn the visual abstraction model, and their granularity (e.g.,object masks vs. 2D bounding boxes). Our analysis uncovers several practical insights into how segmentation-based visual abstractions can be exploited in a more label efficient manner. Surprisingly, we find that state-of-the-art driving performance can be achieved with orders of magnitude reduction in annotation cost. Beyond label efficiency, we find several additional training benefits when leveraging visual abstractions, such as a significant reduction in the variance of the learned policy when compared to state-of-the-art end-to-end driving models.

人工智能计算机视觉的应用方向有哪些？

众所周知人工智能技术分为多个分支,每个分支的应用领域以及应用方向都是不同的,为了能够更加深入了解人工智能,并且顺利入门人工智能行业,需要明白人工智能计算机视觉的应用方向有哪些. 语义分割:让计算机根据 ...
CV之IS：计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图

CV之IS:计算机视觉中图像分割(语义分割)最diao炸(完)天(整)的思维导图导读:此语义导图为某大牛精心整理,感谢无私分享. 相关文章 CV之IS:计算机视觉之图像分割(Image Segmen ...
CV：无人驾驶汽车中涉及的计算机视觉技术简介

CV:无人驾驶汽车中涉及的计算机视觉技术简介无人驾驶汽车中涉及的软硬件结合相关的技术无人驾驶汽车中涉及的计算机视觉技术图像分类模型,在无人车四个感知世界核心任务中的位置如下: 检测:找出物体在环 ...
iPhone上也能运行OpenAI了！

视觉/图像重磅干货,第一时间送达新机器视觉最前沿的机器视觉与计算机视觉技术 206篇原创内容公众号仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 Transformer的模型动 ...
零样本风格迁移：多模态CLIP文本驱动图像生成

重磅干货,第一时间送达来源:GitHub ,新智元 [导读]零样本的风格迁移听说过没有?英伟达一个实习生小哥集文本CLIP和图像生成StyleGAN于一身,只需要输入几个单词就可以完成你想要的风格迁 ...
奥迪推出大型自动驾驶数据集A2D2

今天奥迪公司的研究人员在发布的论文 A2D2: Audi Autonomous Driving Dataset 中,公布了其大型自动驾驶数据集A2D2,并提供开放下载. 目标为推进计算机视觉.机器学习 ...
XYZ“三原色”，助力AI决策类人化

编者按:人类认知的三大属性包括:单语言文本(X),音频或视觉感官信号(Y)和多语言文本(Z).微软通过研究 X.Y.Z 三个领域的交汇处,发现了实现 AI 能力又一次飞跃的可能--以更接近人类的学习和 ...
【泡泡图灵智库】对于协作视觉SLAM的有效地图压缩

泡泡图灵智库,带你精读机器人顶级会议文章标题:Efficient Map Compression for Collaborative Visual SLAM 作者:Dominik Van Opden ...
【泡泡图灵智库】IDA-3D:基于立体视觉的自动驾驶深度感知的3D目标检测

泡泡图灵智库,带你精读机器人顶级会议文章标题:IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Auto ...
【泡泡图灵智库】R2LIVE: 一个鲁棒实时的雷达-惯导-视觉紧耦合的位姿估计和建图系统

标题:R2LIVE: A Robust, Rea-time, LiDAR-Inertial-Visual tightly-coupled state Estimator and mapping. 作者 ...
【泡泡图灵智库】概率回归的视觉追踪

泡泡图灵智库,带你精读机器人顶级会议文章标题:Probabilistic Regression for Visual Tracking 作者:Martin Danelljan , Luc Van G ...
【泡泡图灵智库】NeuralRecon：单目视频的实时Coherent 三维重建

标题:NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video 作者:Jiaming Sun Yiming Xie ...
【泡泡图灵智库】优化RGB-D融合实现精确的6自由度姿态估计

标题:Optimizing RGB-D Fusion for Accurate 6DoF Pose Estimation 作者:Lounes Saadi, Bassem Besbes, Sebasti ...
自动驾驶汽车视觉处理技术初创公司StradVision获得2700万美元的B轮融资

StradVision 是自动驾驶汽车视觉处理技术的创新者,它宣布在由 Posco Capital 领导的 B 轮融资中筹集了 2700 万美元.本轮融资使 StradVision 的总融资额达到了 ...
自动驾驶的视觉感知包括哪些内容？

本文针对自动驾驶行业的视觉感知做简要介绍,从传感器端的对比,到数据的采集标注,进而对感知算法进行分析,给出各个模块的难点和解决方案,最后介绍感知模块的主流框架设计. 目录传感器组件相机标定数据标 ...
【泡泡图灵智库】P2Net: 补丁匹配和平面正则化的无监督室内深度估计

泡泡图灵智库,带你精读机器人顶级会议文章标题:P2Net: Patch-match and Plane-regularization for Unsupervised Indoor Depth Es ...

【泡泡图灵智库】自动驾驶高效视觉标签提取

相关推荐