如何入门多视角3D目标识别？超详细最新综述来袭！

2024-06-22 12:29:10

作者丨祁少华、宁欣、杨国为等

编辑丨极市平台

极市导读

本文将对多视角3D目标识别方法的主要进展、代表性研究成果进行介绍，比分析、汇总多数方法的实验性能，总结了多视角3D目标识别研究中的难点和热点、发展趋势。

本文将重点对近年来基于深度学习的多视角3D目标识别方法的主要进展和部分具有代表性的研究成果进行介绍，通过详细的对比分析，以及汇总现有的绝大多数方法的实验性能，总结了多视角3D目标识别研究中的难点和热点，以及可能的发展趋势。

论文下载地址：

https://doi.org/10.1016/j.displa.2021.102053

0 引言

1 背景

2 视点设置与视图输入模式

3 多视角3D目标识别的深度学习方法

4 性能

5 总结和展望

摘要

3D目标识别广泛应用于诸多领域。深度学习越来越多地被用来解决3D视觉问题。基于深度学习技术的多视角3D目标识别，由于可以直接使用成熟的分类网络作为骨干网络，并且来自多个视角的视图可以互补目标的细节特征，因此成为研究的热点之一。然而，该领域仍然存在一些挑战。最近，已经提出了许多方法来解决与该主题相关的问题。本文对应用于多视角3D目标识别的深度学习方法的最新进展进行了全面的回顾和分类，汇总了这些方法在几个主流数据集上的结果，提供了有见地的总结，并提出了有启发性的未来研究方向。

0 引言

随着AI等领域的快速发展，各种环境下的目标识别需求变得迫切而重要。因此，目标识别领域发展迅速。随着3D采集技术和3D物体数据集的增加和成熟，3D目标识别已成为目标识别领域重要且热门的研究方向之一。深度学习是机器学习的一个新领域。由于卷积神经网络的发展，目标识别进入了一个新的阶段。深度学习和CNN在3D目标分类中得到了广泛的应用，并取得了优异的性能。

基于深度学习的3D目标识别方法根据其输入模型可分为三个方向，即基于体素的方法、基于点集的方法和基于视图的方法。在基于体素的方法中，目标被表示为3D网格，并通过三维网络进行分析。在基于点集的方法中，一个对象被表示为一组无序的点，并使用点云进行预测。这两种方法也可以统称为基于模型的方法。基于模型的方法使用3D卷积滤波器来卷积三维空间中的3D形状，从而直接从3D数据生成3D表示。

虽然它们利用了3D物体的空间信息，但实际应用受到计算量的限制。基于视图的方法从不同的视点将3D目标渲染成2D图像，并使用2D卷积滤波器对这些视图进行卷积。基于视图的方法不依赖于复杂的3D特征，并且容易捕获输入视图。它们拥有大量的数据，可以利用成熟的高级网络框架。在遮挡的情况下，不同视点的视图可以互补目标的细节特征，达到很好的识别效果。

自MVCNN问世以来的六年中，基于多视角技术的三维目标识别方法的研究取得了长足的发展。与现有的综述不同，我们的综述侧重于多视角三维目标识别的深度学习方法，主要包括2018-2021年的最新研究成果，创新性地将本综述分为（i）视点设置和输入模式，（ii）主干网络和特征提取，特征融合和视点选择机制，如图1所示。

其中，与二维图像分类最大的区别在于视点设置和输入方式，以及特征融合和视点选择机制。二维图像分类通常不需要考虑这两点，而是分别处理数据集中的每幅图像。在基于多视角的三维目标识别中，从多个角度获取物体的特征，并将其进一步融合以提高识别精度。因此，特征融合成为该领域的研究热点。本文重点研究了现有方法的视点设置和特征融合，并在主流数据集上汇总性能进行了比较。

本文综述了基于多视角的三维目标识别深度学习方法，主要内容如下:第2节介绍了主流的数据集和评价指标。第3节概述了现有多视图三维目标识别方法中使用的视点设置和输入模式。第4节从特征提取和融合策略两个方面综述了基于多视角的三维目标识别方法。第5节总结了大多数方法在几个主流数据集上的性能。第6节总结了基于多视角的三维目标识别的特点，并对未来的研究方向进行了简要的讨论。

1 背景

本节介绍了主流数据集和过去六年中对基于多视角的三维目标识别进行的各种研究中使用的评估指标。

1.1 数据集

表1列出了在多视角3D目标识别的不同研究中使用的主要数据集。

1.2 评价指标

随着视觉内容数量和维度的不断增加，对视觉内容进行快速分类和检索是许多应用的重要任务。通常，基于多视角的3D目标识别方法使用两种类型的评价指标，分类任务和检索任务。3D目标检索涉及在数据集中找到指定的查询目标，而3D目标分类涉及识别给定3D对象的类别。

2 视点设置与视图输入模式

基于多视角的3D目标识别将复杂的3D分类任务简化为简单的2D分类任务，因此需要首先将3D目标渲染成2D图像。执行视点设置的这一步骤以获得具有不同视角的2D渲染图像，使得从不同视图捕获的特征可以是互补且相互关联的，并且可以帮助提高网络的识别性能。在现有的研究中，相机视点通常预先设置在不同的位置，并且从这些视点执行3D目标到2D图像的渲染。然后如此获得的图像被输入到网络中，并且使用2D卷积滤波器完成来自不同视点的所有视图的卷积。根据现有研究中的视图输入，我们将其分为同时输入和顺序输入。

2.1 同时输入

由Su等人提出的MVCNN是基于多视角的3D目标识别领域的开创性工作，其中测试了两个摄像机设置。在第一个相机设置中，假设目标沿着一致的轴(如Z轴)垂直定向。通过在对象周围以30°的间隔设置虚拟摄像机，可以收集12个渲染视图(图2)。相机从地面升起30°，指向目标的质心。第二个相机设置没有利用目标处于相同垂直方向的假设。在这种情况下，由于能够产生目标的良好代表性视图的视点不是先验的，因此他们在二十面体的20个顶点放置了20个虚拟摄影机（我们认为Su等人在文章中写错了，应该是十二面体，因为只有十二面体才有20个顶点）来围绕目标进行渲染。所有的摄像机都指向目标的质心。然后，每个摄像头分别沿通过摄像机和物体的质心的轴旋转0°, 90°, 180°，和270°，生成四个渲染视图，共提供80个视图。网络训练采用同时输入，可以同时从所有摄像机向网络输入任意数量的视图。

2.2 顺序输入

为了解决视图中内容以及空间中视图之间的关系被忽略的问题，Han等人提出了SeqViews2SeqLabels的模型。它类似于GVCNN 的视点设置，它围绕每个3D目标捕捉一个圆内的连续视图，形成由按顺序均匀分布在圆上的V个视图组成的视图序列。相机设置在地面以上30°的角度，并指向3D对象的质心。随机选择圆上的一个位置作为视图序列的开始，并以360°/ V的间隔在相同的序列方向上获取后续视图。虽然3D目标的顶部或底部和GVCNN 一样不能完全覆盖，但Han等人采用的顺序视图方法能够更有效地捕获低级特征，同时保留视图之间的空间信息用于3D全局特征学习。

3 多视角3D目标识别的深度学习方法

受益于CNN的进步及其在2D图像分类中的成功，我们可以通过使用图像描述符的进步和微调3D模型投影的细节来学习2D图像分类的大量一般特征。用于多视图3D目标识别的深度学习方法可以直接使用由优秀的大规模2D公共数据集(如ImageNet)训练的成功的高级分类网络作为骨干网络。这节省了网络训练的时间，将复杂的三维分类任务简化为简单的2D分类任务，提高了网络精度。在该方法中，使用在2D分类任务中表现良好的CNN从2D渲染图像中提取特征，并将提取的特征融合以获得用于分类的形状描述符。图5示出了近年来为多视角3D目标识别开发的深度学习方法的时间轴。

3.1 骨干网络和特征提取

骨干网络是在2D分类任务中表现良好的CNN。它被用于3D识别任务中网络开始时的特征提取和网络结束时的分类；因此，使其作为该方法的框架。3D识别任务首先使用由大规模2D数据集训练的成熟分类网络来提取不同视图中的视图级特征。

3.2. 特征融合

成熟的2D分类网络提取的视图级特征需要特征融合来生成全局描述符并提供精确的对象分类。对于这些方法来说，开发一个将多个视图特征聚集成一个不同的全局表示的过程是一个关键的挑战。原始方法使用从所有视点收集的所有视图。然而，由于处理所有视图需要很高的计算量，并且不是每个视图都有助于识别，因此一些方法引入了代表性视图选择机制，而另一些方法引入了下一视点选择机制。根据现有特征融合方法的不同选择机制，我们将其分为被动视图选择机制、主动视图选择机制和主动像机视点选择机制。主动选择机制可以使网络自动选择最佳视图，从而节省计算成本，提高网络性能。

4 性能

多视角3D目标识别的实验涉及到各种数据集，如ModelNet40/10、ShapeNetCore、RGB-D、MIRO等数据集，包括分类和检索。因为大多数方法使用ModelNet40/10，所以我们对使用ModelNet40/10数据集实现的不同网络的性能进行分类和总结。主要以图像为模态总结了各种方法的实验结果。包含体素、点云和其他模态的不同论文中提供的实验结果表也将一起总结。

5 总结与展望

在3D目标识别任务中，得益于CNN的进步及其在2D图像分类中的成功，基于视图的方法可以直接使用由优秀的大规模2D公共数据集训练的成功的高级分类网络作为骨干网络。这样节省了训练网络的时间，将复杂的3D分类任务简化为简单的2D分类任务，保证了网络的精度。

现有的基于多视角的3D目标识别方法的性能指标已经充分显示了其优越性，但仍有一些方面需要改进。例如，有效地利用多视点图像之间的关系，改进特征融合，已经成为当前研究工作的主流方向。例如，多视点3D目标识别中的被动视图选择方法计算量大，性能有限，而主动视图选择方法仍然需要输入所有视图，存在遮挡等实际问题。计算机视觉的发展要求网络能够自动选择目标的最佳视角，即主动像机视点选择。这些最佳视图将具有最丰富的图像信息和最高的可分辨性，这将有助于网络以尽可能少的输入视图获得最佳的识别性能，并在解决遮挡问题的同时降低移动机器人的成本。未来，主动像机视点的选择将与机器人的主动视觉密切相关，以便机器人能够找到最佳的视点来观察和识别目标。它将是多视点3D目标识别领域的一个很好的发展方向，具有非常重要的应用前景。

作者：

，，，，，，

单位信息：
1、中国科学院半导体研究所；
2、青岛大学；
3、威富视界北京研发中心；
4、中南林业科技大学；
5、中国科学院大学。
引用：

Qi S, Ning X, Yang G, et al. Review of Multi-view 3D Object Recognition Methods Based on Deep Learning[J].
Displays, 2021: 102053. DOI：doi.org/10.1016/j.displa.2021.10205

如果觉得有用，就请分享到朋友圈吧！

基于可见光与红外图像融合的目标识别研究

可见光图像具有丰富的细节信息但不能显示烟雾遮挡或黑暗环境中的热源目标,而红外图像可以显示目标但其边缘信息模糊,将可见光图像与红外图像融合可以提高目标识别的性能.本文首先研究了基于简化轮廓模型匹配的目标 ...
CoCoNets：连续对比的3D场景再现

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为 ...
浙大团队发表3D视图合成新方法，效果远超NeRF、NV

大数据文摘授权转载自HyperAI超神经作者:神经小兮未来,我们的看电影.球赛以及演唱会等的方式,可能被「自由视角视频」(free-viewpoint video)彻底改变. 你可能不知道什么是「 ...
浙大三维视觉团队攻克3D动态人体视图合成难题

回想一下你曾经玩过的 3D 游戏:游戏场景可随鼠标前后左右任意角度移动,玩家也可获得完全沉浸式的体验感受. 与此相同,假如未来 3D 观球方式普及,你也可以用手指移动任意角度,清楚地观看球赛中的扣篮和 ...
开源｜AAAI‘21杰出论文-三维重建新探索：解决数据依赖问题，让自监督信号更可靠！

作者丨许鸿斌来源丨极市平台编辑丨极市平台极市导读现有的方法都是假设不同视图之间的对应点具有相同的颜色,这在实践中并不总是正确的.这可能导致不可靠的自监督信号,并损害最终的重建性能.为了解决这个 ...
视图（盲区）

◎ 视图(盲区)的定义视图定义: 当我们从某一角度观察一个实物时,所看到的图像叫做物体的一个视图. 物体的三视图特指主视图.俯视图.左视图. 主视图:在正面内得到的由前向后观察物体的视图,叫做主视图 ...
把《我的世界》马赛克变成逼真大片！这项AI研究令人想入非非

<我的世界>真是太好玩了! 在这款游戏中,我可以变成光帮助迪迦奥特曼一起打怪兽! 然鹅我想要更真实的奥特曼图像怎么办. 能不能把<我的世界>中的像素块场景世界转换成真实世界的 ...
ICCV 2021 | 牛津&香港理工提出GRF：用于三维表征和渲染的通用神经辐射场

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 210篇原创内容公众号作者:Bo ...
美军推进新一代监控技术研究

导语 2021年5月,美国<国防>杂志刊文<影子战士寻求新一代监控技术>指出,美军需要新一代监控技术来提高未来美国的竞争力,由美国特种作战司令部和情报高级研究计划局负责研究新 ...
如何入门多视角人脸正面化生成？不得不看的超详细最新综述！

作者丨宁欣,南方哲,许少辉,于丽娜,张丽萍审稿丨邓富城编辑丨极市平台极市导读本文将重点对近些年来基于3D模型和深度学习模型的人脸正面化生成方法的主要进展和部分具有代表性的研究成果进行介绍,并通 ...
阿富汗针法入门，新手必备，超详细图解，再不收藏就没了！

下针上针上下针锁针下针:一般由两个符号组成,上半部份是表示下针,下半部份是返回时的钩法符号上针:上半部份是上针符号,下半部份和下针下半部份一样钩,成品有点像棒针的上针加针的两种方法长针和 ...
零基础如何快速入门摄影？这份超详细的知识助你学好手机摄影

很多摄影新手,想要学习摄影知识,却不知道从哪里入手,网络平台的信息虽然丰富,也出现了杂乱无序.质量参差不齐的弊病. 常常走过了很多弯路,才翻山越岭,看到关于摄影的冰山一角.回过头来发现,很多弯路都是可 ...
2020 图像超分最新综述及上采样技术一览

作者丨科技猛兽编辑丨极市平台极市导读本文对超分网络的数据集,常用的4种框架,上采样的方法,训练策略等进行了综述,同时详细解读了如何在多个金字塔级别上逐步重建高分辨率图像以及如何同时设计渐进式的超 ...
深度学习超分辨率最新综述：一文道尽技术分类与效果评测

最近52CV介绍了好几篇图像超分辨率的工作,比如: CVPR 2019 神奇的超分辨率算法DPSR:应对图像模糊降质 CVPR 2019 | 旷视提出超分辨率新方法Meta-SR:单一模型实现任意缩放 ...
深度学习图像超分辨率最新综述：从模型到应用

今日arXiv新上论文<Deep Learning for Image Super-resolution:A Survey>,详细回顾了近年来基于深度学习的图像超分辨率(Super-res ...
电脑组装教程，超详细步骤装机教学视频，新手入门电脑diy主机

电脑组装教程，超详细步骤装机教学视频，新手入门电脑diy主机
国画入门前需要准备需要哪些工具？超详细的工具介绍都告诉你！

工欲善其事,必先利其器.想要学国画,首先要对画国画的工具有详细的了解. 很多人都知道国画是用笔墨纸砚画出来的,但是笔墨纸砚只是一个统称词,今天菌菌就给大家分享一下这些工具的详细分类和用法吧. 国画工具 ...
超详细「气管插管」步骤教程，新手入门就看这个！

本篇是入门版「气管插管」操作教学,适用于普遍的插管情况. 有些力气小的新手,可能不能把舌根完全挑起来,这时的会厌也是完完整整,翘不起来. 记得第一次插管时,喉镜再往前进就压着会厌,不往前进往上抬又翘不 ...

如何入门多视角3D目标识别？超详细最新综述来袭！

摘要

0 引言

1 背景

1.1 数据集

1.2 评价指标

2 视点设置与视图输入模式

2.1 同时输入

2.2 顺序输入

3 多视角3D目标识别的深度学习方法

3.1 骨干网络和特征提取

3.2. 特征融合

4 性能

5 总结与展望

相关推荐