2021 年计算机视觉的 5 大趋势

计算机视觉(图像识别)作为人工智能产业链中间层的一个基础性领域,在现实世界中具有极大的应用价值,向来都是研究人员、企业通向人工智能领域的桥头堡,这也促成了一大批估值超十亿美元的计算机视觉独角兽,福布斯预计到 2022 年计算机视觉市场将达到 490 亿美元。

数据来源:前瞻产业研究院

计算机视觉技术的目的是解决机器如何感知并理解现实世界所传达的信息,以帮助机器更好地做决策。对于人类来说,“看”是一种与生俱来的无感之一,能够通过父母、老师的言传身教理解眼中看到的世界,而机器则被创造出来便只能按照人类的操作与系统的指令行事,即便有相机能够把外界的图像信息转化为数字信息也无法做到信息的自我处理与理解,在此背景下计算机视觉在20世纪七八年代开始萌生。

计算机眼中看到的图像

计算机视觉的主要目标是让计算机能够通过视觉理解世界,并根据他们的理解做出决策。要实现以上目标,计算机视觉则需要融合图象处理技术、信号处理技术、概率统计分析、计算几何、神经网络、机器学习理论和计算机信息处理等技术,到目前为止计算机视觉已在部分领域超越人类,例如在ImageNet 1000挑战中,微软亚洲研究院视觉计算组基于深度卷积神经网络的计算机视觉系统在ImageNet 2012分类数据集中的错误率已降低至4.94%,而人眼辨识的错误率大概为5.1%。

一方面由于计算机视觉是进入人工智能领域的桥头堡,另一方面随着计算机视觉技术的发展也得到了广泛应用,例如特斯拉的视觉自动驾驶(高级辅助驾驶)、智能手机用的人脸识别、小区停车场的车牌识别系统等……计算机视觉应用无处不在。

苟日新、日日新、又日新,英特尔软件创新者、谷歌开发人员专家Sayak Paul 对此深以为然,认为作为从业者、技术人员和深度学习爱好者,理应关注该领域的最新进展,紧跟最新趋势。作为2020、2021谷歌开源同行奖金奖得主,Sayak Paul认为2021年计算机视觉有五大新趋势。

01

趋势一:资源节约型模型

为什么最先进的模型通常很难在手机、树莓派和其他微处理器等微型设备上离线运行?

较重的模型往往具有显著的延迟(在这种情况下代表单个模型运行前向传递所需的时间),往往会直接影响基础架构的搭建成本。如果基于云的模型托管不是一个可选项(成本、网络连接、隐私问题等)会怎么样?

那么它的构建过程会是这样的:

1. Sparse Training

Sparse Training是将零引入用于训练神经网络的矩阵。之所以能够做到这一点,是因为并非所有维度都与其他维度相互作用,或者换句话说,并非都是重要的。尽管性能可能会受到影响,但它会导致乘法次数大幅减少,从而减少训练网络所需的时间。一种非常密切相关的技术是pruning,即丢弃低于某个阈值的网络参数(也存在其他标准)。

2. Post-Training Inference

在深度学习中使用量化,降低模型的精度(FP16,INT8)以减小其尺寸。借助量化感知训练 (QAT),您可以 补偿因精度降低而导致的信息丢失。对于许多用例,修剪 +量化可以是两全其美的。

3. Knowledge Distillation

训练一个高性能的母模型,然后通过训练另一个较小的子模型来匹配母模型所产生的标签,通过修剪 +量化来提炼它的“知识”。

操作指南:

1. 培养一个更大、性能更强的母模型

2. 通过QAT进行Pruning + quantization

3. 修剪 +量化 Knowledge Distillation

4. 部署

02

趋势二:创造性应用的生成式深度学习

得益于生成式深度学习取得了长足的进步,现在生成性对抗网络 (GAN)几乎可以创建任何以假乱真的图片(thisxdoesnotexist.com有大量案例),它可以实现多种功能:

1.高清修复,可将低分辨率照片修复成高分辨率照片。

2.风格转化,可将现实写真照片转化为动漫卡通风格图片。

3.智能优化,可以像专业人士使用photoshop将图片中遮挡的部分更自然地与自然环境融为一体。

4.隐式神经表征和CLIP能够从文字描述自动生成图像。

除此之外,在代码托管平台Github上还有其他应用项目,你可以使用它开发一个端到端的项目,并且还可尝试改进他们的要素,或许还能发现一些新奇的东西!

03

趋势三:自监督学习

自监督学习并不利用任何地面真实标签,而是使用借口任务。然后,使用一大块无标签的数据集,我们再要求模型学习数据集。

它与受监督学习相比,需要大量标记数据来推动性能的提升,但标记数据目前需要大量人工手动标记是昂贵的且存在错误的可能(Facebook把黑人标记为灵长类动物),并且如此庞大的数据标记与训练还需要占用较长时间。

而它学习无标签数据要求模型与同一图像的不同试图需要一致,但它有可能把两个视觉上不同的物体认为同一个,使用它的好处是数据集便宜。总的来说,SEER等(一种自监督模型)模型在对象检测和语义分割方面的表现要优于受监督学习模型。

04

趋势四:Transformers 与 Self-Attention

Transformers是一种新的机器学习(ML)架构,目前已经成功地应用于各种NLP任务,尤其是序列到序列(seq2seq)任务,如机器翻译和文本生成。

Transformers架构采用的是 Self-Attention(自注意力)机制,其与传统Attention(注意力)机制有很大不同,传统的Attention有source端和target端的隐变量(hidden state)计算Attention,得到的结果是源端的每个词与目标端每个词之间的依赖关系。self-attention,可以看做是在target=source的情况下来计算attention;这种attention方式能够有效获取源端或目标端自身词与词之间的依赖关系。

Transformer 与 CNN相比优点是具有较少的归纳性与先验性,因此可以被认为是不同学习任务的通用计算原语,参数效率与性能增益与 CNN 相当。不过缺点是在预训练期间,对大数据机制的依赖性更强,因为 Transformer 没有像 CNN 那样定义明确的归纳先验。因此当下出现了一个新趋势:当 self-attention 与 CNN 结合时,它们会建立强大的基线 ( BoTNet )。

05

趋势五:Robust Vision Transformer

视觉模型容易受到很多影响其性能的漏洞的影响,目前它们面临以下三个问题:

1. 深度模型对于输入数据中难以察觉的变化很脆弱。想象一下,如果行人被预测为空路会有多恐怖!

2. 深度模型会率先对高频出现的区域做出反应,这使它们容易受到模糊、对比度、缩放等常见损坏的影响。

3. 无法满足模型在训练方面表现一致、无法满足模型在面对异常时以低置信度进行预测,如何使它的性能更强大?

目前有许多技术可以处理这些特定的问题,来增强视觉模型的鲁棒性。

例如进行针对性训练,类似于拜占庭式的容错,基本上是让你的系统在面对绝对最坏的情况时做好自我处理的准备;再比如一致性正则化,实现以RandAugment、Noisy Student Training、FixMatch……

就目前而言我更看好RVT,RVT是一种新型视觉Transformer(模型),具有卓越的性能和强大的鲁棒性。在ImageNet和6个鲁棒性基准上的实验结果表明,RVT具有较好的鲁棒性和泛化能力,从RVT到RVT*的扩展,在多个“鲁棒性”基准上达到Top-1的排名。

最后想说的是趋势是实时变化的,有可能今天是这样明天就不是了,也有可能今年、明天都会按着这个剧本发展,仍需理智看待机器视觉领域。正如Sayak Paul所言:“所有的模型都是不完美的,但有些知道什么时候错的模型也是有用的。”

(0)

相关推荐