一文看懂英特尔 2018 视觉解决方案及策略,OpenVINO 是关键
电子资讯 犀利解读
技术干货 每日更新
五月份时,英特尔宣布推出OpenVINO工具包,它主要应用于将计算机图形和深度学习技术整合到前沿的视觉应用中。OpenVINO全称为开放式视觉推理和神经网络优化(Open Visual Inference & Neural Network Optimization),其前身是英特尔计算机视觉SDK(Computer Vision SDK),通过工具包中集成的三个全新API:深度学习部署工具包、通用的深度学习推理工具包以及OpenCV和OpenVX的优化功能,支持TensorFlow\MXNet和Caffe框架。顾名思义,OpenVINO的推出,标志着英特尔将计算机视觉与AI完美融合,并且是全开放式的融合。
日前,英特尔举办以“智能端到端,英特尔变革物联网”为主题的视觉解决方案及策略发布会,正式宣布推出OpenVINO。发布会邀请到英特尔物联网事业部中国区总经理陈伟博士,英特尔中国区物联网事业部首席技术官兼首席工程师张宇博士,英特尔中国销售总经理王稚聪以及相关合作伙伴,就OpenVINO如何帮助结合人工智能与机器视觉的物联网应用快速落地进行了一系列介绍与讨论。
英特尔中国区物联网事业部首席技术官兼首席工程师张宇博士表示,英特尔CV SDK只做编解码加速,通过引入Movidius SDK,OpenVINO可以做一个完整的视频处理系统,从编解码到深度学习或者是计算机视觉处理等,让开发者只用一个工具把所有的需求都能满足所有需求。
此前,英特尔为布局AI花费了大量的人力物力,从平台,到框架再到库和硬件,英特尔实现了人工智能全栈式解决方案。
此次发布的OpenVINO,是英特尔针对视觉AI领域的一次重要革命。
为什么是视觉技术?
在智能端到端的物联网领域,英特尔要通过视觉发起这场AI革命。
英特尔副总裁兼物联网事业部中国区总经理陈伟博士表示,选择专注于视觉战略,首先是视觉处理市场不断蓬勃发展的数据挤压到了存储和宽带的要求,因此在边缘计算端有极大的需求,英特尔很早以前就看到了这个态势,因此一直致力于云端和边缘端两方向同时发展,实现边云协和的分布式架构。
第二个原因则是由于计算分析能力和存储能力所限,目前数据有大部分被浪费掉了,并没有进行深度挖掘,所以边缘计算对于未来的数据分析至关重要。
第三,则是深度学习市场被充分打开,陈伟引用了一组数据表示,2016年深度学习市场收入为6.55亿美元,预计到2025年将增长至350亿美元。
陈伟博士,英特尔副总裁兼物联网事业部中国区总经理
那么我们到底需要什么样的边缘计算呢?陈伟表示,实时性、低成本、强大的分析和预测能力以及精准、安全保密的边缘计算是业界所达成的共识。
“眼见为实,视频的数据量是最大的,同时也是最复杂的,人一辈子几十年就是人工智能最好的解说,人们通过观察来训练大脑、同理,现在的边缘计算机也可以用视频区模仿人的能力。在英特尔物联网事业部,我们把视频技术当成是一个横向的技术,是英特尔的一个主要战略。”陈伟说道。
不过陈伟同时强调,边缘计算与人工智能的结合并不是一件容易的事。一个是数据量巨大,一个是碎片化的市场,只有技术平台化才能解决这一系列问题。英特尔几年间在硬件上持续努力布局,随着现在OpenVINO工具套件的发布,标志着英特尔的视觉处理市场生态链有了最强大的软件平台支撑。
陈伟表示,OpenVINO近几个月和中国市场的合作伙伴进行了紧密的合作、开发与优化,此次的首发也只是起点,未来还将对不同硬件进行优化和整合,包括模型和插件的完善、充实与优化等工作。
正如陈伟所说,工欲善其事、必先利其器,搭配英特尔广泛的处理器和OpenVINO开发工具,就是AI视觉市场的器。
OpenVINO的特点及意义
英特尔中国区物联网事业部首席技术官兼首席工程师张宇博士详细介绍了OpenVINO的特点。
英特尔中国区物联网事业部首席技术官兼首席工程师张宇博士
张宇表示,目前在系统端到端的网元中,所能提供的计算量是不一样的,它能够支撑的操作系统也各不相同的,因此有各自不同的芯片架构。比如在摄像机里,一个摄像机的功耗大概15瓦,从15瓦里能够提供给做智能运算的能量有2-3瓦,对于这样的使用场景,类似于ASIC这样的架构是最适宜的。但到了数据中心侧,由于需要一定的灵活度,因此通用处理器更适合。“不同网元有不同适宜的架构,不同芯片有各自不同的开发方法和环境,这样对开发者而言就带来一定的困扰,无形中增加了开发的门槛。”张宇说道。
张宇举例了几个目前人工智能开发时的共识问题,其表示:“作为开发者,已经有了经过训练的网络模型,但是由于推理平台能力有限,只能把网络模型的一部分放到推理平台之上,又或者想要提升终端性能但不知道该如何选型,以及目前使用的人工智能框架不被英特尔的产品支持,无法导入到Movidius或者FPGA平台。”
而OpenVINO正是为解决如上问题所推出的,他是一个高性能计算机视觉和深度学习视觉应用开发的工具套件,能够支持英特尔平台的各种加速器,包括CPU、GPU、FPGA以及Movidius的VPU等,支持异构计算,目标人群是软件开发人员以及开发、监控、零售、医疗、办公自动化以及自动驾驶等领域的数据科学家。
OpenVINO工具包组成
张宇表示,目前在计算机视觉处理领域,有两类方法,一类是深度学习,一类是传统计算机视觉,在物体检测、目标识别等方面深度学习已经开始崭露优势,替代传统的计算机视觉,然而在其他视觉领域,包括光流计算或图像增强等依然是传统的计算机视觉处理方法更有优势。所以,OpenVINO支持这两种实现方式。
OpenVINO的深度学习部署工具套件,可以帮助开发者把已经训练好的网络模型部署到目标平台之上进行推理操作。
目前深度学习部署工具套件主要包括两个网元,一个网元是模型优化器,另外一个是推理引擎。其工作原理是通过模型优化器把开发者经过深度学习框架所开发的网络模型,针对选用的目标平台进行优化,优化结果转换成中间表示文件,建成IR文件。IR文件中包含优化以后的网络拓扑结构,以及优化之后的模型参数和模型变量。
模型优化器是由Python语言编写的,不仅仅能够实现Caffe、Tensor Flow、MxNet上框架之上的模型导入,还可以根据模型进行优化。尤其是在通用处理器上做的训练结果,如果部署到资源受限的嵌入式推理平台之上,必须进行相应的优化。
张宇举例到,在做训练的时候,有可能会存在一个Dropout层,主要的作用是在训练的过程中,把一定比例的神经元失效,这样可避免在训练过程中模型参数陷入一个局部的极小值,而达不到一个最优的效果,但在做推理时,所有神经元都要参与计算,所以Dropout层是没有必要的,因此OpenVINO可以自动发现Dropout层并将其剔除。另外,对于一些激活函数的优化,包括神经网络模型中的卷积层,全邻接层,激活函数层等,都可以交由模型优化其进行优化。目前模型优化器已经验证了超过150个在Caffe、MxNet和Tensor Flow上所设计的模型。
优化之后,推理引擎会读取IR文件,之后会根据选用的目标平台选择相应的硬件插件将IR文件下载到目标平台上进行执行,目前OpenVINO的插件包括CPU插件,GPU插件,FPGA插件以及Myriad VPU插件,在验证完毕之后就可以把推理引擎和中间表述文件一起下载到或集成到最终应用里进行部署。
推理引擎实际上是一套C++函数库以及C++的类,从而实现对输入数据的处理,并得到最终的结果。推理引擎是经过统一的API接口,支持所有英特尔处理器架构,实现深度学习推理所需要的操作。这些操作包括对数据的读取,对输入输出数据格式的定义以及调用相应的硬件的插件。
OpenVINO优化部署过程
利用OpenVINO之后,可以看出FPS帧数性能得到显著提升
在OpenVINO里,还包含一个传统的计算机视觉工具库,其中包含了经过预编译的,而且在英特尔CPU上已经经过优化的OpenCV 3.3版本。张宇提到了一个小插曲,作为计算机视觉领域应用广泛的OpenCV,全称为Intel Open Source Computer Vision Library,于1999年由Gary Bradsky在英特尔位于俄罗斯的研究实验室开发,它是一套可免费获得的由一些C函数和C++类所组成的库,第一个版本于2000年问世。随后Vadim Pisarevsky加入了Gary Bradsky,主要负责管理英特尔的俄罗斯软件OpenCV团队。2005年,OpenCV被用于Stanley车型,并赢得2005年DARPA大挑战。后来,它在Willow Garage的支持下持续并积极发展,转为由Gary Bradsky和Vadim Pisarevsky领导该项目。2016年,英特尔收购机器视觉初创公司Itseez,扩充了OpenCV领域的人才。
除了OpenCV,在OpenVINO™还包含了对OpenVX以及OpenVX在神经网络扩展的支持,同时在媒体、视频、图像处理领域也包含了英特尔媒体软件开发套件,可以帮助开发者方便的利用英特尔CPU里面的集成显卡资源来实现视频的编码、解码以及转码的操作。
OpenVINO支持包括Windows 10,Ubuntu以及CentOS在内的多种操作系统。
OpenVINO支持开发环境一览
张宇强调道,OpenVINO是分层开发的,不同开发者可根据自己需求和开发能力选择不同的API接口进行调用OpenVINO。顾典,英特尔技术专家表示表示,OpenVINO中包含Open Model Zoo,这不是一个简单的网络参考,而是基于网络的组合和融合,把具体的客户的应用实例开发出来,当然这个开发实例不是完整完善的应用,这只是一个参考,但客户完全可以基于Open Model Zoo现成的应用样本进一步的做好开发。
对此,张宇总结道,对于新手来说,OpenVINO包含了很多应用示例,即便不了解算法和硬件底层实现,也可以直接调用相关参考从而实现应用。而对于一些特定应用场景来说,如果有了一些特定应用算法但没有开发人工智能网络的能力,也可以使用OpenVINO把特定的开放网络、标准网络执行在英特尔硬件上从而实现快速开发。而对于高级用户,可以在Caffe 、Tensor Flow、MxNet等框架下设计好自己的网络模型,然后用OpenVINO的模型优化器和推理引擎转换成硬件可识别语言,再下载到平台上进行执行。如果是超级用户,OpenVINO也支持直接调用硬件底层的接口实现对硬件直接的访问。
OpenVINO适合各类层级的开发者使用
英特尔技术专家顾典表示,此次OpenVINO SDK和以往发布有一个细节不一样,就是更新非常快,今年下半年OpenVINO预计有两次重大更新,这也是为了迎合人工智能和深度学习市场快速发展的态势。
OpenVINO工具套件优势总结,包括提高性能、整合深度学习、加速开发和支持创新与定制
在视觉处理市场,英特尔要专注哪些领域?
英特尔中国销售总经理王稚聪表示,英特尔计算机视觉解决方案主要面向六大应用场景:
交通监控。采用英特尔FPGA和Movidius VPU的摄像头可捕捉数据,并自动将其发送至下游十字路口系统,帮助交通部门优化交通和做好规划。这些信息可通过车载系统或应用直接传达给司机,帮助他们规划路线。
公共安全。借助使用OpenVINO工具包开发的Myriad VPU和算法,经过训练的深度神经网络现在可利用推理功能通用面部识别分析并识别失踪儿童。采用了这一技术的城市执法机构可在经过训练的数据集匹配到人群中已报告失踪儿童的脸部时,即时收到相关通知。
工业自动化。英特尔视觉解决方案可帮助智能工厂融合OT和IT,重塑工业业务模式和增长战略。生产控制将可自动、流畅运转,缩短上市时间。
机器视觉。借助人工智能增强工业机器视觉,支持更精准的工厂自动化应用。解决方案组合摄像头、电脑和算法,以分析图像和视频,在边缘提供可以用于指导行动的重要信息。
响应式零售。在边缘使用英特尔计算机视觉解决方案的零售商,可以快速识别特定客户或客户行为模式,从而提供个性化的精准营销服务。
运营管理。通过使用基于英特尔架构的计算机视觉解决方案,零售商可简化运营、管理库存、优化供应链和增强推销能力,并帮助他们发掘数据的更高价值。
英特尔中国销售总经理王稚聪
合作伙伴是怎么说的?
为了证明在视觉处理市场的决心,英特尔特别邀请众合作伙伴为其证言,誓将视觉处理市场的生态系统打造成另外一个计算机市场的蓬勃发展的生态产业链。
对于合作伙伴来说,是否认可英特尔的OpenVINO和AI视觉市场策略呢?英特尔合作多年的老朋友们是这么说的。
云从科技项目总监李军表示,公司2017年开始进入机场项目时,制定了一个策略就是三个月之内将业务全面推广,在这么一个紧急的时间关口中,并没有太多选择,所以云从科技选择了英特尔的平台。事实证明这个选择对业务的推进帮助很大。“英特尔X86架构中的并行计算模块,以及OpenVINO中的核心模块帮助我们在人工智能以及其他行业的广泛应用打下了基础,让我们可以更快速的进行开发。目前我们的这款产品能够在几十家行业客户,以及几百个行业网点中做推广,也是有赖于英特尔成熟的生态体系。如果想用一款产品同时支持几十家不同客户需求时,无论是算法还是应用都变得异常复杂,只有选择合适的平台才可以得心应手。”
浙江大华技术股份有限公司研发中心副总裁殷俊说道,2011年大华和英特尔联合发布首款NVR,把大量的数据存储在VMS上,实现了百路接入,一台机器就可以解决一百路以上的存储。当人工智能在安防行业及其他视觉处理市场的突飞猛进,这个时候Movidius出现,大华便采用Movidius做了一款工业相机,用于产线缺线检测及物品的识别和分类等应用。后来,Movidius又进入安防领域,做了人脸相机、事件检测分析及行为分析等应用,进一步的则是拿热成像将红外传感器数据接入Movidius,实现了测温、森林防火、边境线检查、环保、视频会议等丰富多彩的新兴业务拓展。
2017年,英特尔收购了Altera之后,作为Altera多年合作伙伴的大华,继续和英特尔保持良好的合作关系,在FPGA平台上开发NVR,实现人脸识别等应用。而今年,Myriad X的发布,又让大华和英特尔产生了新的碰撞。
“我们从NVR、云上、中心侧都采用了英特尔的产品,但是我们始终发现开发工作量巨大,Movidius开发工具、英特尔开发工具、GPU开发工具以及FPGA的开发工具没法统一。我们和英特尔一直在探讨一个问题,那就是未来软件将是重要环节,甚至将超越硬件。因为芯片只是解决了计算能力和性能,但软件决定了它的好用和易用性。OpenVINO工具将帮助我们未来在产品化和跨平台开发上的统一,加快厂商解决方案的部署。通过我们的实装体验,OpenVINO不只是简单的编译工具,更是行业优秀的生态工具。”殷俊说道,“未来大华的定位是智慧物联厂商,因此我们将继续重点投入以视频为核心的业务,利用人工智能处理大批量数据,赋能行业,赋能客户。”
宇视研发副总裁AI产品线总监汤立波表示,作为年轻的宇视科技来说,能够得到英特尔对合作伙伴的战略支持非常重要。宇视科技能够在短时间内成长为全球安防行业的第六名,这和英特尔是分不开的。公司成立伊始就与英特尔建立良好的战略合作伙伴关系,所有的云端设备包括大数据服务器、应用服务器、存储服务器等,全部采用了英特尔的CPU。而进入人工智能时代之后,凭借英特尔在人工智能时代的布局,为宇视科技等公司提供了一系列硬件平台以及CVSDK和OpenVINO这类工具包,让公司可以更高效、更快速来开发人脸识别、物体识别、车辆识别等方案,将各种算法落地到端到端的产品中去。
目前,宇视科技基于英特尔的硬件平台及开发工具,实现了接入端到边缘计算端以及云端的全布局。
“两三年前,宇视科技刚刚把产品卖到海外时,因为芯片和操作系统之间时区不匹配的问题,服务器产生了大量的问题,但英特尔专门派团队协助我们快速解决问题。也正是因为英特尔给了我们的帮助,可以让我们快速成长起来。”汤立波表示。
汤立波认为,目前图像处理是一个多算法融合的场景,因此需要不同的硬件平台,但对于小公司来说,很难一站式满足所有的平台需求。此外,对于产业界来说,需要的是成熟且供货稳定的产品,这需要对芯片具有丰富产业经验的企业。“整个产品开发过程中,困难的地方不是开发,而是如何解决问题,所以只有一个非常有经验的企业才能够做出来一款稳定、能够快速解决问题的用于产品化的芯片。”
而对于OpenVINO的价值,汤立波表示:“坦诚来说,OpenVINO具有一定的学习成本,需要先期投入,但从产出来看,OpenVINO有几个非常重要的价值。首先是节约了大量的开发成本,避免在不同硬件平台上浪费大量重复性开发工作。第二则是切实加速产品化过程。围绕在英特尔周围,有很多视觉行业相关公司,但并不是所有公司都擅长工具开发,绝大部分还是以人工智能视觉处理为核心的算法、应用软件、硬件产品形态和解决方案等,所以OpenVINO的推出,可以让生态圈里的厂商获得更好的回报与更多的应用落地。比如宇视科技,技术竞争力在基于英特尔芯片的分布式计算和集群调度之类,而在商业竞争力上则是善于做精准打击。在人工智能领域,我们会专门面向某个场景做精准打击,会基于OpenVINO来做算法的训练,当训练到极致时、产品性能达到极致、产品形态达到极致时,竞争力自然形成了。”
科达研究院执行院长曹李军说道,十年前科达研究院就和英特尔展开了合作,2012年采用传统的机器视觉算法,推出了一系列智能产品,到2017年上半年,所有产品都切换到了深度学习平台上。
目前科达开发出基于第六代酷睿的智能NVR产品,除了具有现有NVR所有功能之外,还增加了人脸比对库、车牌库,用户可以根据需要来设定预警和报警规则,包括人脸黑白名单,以图搜图,人员检索,车牌的黑白功能、属性检索等,这些都离不开英特尔的CPU加OpenVINO的技术。“深度学习网络模型是以大规模数据经过千万次的迭代而形成的结果,转换过程对于我们来说是黑盒,如果要进行模型优化确实需要对算法进行更深入的了解。OpenVINO可以帮我们把整个推理和计算过程可视化,为模型优化和多模型的推理提供了很大的帮助。特别是让我们知其然,也知所以然。”
中科英泰副总裁刘福利表示,公司从CVSDK起就开始使用,目前已经开发了三款产品,包括无人便利店的人脸识别和商品识别,智能扫描结账功能,消费者行为分析等产品。“新零售离不开三大场景,包括对人识别的智慧化,商品的智能化识别以及通过对人、对物的智能化识别基础上,创新出的消费场景,而这些都离不开创新的技术支持。英特尔逐渐从芯片公司走向了多元化、智能化、软件解决方案发展多元的公司,也让我们可以在新零售行业中不断地创新出更多的智慧化的产品。”
大疆创新科技资深产品专家William Wu表示,大疆为了满足行业应用客户的丰富需求,使用了英特尔CPU开发了一款无人机的机载航空电脑,使用这款机载航空电脑,就可以结合大疆的SDK在无人机上实时在线的进行运算、处理、采集、分析和控制的任务。“在无人机领域,串行计算和并行计算是共存的,我们很难找到一家可以同时提供这两者的供应商,英特尔平台给我们提供了强大的创新计算能力,使得在无人机上在线进行行业定制化自主飞行场景成为了可能。OpenVINO工具则能够使无人机机载航空电脑上更好的发挥出CPU核显的并行计算能力,这种串行计算和并行能力共存的机载计算平台也可以更好的贴近了行业应用客户。”
阿里巴巴OS事业部智能硬件研发负责人马飞飞表示,AliOS和OpenVINO的碰撞发生在电子座舱计划中,阿里巴巴希望电子座舱不只是娱乐和信息系统,还需要引入增强现实技术,实时提供车道检测、前遮、碰撞检测以及实施景物提示等功能。
“我们的核心网络前端是一个Encoder,它会生成若干的Feature Map,之后传给Decoder,Decoder分为两路,一路做车道检测,采用了语义分割的网络,第二路是来做物体检测和识别,比人、车、物等等。我们在Apollo Lake平台上起初只能达到每帧270毫秒的处理速度,后来通过采用OpenVINO之后,平均帧处理时间降低到了30毫秒,实现了流畅的驾驶体验。”马飞飞说道。
马飞飞总结道:“OpenVINO可以把客户的软件和硬件非常好的结合在一起,用AI的术语来讲,损失函数降到了最低值,而套用一句论语的话来讲就是,“质胜于文则野,文胜于质则史,文质彬彬,此君子所为也。””
“欲穷千里目,更上一层楼,我们总希望借助视频的能力,使得我们自己、使得全人类能够站得更高、看得更远、看得更清,我相信通过英特尔和合作伙伴携手努力,通过OpenVINO软件工具以及英特尔各种架构的硬件能力的具体体现,能够帮助我们更上一层楼,从而能够看得更远、更清、更准。”王稚聪畅享道。