英特尔紫竹媒体分享会:“探秘”半导体巨擘的软硬件协同
英特尔给大家的印象向来都是一家硬件公司,但在现时代多元业务的大环境下,这家国际半导体大厂并不局限于硬件产品的研发,其实英特尔也有在软件方面投入大量的资源,以配合他们的硬件发挥出最大性能和功能,由此可以为客户提供全平台的支持,近日英特尔希望让大家能更多了解到,他们软件开发人员在硬件背后做出的功劳,便特意邀请我们超能网在内的国内多家媒体,参观了他们位于上海市紫竹高新技术产业开发区的亚太研发中心,并分享如今英特尔是怎样通过软硬件协同,为大家带来更好的PC使用体验。
据英特尔介绍到,上海这个亚太研发中心是他们以软件为主要开发工作的基地,2000名员工中有95%是科研人员,而且虽然地点是在我们国内,但业务并不仅仅是本地化,而是面向全球的,ICG、PCCG、DCG等部门的软件部分都是在这里开发的,简单来说,大家平时有用到英特尔CPU、GPU、SSD等硬件的一些驱动、工具其实就是这里员工的成果,另外紫竹还有英特尔近年非常看重的AI、机器学习领域的开发,以及一些系统软件、Android和设备固件的开发等。
而有点意思的是,这也是英特尔首次正式邀请国内媒体参观紫竹的这个研发中心,所以他们用到“紫竹探秘”这样有点走进科学味道的活动名称,也以此希望让我们媒体,还有网友读者们,可以真正认识一下英特尔在软件开发上的投入与进展。
英特尔亚太研发中心的紫竹1号大楼
“紫竹探秘”
英特尔亚太研发中心的技术领导层
英特尔亚太研发中心的历届驻院院士
英特尔分享(1):全平台赋能终端侧AI发展
在第一场媒体分享会上,英特尔视觉计算软件合作部亚洲区总经理高源为我们讲解道,过去包括英特尔在内的大公司,都是主要在云端部署与AI相关的硬件和软件,但现在终端侧AI也蓬勃发展,有低延时、无网工作、隐私保护,以及节省服务器带宽成本四大驱动力,所以英特尔现在为终端侧AI提供了全平台的支持,在硬件部分,英特尔有GPU、CPU和低功耗AI加速器,软件部分则有OpenVINO、MKL等,通过软硬协同,用不同平台来应对不同的AI使用和需求。
首先在GPU部分,由于GPU的高度并行化计算特性,更适合计算密集型、图形显示类的AI应用,而英特尔是世界上最大GPU供应商,市场高达65%份额,还有他们的核显与CPU共享系统内存,响应速度更高,所以综合来看,英特尔在GPU运算AI应用中其实有着很大优势,目前联想新款的十代笔记本上已经有用到他们的超分辨率技术。
英特尔视觉计算软件合作部亚洲区总经理 高源
而在一直都是英特尔强项的CPU部分,他们认为用CPU来跑AI的一大好处是,CPU的通用性更高,不仅有更高的市场份额,软硬件开发平台也很统一,而大家担忧CPU能否满足AI运算性能,英特尔表示对于推理应用,CPU还是可以跑的,而且一些AI应用其实并不需要太高精度的运算,所以在这次十代酷睿中,他们加入了针对AI应用的VNNI指令集,使得在应付一些精度不敏感的AI应用。
另外CPU在跑AI应用时,还可以有相比GPU更低的延迟,最有意思的是,用CPU跑AI,还可以减轻GPU的负担,比如在游戏中GPU的占用率往往是超载的,无法再进行一些AI推理,所以英特尔与韩国NCSoft合作,尝试在游戏中用CPU来进行人物控制的推理运算,获得有不错的效果。
AI自动识别精彩时刻
AI语音降噪
除了GPU和CPU,英特尔还专门设计了低功耗AI加速器,以满足一些AI应用对于低功耗、即时响应的要求,目前有GNA和VPU两个,其中GNA已经集成在最新的第十代酷睿处理器里面了,主要用于处理随时唤醒类的语言助手,其低于100mw的低功耗特点,使得笔记本电脑可以一直运行着这块芯片,保持语音指令的接收和响应。
而另外一个低功耗AI加速器是Movidius VPU,主要是针对视频类AI应用设计(可以理解为用于处理AI的视觉识别),由于其低功耗的特性,英特尔的客户将它用在无人机上,为自动避障功能服务。
尽管有三个不同的硬件平台,但英特尔提供了统一的OpenVINO软件编程工具,可以在不同架构直接做测试和迁移,另外还有MKL(数学核心计算库)在内的Libraries,并对接了TensorFlow、Caffe在内的主流AI框架,所以他们提供的不仅仅是硬件,在软件方面的投入也是有很多,英特尔希望通过软硬件协同的全平台,来帮助业内终端侧AI的发展。
Q&A
(全文Q&A均来自英特尔提供的速记)
提问:您在介绍CPU的时候提到AI虽然不太在乎精度,但也能完成任务,能不能举一个场景化的例子?
高源:其实很多,像语音类、图像类,大多数AI都是有这个特性的。比如,AI能模仿人的大脑。大脑是电信号的刺激,当中的函数不是很精确的,这也是人大脑的工作机制,AI模仿的就是这个的。语音、图像、视频的AI应用都是这样的特点,对精度不是那么敏感。当然这里面也有很多的技巧,不是说直接把FP32影射成int8就可以了,有很多的技巧,但是整体上是可行的。
提问:我看到这张图上有Media Server Studio,是不是就是传闻中明年将发布的显卡。这是预示着要提前发布了吗?
高源:不是的,这是一套软件工具集。
提问:英特尔有CPU、GPU和低功耗加速器,你们在处理AI应用时,CPU是单独去做处理,还是三部分都结合起来给这些AI应用进行加速呢?
高源:我们有单独的GPU做处理的,单独CPU做处理的,也有单独的加速器做处理的。
提问:低功耗AI加速器现在只是英特尔自己有,不会对第三方授权的是吗?
高源:目前是这样的。
提问:英特尔在多大程度上可以实现异构计算,不同负载在不同硬件之间的切换是通过什么机制完成的,是指令还是业务特性?
高源:某个业务在编程的时候我们就指定是在CPU,还是GPU还是在加速器上计算,没有实时切换的情况。
提问:英特尔在2020或者是2021年推出独立显卡,那么英特尔这种显卡当中有没有AI处理单元,它和现在英特尔十代酷睿的AI处理单元有什么区别?
高源:其实对于GPU而言,它整体的架构就是可以支持AI的,因为它是高速并行化的。AI的众多神经元都是需要一个个计算的,在并行化尤其是计算密集的时候是比较适合的。未来英特尔无论怎么发展,GPU都会支持AI的应用。我们有不同硬件架构针对终端侧AI,也有统一软件的工具针对终端侧AI。英特尔是全平台赋能整个AI终端发展的。
英特尔合作伙伴的分享
英特尔还找来他们的三个合作伙伴,网易雷火、YY和相芯科技,向我们媒体聊聊他们利用英特尔全平台进行AI相关开发的看法和情况。
网易雷火
网易雷火事业群高级技术总监邓杰表示,他们在内部有个“伏羲实验室”,是专门针对AI在游戏内应用而设立的,目前主要有两个方面的开发,第一个是通过AI技术提供玩家的游戏体验,比如MMORPG游戏“变脸”,玩家们想把游戏角色变成自己的样子,但通过捏脸其实是比较难做到,所以他们想到了通过AI对照片进行辅助处理,在游戏中自动生成与玩家相似的脸。
网易雷火事业群高级技术总监 邓杰
另外一个方面则是利用AI技术为他们的游戏开发者服务,因为游戏创作过程中,有很多枯燥重复的体力劳动,所以他们通过已有游戏开发数据对AI进行训练,然后在游戏开发中让AI进行加速和节省成本。
而与英特尔的合作上,网易雷火在游戏开发中用到前者提供的工具,并与他们工程师的紧密合作,比如《战意》和《逆水寒》两款游戏中,他们与英特尔工程师合作提高了游戏在多核处理器的性能,甚至让只有集显的平台上,也可以比较流畅地运行游戏。
另外在今年出现的双屏笔记本上,他们还与英特尔工程师一起讨论尝试,在这类笔记本的副屏上,把聊天窗口、小地图、一些关键信息放到上面显示,为玩家带来更好的游戏视野,他们甚至根据副屏的可触摸,在上面实现弹奏古筝的玩法。
YY
YY企业业务总监郑龙哲先生表示,在他们公司(欢聚时代)三大主要业务,音视频RTC、AI技术赋能和商业直播,都有与英特尔紧密合作,首先是实时视频连线方面,因为语音电话、游戏语音、直播等这类使用场景,对音频、视频的处理要求很高,所以他们与英特尔合作,把AI降噪和分析技术放到用户端这边,以达到更好的音视频连线质量。
YY企业业务总监 郑龙哲
YY还利用AI来对网络内容审核进行高效实时的处理,他们想到对音频内容的审核,因为相比视频和图像,音频的审核难度要大很多,需要进行语音转写,还要避免噪音和多人同时说话的干扰,所以他们尝试通过AI把干净的语音信号提取出来,再进行违规内容审核、关键词匹配和自然语言理解等等,这样一套流程可以很好帮助他们实现内容的合规性,从而保持网络环境的净化。
至于商业直播方面,现在YY已经提供了一整套的解决方案,他们与英特尔合作开发的M Show,可以在PC上就实现原来传统专业导播太的功能,这用到了英特尔的编解码技术,AI处理、加特效等等,目前在一些旅游文化直播、娱乐盛典和商业发布会等,都是来自YY在背后的技术支持。
相芯科技
相芯科技资深图形引擎开发经理蔡锐涛,他们公司的两个核心技术是,数字化身驱动以及数字化身创建,由此演化出了人脸AR特效、AI虚拟智能助手和虚拟形象自动生成三种解决方案,这些都是对AI有着重要的驱动力需求。
在他们以PC端客户为主的在线教育中,本来他们使用TensorFlow作为底层的神经网络推理框架,但因为在PC上性能表现不好,所以他们选择与英特尔合作,在换用OpenVINO后,获得更好的优化性能,还有在他们的背景消除应用中,同样使用英特尔Ice Lake架构处理器,OpenVINO有比TfLite fp32达到9.82倍的性能。
相芯科技资深图形引擎开发经理 蔡锐涛
Q&A
提问:我想问一下网易雷火,《逆水寒》之前一直在说要支持光线追踪,也在国内进行了展示,英特尔也一直在做光线追踪技术,包括在GPU方面,《逆水寒》和英特尔会不会在这方面有合作?
网易雷火:光线追踪我们很早出了一个Demo,现在正在做基础的工作。因为做一个Demo到正式产品化之间还有很多工作,而Demo我们只做了一两个场景。目前我们正在面临一些技术架构的挑战,我们要更加深度的去适配DX12,因为这是一个光线追踪的基本要求。我们之前是在特定硬件上跑的,但是未来要正式产品化,我们一直都在对市场上存量玩家的硬件做调查,保证我们推出时大部分的机器都可以跑起来。在达到产品化要求之后,再向整个市场全体玩家开放这个特性。我们和英特尔在CPU、优化、双屏等等各个方面都有非常广泛的合作。
提问:我想问一下相芯科技,最后一张PPT上我看到你们和英特尔的深度合作包括在Ice Lake产品上,有9.82倍的性能提升,我看到用了这个优化之后,友商的产品性能也有了性能提升,是不是说英特尔专门优化了所有友商的产品,在很多场合下也得到提升,但是提升没有英特尔产品那么明显?
相芯科技:这当中最重要的一点是在Ice Lake上我们可以在OpenVINO上用VNNI的指令集,这个问题高总来回答可能更好。
英特尔:我们的架构都是一样的,都是X86,OpenVINO都是可以跑的,但是作为英特尔,并不保证别的厂商产品都一定可以跑,毕竟我们是为自己的平台设计的,只是说我们底层架构是一致的。我们也注意到友商的产品也是有提升的。Ice Lake我们有VNNI指令集,但是友商平台并不支持VNNI,所以我们的提升更加明显一些。
提问:我想问一下网易雷火,刚刚您用来展示的华硕双屏笔记本,它本身更多是定位于创作应用的笔记本,我也留意到市场上有其他的游戏本也带有双屏,《逆水寒》的双屏操作是仅限于在华硕这个笔记本上,还是说其他的双屏笔记本也可以适配双屏操作?
网易雷火:我们不仅是在华硕笔记本上可以适配,我们在做适配工作的时候也外接了一些第三方的显示器,就是直接接在台式机上,它是显示器加主屏的便携显示器,也可以操作和适配,但是体验是不如双屏笔记本好的。
对于像这种笔记本作为一个创作工具,《逆水寒》也对外开放了一个剧情动画编辑器,这个是有一定用户体验基础的,游戏当中也有一些用户创作的内容对外发布的工具,这个硬件用起来也会比较好,但是我们剧情动画编辑器对这种笔记本还没有很好适配,未来我们还会学习一下,看看有没有进一步提升玩家体验的可能。
提问:我想问一下YY直播,直播的鉴别系统目前是不是在大规模应用了?直播AI识别和英特尔合作是在服务器集群上的硬件合作还是软件合作?
YY直播:这是两个问题。第一个问题是内容鉴别系统是否大规模应用?答案是肯定的,而且这是一个非常刚性的要求。如果说互联网上用户自主产生的内容(UGC内容)要确保它符合国家的法律法规,符合社会主流价值观我们必须要进行严格审核,而且是全量进行审核的。我们除了机器审核之后,同时还有一个非常庞大的人工审核团队做最后的保障,所以这个一定是全量,并且一定是一个大规模应用。
第二,AI方面和英特尔的合作。我们在服务器和终端都有合作,你刚刚问到服务器的集群以及终端的设备,其实这两边都会有。比如说目前一些计算量比较大,或者是对实时性要求没有那么高的算法我们会放到服务器端进行。如果说对实时性要求非常高,计算量相对没有那么大,或者说它跟人的互动性更强的一些技术,我们会放在端上。所以应该说是服务器端和PC端都有一些合作。
提问:我想问一下YY直播,不良内容识别现在是纯靠AI技术识别,还是AI加人工的方式?是否能实现纯AI来直接鉴别不良内容,它的及时性是什么样的状况?
YY直播:一定是AI技术加人工的方式,因为技术只是一个手段和保障,为的是把人力从传统的内容审核当中解放一下,更重要的是从原来的抽审变成全量审。比如说YY每天的鉴审量是几亿的级别,如果说人来审,一是人会疲劳,二是人的标准不一样,三是没有办法做到每张都看。但是技术可以,所以技术是第一道保障。然后是人工审核,人工审核是为这个效果做保障和兜底的。所以一定是两步,一个是机审,一个是人审。
另外,这个技术很重要的应用就是所有直播内容需要实时审核,目前我们可以做到100到200毫秒和的延时,用户几乎没有感知,一旦违规内容出现,马上就会被发现。这就是为什么技术可以为我们审核增加一道非常可靠的保证。
提问:今天的主题是端的AI识别,想问一下相芯科技,刚刚向我们展示的数据是基于端的还是基于服务器的,它们的功耗差异有多少?
相芯科技:我刚刚举的在线教育案例是PC端的,而相芯科技更多客户是在移动端的。这只是我们的两个案例,更多的数字我没有展示出来,所以也不方便说具体的数字。但是,提升是非常明显的。
提问:刚刚相芯科技提到,之前没有使用AI技术,后来改用英特尔技术之后性能各个方面都有了显著提升。几位是最初选用了其他平台后来改用英特尔,还是一开始就和英特尔合作到现在?在这个过程中,是什么促使各位去选择英特尔平台,选择之后各位的感受是怎么样的?
YY直播:我们一开始有些PC端的特效就是针对英特尔的平台做的。除此之外,我们在服务器端也有后来改用英特尔平台的。对于YY来说,和英特尔的合作路径有很多方面,在服务器端、终端都有。例如,在我们自己的业务中,音视频的编解码、AR特效、AI审核、音频降噪等等都有和英特尔合作,很难说是原来就用还是后来改用的。最终,我们是看哪一种效果好、速度快、功耗低,尤其是在终端应用。
相芯科技:我们和英特尔的合作是比较机缘巧合的,我们早期的技术架构选型并不是选择英特尔的框架来做的。但是,之后我们和英特尔开展了合作,现在我们部分业务在这个框架上跑起来了,而且有非常好的性能表现。接下来我们会展开更深度的合作,也会在更多技术上做适配,做评估。像YY一样,我们还是客户导向的,客户需要什么我们就去做什么,对端上的用户来说,性能是最重要的。
网易雷火:网易雷火一直和英特尔都有广泛合作。软件层面,英特尔有技术专家和我们对接,使用各种各样的工具来提升我们的游戏性能;硬件层面,英特尔会提供新的硬件供我们测试,在他们大规模上市之前让我们在游戏端产品做适配,这样在上市之后就会有比较好的表现。比如说最近的游戏人工智能,我们也和英特尔做全方位对接,在硬件、软件方面都有合作。
提问:这种为了硬件协同来进行软件服务的购买,占公司整体研发投入的比例如何?对于YY和相芯科技特别强调效果导向的两位,是不是意味着软件服务这一块,对您两位所在的公司来说,切换成本是比较低的?
相芯科技:在英特尔专家的帮助下,我们切换速度是非常快的,这部分的成本对我们来说也比较低,因为我们最重要的部分已经完成了,英特的软件开发工具和平台做的还是非常完善的,所以我们的切换成本很低。
YY直播:关于具体的成本占比是多少我也不太清楚,但是这一块一定是我们考量的因素。对于英特尔这样的平台来讲,软硬件的配合不仅对相芯科技,对YY直播这样的厂商一样是非常重要的,所以我们在选择供应商的时候,也会把这些因素纳入考量。英特尔现在在做的一些软件配合实际上对于我们来说也有很大的意义。切换成本是其中一方面的考量,但是最终我们还是要以效果为主要的导向,哪怕前期多花一些成本,也会效果优先。英特尔目前所做的一些工作,确实对我们的成本有所节省,并且针对YY直播,英特尔也有专门的人员帮助我们一起做这方面的优化,我觉得这方面的成本应该还好。
提问:想问一下网易雷火,刚刚提到和英特尔深度合作的游戏优化,包括AI等等,对于普通消费者最容易感知到的是直观的结果,比如说CPU核心从双核发展到主流6到8核,那么用4核和8核跑游戏是什么样的差别,游戏厂商是不是可以建立一个Benchmark,让我的电脑跑一下,原来4核跑起来是这样的效果,换成8核电脑是那样的效果,让用户有更加直接的感知。
网易雷火:确实,在用户这边有明显感觉,比如说4核、8核的CPU,《逆水寒》的话,基本上6核以上就可以跑出最高性能了,我们还会留出一两个核给玩家跑其他的应用,比如我们有一些玩家会一边玩游戏一边看电影,这也是很正常的操作。我们会和英特尔合作,看目前市场上玩家存量以及新推出硬件有哪些规格,我们再针对这些规格和英特尔实验室对接,把我们的游戏送过来测试,看我们哪些地方有瓶颈,然后进行针对性的改进。
提问:Benchmark这个工具在国外一些大型游戏商的大作里经常会出现,比如说《古墓丽影》有一个Benchmark,它内置了一个的测试工具可以提供测试结果,网易有没有类似的计划?
网易雷火:Benchmark我们这边没有,但是我们有玩家的推荐配置,一般游戏出来之后我们会有最高画质、中等画质、标准画质、经济画质,大家的说法不一样,基本上都会对每一档游戏画质给出一个推荐配置,这也是我们测试过,可以完整把游戏比较流畅的运行起来的。具体说这个游戏在这个平台上可以跑多少帧,我们内部有测试,但是我们没有对外公布,因为玩家电脑会比较复杂,CPU、内存、显卡、硬盘都会对游戏体验有非常大影响,但是组合太多了,所以我们无法提供一个在什么样的硬件下一定可以跑到多少帧。而我们的《战意》是有Benchmark版本的。
提问:我们知道人工智能会使用不同的硬件平台,比如说CPU或者是GPU,之前英特尔推出了OneAPI的软件工具,三位有应用的吗?
相芯科技:我们目前还没有合作到这个方面。
英特尔:OneAPI是我们英特尔刚刚推出的,我们现在还没有来得及大范围的和软件开发商在OneAPI上做一些合作。
英特尔分享(2):软硬件协同创新将极致视觉体验带到PC平台
在下午的分享会上,英特尔继续为我们讲解了他们在软件结合硬件做的一些新成果,首先英特尔显卡软件部门赵波为我们讲解他们怎样把“极致视觉体验带到PC平台”,其实主要是最新第十代Ice Lake处理器有关的新功能特性。
在视频体验方面,英特尔现在已经提供了全硬件加速4K HDR的视频内容播放,包括H.256/HEVC硬解码,支持HDR10和杜比视界,在展示区已经有英特尔与爱奇艺合作,在线提供了支持杜比视觉的视频资源,这些都只需在一台十代酷睿笔记本上就能体验观看到,而且英特尔也很重视影片的版权保护,通过全硬件保护提供最高级别的保护。
英特尔显卡软件部门 赵波
而对于一些低分辨的老电影、照片,手机拍摄的视频,以及网络视频的自适应播放,近年有通过AI处理的方式,来提高画面的显示质量,但视频每秒有30/60帧画面要处理,这对硬件要求较高,所以英特尔在最新一代Ice Lake的核显提高了两倍算力,使得可以做到实时的超分辨率处理。
另外Ice Lake上新增了HEVC编码器,在处理视频直播串流时,输出同样质量的视频流下,可以节省37%的带宽,这对于YY和虎牙这些直播平台可以降低很多的成本,而且编码器因为是全硬件的,所以功耗也很低,只需要5W,比友商的150W显卡要节能很多。
杜比视界
HEVC编解码
在直播方面,英特尔还与国内XSplit合作开发了背景去除方案,这是他们一个GPU和CPU联合优化最好的例子,可以在直播时,对主播的背景进行实时的虚化或去除、替换,这个也可以用到视频通话,以保护隐私。
英特尔认为这些视觉方面的创新功能都是在普惠AI,把先进技术带给用户们,通过CPU、GPU的结合,还有AI技术进行软硬件协同优化,为用户带来更出色的视觉体验。
Q&A
提问:刚刚讲到超分辨率很多方面都在做,相比于其他的GPU优化,英特尔的优势在哪里?
赵波:其实看行业的话,手机行业,英特尔的CPU和GPU,包括在竞争对手的独立显卡上都有同样的技术。这要看你具体应用是什么,因为平台不一样,功耗不一样,算力也不一样。英特尔技术是从算法到软硬件全栈优化的,包括到应用,如何集成到用户的应用当中。总结来说,关键是怎么样做到最优, 我们把软硬件协同优化做到了极致。
提问:你刚刚提到在AI消除背景的环节,比如说用到GPU和CPU联合优化,那么在这个过程当中,CPU和GPU分别是处理什么内容?
赵波:很好的问题,其实上午也有同样的问题,我们的异构计算当中到底是CPU好其是GPU好,怎么分?这和应用场景非常相关。像我刚刚介绍了VCam方案,这个当中是一个背景分割的应用,没有一句话能回答你说到底是负责哪一部分,比如说超分辨率可能是另外一个案例,在那个案例下,我所有应用基本上都集成在GPU当中,因为它是一个原始的图片,对每个像素的数据都要处理,我们建议用GPU,因为GPU可以达到实时要求。但是背景移出对算力要求没有那么高,不需要对每个像素进行处理。我们的Ice Lake CPU有VNNI,也可以加速。
我们与应用开发者都是进行很好的合作,因为他们的这种应用,定义应用场景,我们是有中间的软件和硬件,我们帮助他们把每一个工作负载在英特尔平台上跑得更好,我们提供很好的支持,我们的团队和他们一起去看他们的工作负载,看怎么用我们的软件和硬件把他们的应用做到最好。当然有一些非常通用的东西,我们也提供类似的解决方案,比较共性、流行的东西,我们也会提供一篮子解决方案,但是大多数情况下,我们是和合作伙伴一起去做,我们提供开发工具、软件、经验。
提问:刚刚提到了很多的视频播放的软件,我们有没有对内容产出软件比如说Photoshop针对AI或者是性能的优化?
赵波:英特尔针对几个主流的视频编辑软件都有加速,比如说Adobe的Premiere pro,有集成我介绍的HEVC硬件编码,它有很多基于AI的视频编辑也是用我们GPU加速了的,在美国有专门一个团队支持Adobe。台湾有一家PowerDirector,我们也有专门团队支持。欧洲还有一家Black Magic,它旗下的 DaVinci Resolve在欧洲非常著名的视频软件,我们也有专门的团队,让这个视频软件在英特尔的平台上使它们的性能发挥到最好。
提问:英特尔通过AI让视频变得更加清晰,这个是不是属于渲染?未来英特尔会不会通过独显或者是集显来对游戏进行支持,让画面效果更加优化,以减轻GPU的压力。
赵波:在后续产品当中会看到类似的技术。
实时超分辨率
提问:刚刚提到编码器硬件加速的时候,有一句描述是“5W带来150W的显卡上用户体验”,能不能深入讲一下这一点是怎么实现的?
赵波:每种构架和聚焦的用户有关,比如说友商在游戏上花很多的精力,他们也有HEVC编码器,但是很多时候只是部分加速:它是部分用专门的硬件,结合通用的GPU编程来实现各种格式的编码。而我们是全硬件的,对HEVC编码模块,从输入到输出都用专用硬件来实现整个编码过程,所以功耗更低,我们不是用GPU编程实现的。其实在早期我们也用过部分加速类似方案,但是从Ice Lake开始我们就优化了,我们把所有功能用全硬件加速,可以降低功耗。
提问:如果在Ice Lake平台上使用CPU的HEVC硬件编码器加速,会比现在OBS自己用的NV硬件解码器效率更高吗?
赵波:OBS里面还没有加HEVC,它是AVC,AVC我们也是全硬件的。这种情况下,我建议优先使用集成显卡里面的AVC,因为它的功耗更低,我们的AVC能提供同样的质量,我们的性能和功耗上会有优势。
英特尔分享(3):Intel Parallel Studio XE:软件开发优化动力之源
英特尔软件工具部门汪洋的分享内容则比较硬核一些,他简单介绍了他们软硬件优化用到开发工具:Parallel Studio XE,这主要面向开发人员的一款工具集,从企业应用到云计算,从高性能计算到AI都可以提供支持,它专门针对英特尔平台,在上面开发出来的软件,可以利用英特尔硬件特性,获得更高效的运行性能。
Parallel Studio XE主要分为三大块:用于开发的英特尔编译器和英特尔优化高性能库、用于做性能或正确性分析的工具、用于多节点或计算机集群优化的工具,简单来介绍的是,首先英特尔编译器,在英特尔硬件构架的平台上,他们的编译器可以让程序充分发挥硬件的特性,提升执行效率,而且编译器对开发者也很友好,支持最新的C/C++语言标准,帮助开发人员充分利用编程语言特性,提高开发效率。
英特尔软件工具部门 汪洋
英特尔编译器的扩展性也很好,在未来新的硬件平台上,开发者不需要做大量的代码修改,简单重新编译后就可以用到新的平台,而最后就是编译器的性能,通过基准测试,对比Windows上的微软编译器、Linux上的GCC,英特尔编译器的性能都要明显更好。
而在开发者中流行的Python语言,英特尔也特别提供了英特尔发行版本的Python,这里面有英特尔针对各种算法、函数库优化的软件包,所有相比开源的Python版本,英特尔发行版本的Python有更好的性能,无论在PC端还是服务器端,在Numpy上都有5倍或数十倍的性能提升。
此外在高性能库方面,英特尔还有MKL(数学核心计算库),主要是提供线性代数,向量数学、向量随机数等数学计算函数,一些主流的AI框架都在底层用到MKL做加速,其它的还有用于面向图像处理、数据处理、信号和加解密等的IPP,而为帮助开发者开发高效并行程序的TBB并行编程模板库,以及面向传统机器学习的DAAL库等等。
最后开发调试部分,英特尔也为开发者们提供了多个工具,比如性能分析工具VTune Amplifier,通过分析代码来找出性能瓶颈,让开发者的程序在优化后可以跑得更高效,然后还有Advisor,主要为开发者提供优化代码的建议,让程序可以充分利用英特尔的硬件特性,另外还有用于正确性检查的Inspector,可以帮助开发者找到代码中的问题,更快更容易进行定位和修复。
Q&A
提问:英特尔这么多优化开发的工具,一个开发人员怎么样学习这些工具呢?英特尔是不是有相应的培训措施?另外,用你们这些开发工具优化了这些软件之后,在友商的平台上跑,会不会有优化了但还是没有什么变化的情况?
汪洋:英特尔有很多培训文档和材料,也有很多培训视频。在上海这边有团队专门来支持客户,帮助他们使用这些工具,这也是我们的工作之一。对于开发人员而言,我们经常会和开发人员一起交流、沟通,帮助他们学习。我们希望这套工具被更多开发人员接受和使用,用得越多,无论对开发人员, 对英特尔还是对工具本身,都会从中受益。
关于这个工具是否支持友商的问题。简单来说,这当中有一些功能是英特尔CPU独有的,这些肯定只能支持英特尔,比如说英特尔芯片上的一些特有功能的支持。而有一些通用的优化,友商也是可以支持的。
提问:英特尔有GPU,CPU,SSD,这么多硬件在开发的时候,如何区分不同硬件的优化?
汪洋:不同的应用有着不同的特性,根据这些特性决定是利用CPU做还是GPU做,从我们的工具角度来说,我们会提供一些分析方法或者是分析工具去帮助和指导开发人员做判断,看特定的应用场景是适合用GPU做还是CPU做,或是使用其他硬件实现。
提问:你们在做性能对比的时候,很多软件都是二三十倍的提升,这个提升是不是在特定硬件下才可以达到这样的水平,用英特尔8代或者是9代的处理器,二三十倍的性能提升是不是会有一定的下降?
汪洋:这个需要具体问题具体分析。比如说我刚刚提到二三十倍提升是不可能适用所有硬件。我们的基准测试选择是当前开源某一个主流的版本和我们目前的版本进行相比,硬件也是用当前市场上主流的硬件产品,可以反映出当前最佳的性能对比状态。英特尔也花了很多时间,人力,精力去优化开源社区上的一些软件。经过一段时间以后,虽然这些性能优势可能没有那么明显,但最终受益的还是开发人员。
提问:刚刚有开发工具当中有专门为AVX2和AVX-512做增强性优化。AVX-512也是英特尔的高端产品,我想确认一下,如果说在没有专用的512那么长数据的时候,对应的计算机会被切割装载其他的短指令在AVX-512上进行吗?编译器有没有对应的功能?
汪洋:对编译器来讲提供了很多功能,通过编译选项的控制, 优化可以专门针对某一类硬件处理器进行, 也可以面向一系列的处理器类型。 通过运行时处理器支持指令的检查,当处理器支持AVX512的时候,程序会自行对应的AVX512的优化, 而当处理器不支持AVX512的时候, 程序会执行其他的优化路径, 比如AVX2或者SSE的优化。这样通过动态的调整,编译优化的程序可以在多个处理器上同时得到最佳的优化方案。
提问:比如说现在竞争对手已经开始提供256位的AVX计算单元,如果说开发人员用的英特尔编译器,竞争对手对应的256位的指令集是如何处理缩短成128位的,还是双通直接做512位的?
汪洋:AVX指令256位的都是特定指令以及特定的计算器,通过编译选项的控制可以编译出可以在所有支持X86的平台上运行,也可以只在某个特定指令集的平台上运行。对我们的开发人员而言,如果说程序要在不同的机器上都要能够运行,只需要打开特定的编译选项即可。如果这个程序是给某一个特点硬件机器设计的,比如说某一个应用只会用到英特尔CPU,通常在一些特定的功能机上,就可以把专门针对英特尔CPU的优化选项打开。
提问:如果说开发人员不小心选了高规格的计算机,但是它的硬件并没有这个规格,程序再次编译的时候,会自动调到AVX2上处理吗?
汪洋:编译器编译的时候可以有一个默认的优化指令集,这个默认指令集是SSE2,是现在所有的CPU都支持的指令集。 这个默认支持的指令集是可以通过编译选项修改的,这些都是开发人员可以控制的。
英特尔分享(4):英特尔PC的Web技术助力中国应用开发新时代
在前端程序方面,英特尔Web技术部张琦介绍了有关于Web应用的前端开发情况,因为他们看到了随着HTML 5技术,以及Web平台能力越来越强,Web 3.0时代已经带来,越来越多的应用开始向Web迁移,而这个新一代Web的主要特点是物与物的互联,所以英特尔积极跟进投入到Web技术的开发和支持上。
英特尔Web技术部 张琦
目前新兴的Web技术主要包括了WebNN,用于在网页浏览器中实现神经网络、AI应用的加速运算,人脸识别、背景消除这类应用其实已经可以在网页浏览器中实现,然后是即时通讯用的WebRTC,能在网页中提供音视频通讯应用,还有把比较底层的GPU API提供给浏览器调用的WebGPU,在网页中也可以实现3D渲染,另外还有英特尔提供支持的Fugu,以及面向区块链的Web BlockChain。
当中比较特别的是PWAs,渐进式Web应用,这个其实是把Web应用封装成本地应用的形式,使得不需要一定在浏览器中运行应用,打开后的UI也与本地应用相似,而且PWAs具备离线使用的特性,即使没有网络,用户也可以使用Web应用,待到恢复网络后,应用会自动更新信息。
WebNN演示
WebGPU演示
为了让前端开发程序员们更好地利用这些Web技术来开发应用,英特尔在所有跑Web应用的主要运行库当中,都进行了深度优化,帮助开发者们尽可能利用到英特尔的硬件特性,比如在用到WebRTC的通讯应用中,英特尔web团队帮助开发者用到硬件编解码器,而WebGL应用,则可以用到英特尔的GPU等等。
英特尔表示,他们虽然不是做网页浏览器的,但他们与网页浏览器开发商紧密合作,帮助后者充分利用到英特尔平台的功能部件,以提高最终用户的使用体验,目前英特尔已经为Chromium社区提交了8288个代码补丁,并在社区方面扮演领导者的角色,主导相关技术标准的制定,同时他们也中国的前端开发者们提供帮助,促进他们更加了解Web应用的发展。
Q&A
提问:现在在一些直播网站,在自己的客户端当中集成了英特尔HEVC编码器的支持,直播网站是一个网页的时候,能不能在网页当中直接调用HEVC的编码,在网页当中开始直播?
张琦:程序员并不需要知道底下用的编码器或者是解码器是什么,在浏览器层面很多时候会根据视频源帮他选择对他最有利的编解码器是什么样的,这是在浏览器层面解决掉的问题。
提问:你刚刚提到了小程序,现在手机浏览器是不是可以支持英特尔的Web技术?
张琦:我们团队既然是英特尔的软件团队,我们的主要任务是专注于在PC上的用户体验优化,如果是手机上的应用,Web是一个很大的生态系统,我相信其他团队会去做这件事情,但是对于我们说,我们就是专注于将英特尔PC的能力能够在PC浏览器上,包括其他的一些Web应用上充分利用英特尔平台特性,这是我们的任务,其他的比如说移动平台,我想友商可能有类似的工作。
提问:我想问一个关于安全性的问题。我们现在应用开发正在向Web端转移,从安全性上来说有没有什么变化?
张琦:非常好的问题。很多时候我们想到Web,它的主要特点就是Web对安全和隐私是非常重视的。如果说从本地应用移向Web时,有一个好处之一就是天生的会把Web的很多隔离技术应用起来,会直接享受到Web带来的好处。比如说有一个技术是网站与网站之间的隔离,在Web当中,一个网站和另外一个网站共享应用是非常严格的。如果你是一个Web应用你天生就要符合这些规范,所以你天生就享受到了Web的好处。在英特尔平台上,我们对安全也是非常重视的,我们从运行栈的最上一层到最下面一层都会检视这里面有没有安全漏洞。
提问:系统方面,在苹果IOS上,英特尔有没有什么合作,因为苹果的系统相对封闭一些。
张琦:苹果的浏览器不是基于Chromium开发的。现在macOS上,至少我们最近在编解码器层面我们有一些合作的,当然他们的MacBook也使用英特尔的芯片。
提问:最近我们在比较友商处理器,因为现在在各个层面上已经有和英特尔对位的处理器了,我们在比较处理器的时候,英特尔技术团队提到了Web应用优势问题,能不能给我们分析一下,同等处理器上,在Web应用上,英特尔有哪些方面的优势?
张琦:实际上我们在英特尔平台上的这些应用的性能表现我们是有密切跟踪的,另外我们有一个单独的团队专门看我们的性能和友商性能比较优势。但是很不幸,这些数据我无法放到这里,实际上我们内部是有这样的比较数据的,有时间我们可以在以后详细沟通。