浪潮万亿AI市场攻略“探秘”

来源:懂懂笔记

“我宣布这款旗舰机的AI Benchmark测试得分为50926!继续霸榜!”

“今天发布的这款旗舰机型,安兔兔测试中获得超过50万的跑分!”

……

如果经常观看智能手机旗舰产品的发布会,想必你一定对这些宣布“跑分”结果的热烈场面耳熟能详。对于普通消费者而言,各方跑分的由来或许难以理解,但是分数的高低与一款智能手机性能强弱的关系,都是无比清晰。

与那些面向C端市场的科技产品不同,如今炙手可热的人工智能领域,也有自己的“跑分竞赛”。这其中最受关注的就是MLPerf,作为目前全球最具影响力的AI计算基准评测组织,MLPerf由图灵奖得主大卫·帕特森联合谷歌、斯坦福、哈佛大学等单位共同成立,每年组织全球AI训练和AI推理性能测试并发布排行榜。

在前不久MLPerf公布的2020年推理测试榜单中,一家中国科技企业的产品一举创造了18项全球性能纪录,并且在数据中心AI推理性能上遥遥领先于其他厂商产品。这一消息不仅在AI领域引起了业内人士的重视,也在国内人工智能应用及落地的进程中,受到了更多行业用户的关注。

如果将各方的声音总结一下,可以大致总结为这三点:

1.为何它能在MLPerf测试中一路领跑?

2.对于国内AI领域的整体影响几何?

3.对于产业AI化是否会产生更广泛的联动效应?

起因:向更远处多看一眼

对于这些问题,浪潮AI&HPC总经理刘军心里或许早就有了答案。

如果将MLPerf比喻为一场AI领域的小型奥运会,浪潮NF5488A5在众多“参赛选手”——全球23家顶尖科技企业和机构中可谓脱颖而出:在数据中心AI性能测试中,全部参与机构提交了507项性能测试数据,浪潮NF5488A5创造了22个赛项中的13项性能纪录,领先优势明显;在面向深度学习的NVIDIA DGX系统测试中,取得了5项数据中心性能纪录;在Resnet50推理任务测试中,获得54.9万/每秒的全球服务器最好成绩,同比19年纪录提升3倍。

可以说,本次参与测试的浪潮NF5488A5堪称硕果累累。而从技术创新的角度来看,这些骄人成绩是“果”,但种下果实的“因”,则是在十年以前。

彼时,浪潮服务器的研发人员还不清楚自己琢磨的这个领域和后来火爆的人工智能是否有关联,或许也没有想到智慧计算乃至智算中心会成为产业趋势。

实际上,2007年GPU加速计算理念提出时,在产业界是饱受质疑的。这种同时采用图形处理单元 (GPU) 和 CPU的计算方式,与“摩尔定律”是殊途且不可能同归。

“当时我们意识到,摩尔定律已经有了衰退迹象,即便是从原来的主频增长变成核数增长,持续下去也会对包括超算在内的很多领域产生很大的制约。我们认为异构加速计算,会作为未来产业战略性的方向,一定要在这方面进行投入。”刘军回忆道。

现在如果评价浪潮服务器的技术创新,可以用前瞻性去定义,但是在几年前,这条路浪潮走得不仅寂寞,而且痛苦。刘军表示,在2016年前的那几年,笃定异构加速计算需要不断投入,而且这种投入短期内又见不到回报,压力可想而知。“毕竟当时它的应用主要集中在高性能计算领域,这一块市场比较狭窄,商业回报也不高,在这个领域里去推进异构加速计算的战略,的确有很多的痛苦经历。”

但是,当时浪潮服务器研发团队不是在“赌”,而是基于多年来对于计算力发展趋势的把握。这种预判,从2010年浪潮发布云计算1.0战略,全面拥抱云计算和大数据就开始凸显。与此同时,浪潮服务器还开启了与互联网公司共同研发和设计产品的JDM模式,积极拥抱互联网。

此后几年,通过与CSP大客户建立面向未来应用的联合定制开发与合作形态,浪潮在多节点服务器这一细分市场异军突起。与此同时,研发团队对于“异构加速计算”的长期技术储备和积累也开始彰显。

彼时,在全球服务器大厂对英伟达研发的NVLink计算系统仍抱有怀疑态度的时候,浪潮却在全球率先全力投入研发基于NVLink的高速AI服务器,当时的浪潮NF5288M5(AGX-2)是全球首款在2U空间内高速互联集成8颗最高性能GPU加速器的服务器产品,而且率先支持部署8块NVLink接口的P100 GPU,包括支持NVLink 2.0。

一个业内共识是,这样一个系统从立项到产品面世需要十几个月的开发周期。当其他大厂发现这个趋势并启动立项时,浪潮的领跑优势开始凸显,“我们这款机器出来的时候,整个客户市场的受欢迎程度非常热烈,别人很难想象这样一个(巨大的)客户需求判断,是在十几个月前做出的。”刘军坦言。

显然,这种预判不是赌也不是靠占卜算命,而是浪潮笃定了这一产业趋势,相信AI就是改变未来计算世界核心的技术创新力。

如果观察近几年浪潮服务器的变化,还有一个特点就是在AI领域的“软硬兼施”。外界对于浪潮服务器的品牌印象一直是“偏硬”,实际上其研发团队在AI计算领域很早就在探索软件和生态的支撑环境。从几年前开始专注异构加速,浪潮就拥有了国内唯一一个强大的GPU硬件软件移植优化团队,并且开始从系统架构层面入手,针对硬件、软件和应用等多个维度的优化和创新。

“实话讲,这个特点和对计算本质的认识,确实对浪潮服务器起了非常关键性的作用。”刘军表示,在GPU加速进入到深度学习领域时,研发团队敏锐发掘并开始应用深度学习AI。当时包括很多大型互联网公司也不具备在GPU加速方面的经验,浪潮与业界领先的AI公司在GPU加速和框架优化方面进行了深入合作,进一步对互联网企业在AI计算方面的软件平台、软件框架方面需求进行挖掘和分析,针对客户的痛点进行深入创新。

研发团队当时开发并开源发布了集群版Caffe(Caffe-MPI),此后成功实现了全球首个并行集成版本的UPI,同时还带来了业界最好的扩展性能;此外在自动机器学习领域,浪潮AutoML Suite已经可以实现企业级一站式模型自动构建,支持本地化和云端部署、并行高效模型搜索等能力;在AI算法创新层面,最新研发的AI大模型计算框架LMS,可将NLP智能语言模型参数规模突破73亿,相比业界主流水平提升20倍以上。“另外,我们最早把计算资源管理和调度技术带入到了AI计算领域中,就是现在大家看到的浪潮AI开发平台AIStation,已经成为国内AI客户应用最广泛的AI资源调度平台。”

通过浪潮在服务器产品创新、算力平台创新、算法优化,架构优化等方面的实力展现,外界可以看到其在智慧计算方面的前瞻性和创新能力,这也是本次浪潮AI服务器MLPerf测试中拿下18项全球性能纪录的直接原因。但是如果仅从技术创新角度这一个点去分析,似乎并不能洞悉浪潮服务器在全球市场持续领先的完整内因。

换言之,浪潮的领跑有着自己的内在逻辑,即在AI大势中形成了内部、外部相融合的正向循环,由聚焦新赛道——技术领先——掌握客户需求——市场头部效应——生态建设,再将资源和能力投入到新的赛道和技术领域,周而复始。

所以,在技术创新的背后,这一正循环的形成包括了用户需求和技术积累的积淀,继而才会有市场引领的状态,以及推进生态建设的长远规划布局。

结果:头部效应和护城河

刘军也强调,正是因为在AI领域的提前布局,浪潮服务器才能够在快速兴起的人工智能浪潮里获得了最大的市场份额,最优质的客户。这里面的关键点,正是“最具趋势性和代表性的用户需求”。

在异构计算领域的研发和投入,并不是浪潮维系自身技术领先的保障,近年来正是基于和BAT等互联网巨头的合作,浪潮才会不断了解到这些行业客户的实际需求,并且在解决用户痛点的同时,积累和沉淀了最有价值的创新能力。这种能力在AI应用市场不断成熟的同时,也帮助浪潮自身实现了全栈AI的布局能力。

说到全栈AI布局,目前在数据中心端,浪潮NF5488M5可以提供适用于图像视频、语音识别、金融分析、智能客服等典型AI应用场景的计算能力;在边缘计算方面,浪潮NE5250M5和NE5260M5边缘计算AI服务器,可以胜任各类边缘侧AI应用,适用于AI训练和推理。

在软件平台方面,浪潮开发的AIStation管理套件可以对计算、存储、网络等基础资源进行管理和调度,同时还集成了主流的AI开源框架和深度学习模型,可以向行业用户提供完整的AI开发工作流服务;在应用框架上,浪潮的Caffe-MPI提供多种优化手段,同时面向高性能计算系统保留良好的并行扩展性。

包括前面提到的AutoML Suite、LMS,这些覆盖计算平台、管理套件、框架优化、应用加速的全栈AI整体能力,并不是浪潮关上门“砸”研发投入“砸”出来的,而是和最先应用到AI技术的行业头部客户,在边磨合边迭代的过程中“推敲”出来的。

只有拥抱这些重量级AI用户,才有机会围绕他们的需求做出更加具有针对性的价值创新,从而形成市场规模效应之外更为重要的竞争力,同时也进一步夯实了浪潮自身的“护城河”。包括在中国AI服务器市场连续三年市占率超过50%(IDC统计数据显示),在行业率先推动OAI开放标准制定,以及持续保持专利领跑的优势,都是规模效应之外“竞争力”的具体体现。

在今年5月份线上举行的“2020年OCP全球峰会”中,浪潮所展示的全球首款OAI开放标准的AI计算系统MX1引发了业界关注,其不仅可以支持多厂商OAM接口AI芯片,还解决了AI计算基础设施建设中硬件分裂化和生态割裂化的重大挑战。

实际上,在此之前,当人工智能领域的基准测试、产品标准等尚处在起步阶段时,浪潮就已经成为多个国际标准组织的骨干,也是唯一一家同时加入ODCC、OCP、Open19三大组织的服务器供应商。作为OCP铂金会员,浪潮一直是OAI项目的重要成员之一,长期与百度、Facebook、微软等科技巨头共同负责开发OAM相关规范。

而在技术专利方面,浪潮2017年就已经取得了令人刮目相看的成绩:在服务器、存储领域申请发明专利4655项,位居全国第一;在云计算及大数据平台及应用领域申请发明专利560项,历年累计6077项,双双位居全国第一。尤其是AI专利方面,根据国家工业信息安全发展研究中心去年底发布的《人工智能中国专利技术分析报告》显示,中国人工智能专利申请量的前四家企业分别是百度、腾讯、微软、浪潮,其中浪潮的专利申请量达到了3755件。

这才是浪潮在笃定异构计算的大方向后,在行业应用中通过“打仗”积累下来的财富。一方面,这些积累形成了浪潮自身的护城河,同时其在技术、客户和市场的领先,也形成了今年行业引领的局面。

如此看来,浪潮作为AI计算领域的领跑者,不仅在多个行业拥有头部AI客户,而且也通过生态建设和更多行业合作伙伴建立了生态布局。但是刘军多次提到了对“AI产业化”和“产业AI化”的取舍,这究竟是什么概念?对于浪潮服务器未来五年的发展,又意味着什么?

未来:千亿和万亿市场的选择

“如果从量级来看,AI产业化是千亿级别的市场,产业AI化是万亿级别的市场。我们在AI产业化可能走的更快一点,在产业AI化上可能需要抓紧赶上去。”这是刘军多次提及的话题,对于产业AI化,他有着更多思考和憧憬。

谈及产业AI化,不能不提去年4月中旬浪潮正式发布的“浪潮元脑”。“浪潮元脑”是浪潮AI全栈能力的载体与具象,它既包含浪潮全球领先的场景化人工智能基础设施,多样化的深度学习框架与工具,以及最新研发的人工智能 PaaS平台和AutoML Suite等“有形”产品,同时也凝聚了浪潮多年积累的人工智能算法优化、系统优化服务、整合一体化交付的“无形”能力。

从本质上讲,“元脑”是浪潮在面对AI产业化和产业AI化时的一种取舍,也是一种迎接更大挑战的态度。“元脑”是一个生态伙伴建设的规划,浪潮希望与伙伴共同构建这个生态,面对目前国内人工智能发展现状,面对产业AI化的落地应用需求,不断实践和完善的一项系统性工程。

浪潮要做的,是持续投入面向AI时代的三个重要方向——计算力输出、服务能力优化及人才培养,帮助和促进生态伙伴的优势互补、强强联合,共同成就行业最终用户。这种AI时代的“多赢”理念,已经超出了传统意义上的“AI产业化”范畴。

在刘军看来,“AI产业化”是指当下AI领域技术领先的互联网、创业企业把自身的技术优势转化为产品,再把产品卖出去形成市场销售,也就是AI本身市场化并形成一个产业——他将此称为“千亿规模的市场”。

“但是产业AI化,则是要深入到每一个行业应用实践中,具体的产品、具体的挑战是要选择适合的算法、模型和处理方式,同时携手理解行业应用场景的开发商、软件商、集成商等,所有合作伙伴共同完成行业应用的落地。”刘军表示,这一市场的潜力是“万亿”规模。

更为关键的是,浪潮认为产业AI化才是未来的大势所趋,而浪潮不仅要投身其中,更要通过“元脑”形成更大的合力,与左右手伙伴共同获得更大的价值。

浪潮将具备AI功能开发核心能力的科技公司称为“左手伙伴”,而具备实施行业AI整体方案交付的SI和ISV则是“右手伙伴”,所有合作伙伴共同面对的挑战,就是如何有效协作、最大化变现自身既有优势,进而融入行业用户数字化、智能化进程中。简而言之,前期投入、市场开拓、整合与系统工作,都要有人来挑头。

实际上,很多中小企业伙伴面对业务压力,都存在一个打磨产品的成本问题,而浪潮也愿意承担这方面的成本。为此,浪潮推出了专项计划——“E基金”,提出将投入亿元资金推动元脑生态的可持续发展。未来“E基金”会对AI方案联合开发、AI重点项目扶持和AI人才培养进行有机结合,以方案开发解决AI技术与行业应用的融合,加速产业AI化的落地。

显然,如今的“元脑”以及背后的生态,仍是一颗“弱小的幼苗”,仍需要浪潮全方面的呵护,“我们也清楚,一个小小的生态如果要萌发和长大,最终变成一个大的生态,早期的施肥浇水、倡导呼吁和亲历亲为是必然的,浪潮要拉朋友圈,撮合合作机会,这需要我们脚踏实地,一个一个小事去做起。”

刘军坦言,目前的“生态建设”还处在爬坡阶段,只有把这个阶段爬过去,浪潮才会与生态里面的伙伴共同成长,帮助他们形成一个个自身的小生态圈。“必须形成所有生态伙伴之间相互的升级,这个事情才能真正的扎下根,最终健康茁壮的成长。这是这个生态中最重要的一点,也是最难的一点,也是一定要做,一定要做好的关键点。”

【结束语】

从旁观者的角度去看浪潮面对的“产业AI化”,其实与当下所有人关注的“新基建”有着太多的契合之处。无论是在智慧计算领域的领先,还是对未来产业AI化的前瞻,浪潮都已经感受到基于云计算、大数据、AI的“新基建”所带来的机遇。

这种机遇不在于“新基建”本身给经济带来的拉动作用,而是通过数字化基础设施的建设,加速传统行业的数字化、智能化转型,进而推动数字经济的发展动能。作为数字化基础设施的重要参与者,浪潮的“爬坡”无疑到了最关键的时刻。

(0)

相关推荐