从智慧计算的点、线、面,读懂浪潮AI的进化轨迹
抽象派画家康定斯基曾这样形容艺术:用点线面这样最基本的语言单位,来表达丰富的内涵,赋予艺术以超凡的精神。
之所以想到这个略显抽象的描述,是觉得艺术的表达与科技产业的构建有着相似的逻辑与内核:都是通过一些具象的符号来彼此交互、牵引、联动,最终呈现出大到人类艺术文明,小到技术进步的完整过程。
在这个ICT技术爆炸、智能世界创生的时代,涌现出了许许多多的符号,比如5G、AI、云计算、IoT、HPC等一系列技术名词,亦或是新基建、数智化、AI产业化等等趋势性的表达。到底智能世界的“魂”是什么?也就成了大众以及每一家企业、每一个行业在变革风暴来临时,渴望率先抓住的本质。
经过了漫长的基础设施与市场教育周期,我想,该有人来回答这个问题了。
前不久,浪潮的NF5488A5在国际权威基准测试MLPerf中打破了18项纪录,拿下了全球AI服务器最好成绩。再结合浪潮在疫情大背景下以53.5%的份额持续领跑AI服务器市场等表现,由它来诠释产业AI化的内涵与外延,似乎再合适不过。
欣赏一部艺术作品,需要对点线面等视觉符号的把握和理解,进而感受出美的真谛。同样,对浪潮勾勒出智慧计算产业形态的点线面体的理解,也成为读懂科技之魂、触达未来的一把钥匙。
点:AI服务器牵引的算力之源
“点”是聚神、点睛的精华之笔,就像一个光源,能让整部作品都发挥出靓丽的光彩。而ICT产业的进化史上,同样有一些重要的关键词,将整个行业推向了全新的发展阶段,比如传统计算时代的集成电路,又比如智能时代的AI服务器。
当我们审视当下如火如荼的AI产业化热潮,会发现其本质是对庞大数据的处理、训练、挖掘来完成产业端的价值创生。蓬勃发展的数字经济,也让提供澎湃算力的AI服务器,成为产学研用各界的共同呼唤。
《2019-2020中国人工智能计算力发展评估报告》显示,全球数据保有量将从2018年的33ZB增⻓到2025年 的175ZB。这一趋势必然导致计算资源水涨船高,实际上,算力基础设施早已是各个企业部署、发展AI的首要支出。
在火热的AI服务器市场中,浪潮的表现可谓一骑绝尘。2020年上半年,浪潮AI服务器销售额达到6.88亿美元,市场份额占比53.5%。从市场规模和产品能力来看,浪潮早已经进入了该领域的领导者象限。
在疫情期间获得这样的增长与业绩,究其原因,一方面源于浪潮本身在高性能计算领域的多年积累,市场根基稳固;另一方面则是踩准了AI计算的需求剧增,顺利完成了产品革新。
拿刚刚打破AI性能纪录的浪潮NF5488A5来说,就在Resnet50训练任务中创下AI性能纪录,以33.37分钟完成百万张图像训练任务的优秀成绩,成为单服务器性能成绩中的榜首。简单来说,就是做AI训练、AI推理都是(该比赛中)最快的服务器。
如果仅仅是去一场比赛、参与一次“跑分”,并不足以成为那把引燃需求的科技之火。浪潮的特别之处在于:
首先,打造产业标准的中国名片。作为业内首套衡量机器学习软硬件性能的通用基准,MLPerf的联盟成员包括谷歌、微软、Facebook、阿里巴巴、浪潮等企业,以及斯坦福、哈佛等高校。而与浪潮5488A5同场竞技的还有来自英特尔、英伟达、联想、广达、技嘉等头部厂商的参赛团队。在这样一个国际化测试中,浪潮NF5488A5的胜出在宣告中国计算实力的同时,进一步拉高了产业技术的实力上限,让产业界和企业客户能够获得给有效的参考标准,成为牵引服务器市场加速进化的中国力量。
其次,强调服务器的全面能力。MLPerf并不仅仅是单纯的跑分,在实际赛程中,设置了数据中心、边缘端等多种开放模型的多个测试,考验的是服务器在AI计算和实际应用场景的综合能力。浪潮NF5488A5问鼎的AI推理基准测试18项纪录中,就覆盖图像分类、自然语言理解、智能推荐、语音识别等场景,在Bert 自然语言理解推理任务中性能达26675条/秒,DLRM智能推荐每秒推理处理能力达210万条。
综合能力意味着,赢得比赛不是服务器厂商们在靠实验室技术“自娱自乐”,而是可以真实进入到语音识别、金融分析、智能客服等大众熟悉的AI应用场景中去的,能够切实提升AI开发与应用效率,加速产业AI化的进程。
最后也最值得注意的是,作为浪潮自研的新一代AI服务器,NF5488A5身上展现出了由软硬件协同带来的卓越性能——这是此次MLPerf全球竞赛中唯一可以在4U空间内支持8块安培架构A100 GPU实现NVLink高速互联的AI服务器。
极致性能并不来自于简单的堆叠,浪潮的综合技术能力被充分投掷在了AI服务器NF5488A5身上。比如在硬件层面,对CPU、GPU硬件性能进行精细校准和全面优化,以在AI推理时保持最优状态;软件层面,结合GPU硬件拓扑对多GPU的轮询调度优化,使单卡至多卡性能达到了近似线性扩展;算法层面,浪潮通过自研通道压缩算法成功实现了模型的极致性能优化,在精度无损的情况下性能提升近2倍。在可靠性上,通过深度优化系统结构设计,浪潮确保了设备能够在高温环境下稳定运行。
对计算需求的充分理解与支持,AI服务器产品的全面技术释放,从这个角度,我们就可以理解,浪潮为什么能俘获如此多企业客户的青睐,成为服务器市场上最强劲的上升力量了。
线:AI融入社会化大生产的桥梁
沿着服务器市场的变化轨迹,不难发现,AI正是进化的初衷和终点。
无论市场还是学术界都认为,AI与高性能计算是一对绝配CP。2019年中国HPC TOP100行业应用领域机器系统份额图中,榜单前十名的产品都具备了AI计算的能力。清华大学计算机系郑纬民教授也曾做出判断,认为“人工智能应用有望成为超算的主流应用”。
原因也很简单,深度神经网络规模越来越大,许多高精度模型的性能都依赖于超大规模数据集的训练。而人工智能的需求猛增,开启千亿规模的市场空间,也为服务器市场带来了全新机遇。
但二者并不是简单地拼凑在一起就能成功,还需要解决许多技术问题。
比如AI计算要用到分布式架构,需要在硬件底层将很多加速器芯片协同在一起工作,为传统数值计算设计的服务器并不适合AI;用经典计算服务器来运行AI算法,无法满足低功耗和性价比需求,不利于产业化等等。
让高性能计算与AI加速融合,成为服务器厂商在技术浪潮中拉开身位的关键赛点。
对于这一挑战,浪潮选择将其划分为三个赛程:
赛程一,全栈AI技术积累,厚积薄发拉开竞争身位。
早在2017年浪潮就发布“智慧计算”战略,聚焦打造全球领先的AI算力。经过数年耕耘,构建起了包括AI框架优化、AI开发管理和应用优化等全栈AI能力,AI专利贡献达到了中国前三。从硬到软的全栈解决方案能力,让浪潮能够驾驭来自产业端的多种AI计算需求。
赛程二, 系统级优化,实现1+1>2的性能提升。
AI计算需要系统化的能力来支撑,包括领先的硬件、强大的软件、高精度的算法等等,通过对其进行整体优化,进而能够实现一致、快速地部署,让浪潮在竞争中形成了区隔。
赛程三,高性价比方案,推动AI泛在化。
从生产、聚合、调度、释放算力这四大关键作业环节,浪潮都进行了创新,来支撑AI在边缘端、移动端、IoT端、车端等各个计算设备上的运行。比如在调度层面,通过从模型开发、训练、部署、测试、发布的全流程一站式高效交付,实现了300%的开发效率提升;在自动机器学习领域,浪潮AutoML Suite可实现企业级一站式模型自动构建,模型大小与计算量极致压缩。这些努力都有效降低了AI在产业落地的成本门槛。
从2017年押注AI,到如今成为AI计算与千行百业之间那道硬核的产业桥梁,浪潮迎来了瓜熟蒂落的收获季,也印证了那句话:凡事预则立不预则废。
面:智算中心的价值空间
当我们漫步AI产业之林,感受从无人驾驶、智能客服、智慧城市等等各个应用场景中所伸展出的一根根引线,就会发现,这一次转型升级浪潮之所以具有澎湃的生命力,是因为借助数字化基础设施,各行各业能够获得智能化动能,进而提升社会整体生产效率。
因此,能否提供适配垂直产业发展需求的算力基础设施,就显得尤为重要,自然也就不难读懂浪潮通过智算中心,从点到面推进AI产业化的核心逻辑。
在浪潮看来,企业渴望通过转型得到的智慧化能力,才是其拥抱AI的终极目标。因此,服务产业不能是单纯的业务数字化,除了增加额外的收集、存储、处理成本之外,并不能达到企业借助智能化提升效率、业务创新的本质诉求。
今年4月的浪潮云数据中心合作伙伴大会上,浪潮率先提出了“云、数、智”三者的融合发展,认为企业的IT基础架构正在从传统数据中心向智算中心转型,要实现业务“赋智”。
总结来说就是,超算中心主要服务于国家基础科研创新,而智算中心则致力于支撑产业界的智能创新,以算力驱动AI模型来对数据进行深加工,为企业和个人提供智能服务,进而推动产业升级和GDP高质量增长。
智算中心听起来很美,浪潮具体是怎么做的?想要回答这个问题,要找到源头,看看产业究竟遭遇了哪些问题。
1.算力需求定制化。各个行业的业务模式、生产体系、数字化需求都各不相同,不光需要硬件和技术,还需要针对性的场景化定制解决方案。为此,浪潮选择将智算中心打造成开放平台,吸引合作伙伴与行业解决方案提供商来共同耕耘,打造垂直行业大脑,完成了通用算力到行业个性化需求之间的衔接。
2.产品性能领先性。在“一力降十会”的AI计算领域,技术和产品性能的领先性,是市场首先看重的。目前,浪潮已经形成了完整齐备的融合架构产品线,为智算中心打造全球领先的算力机组,包括全球性能最强的 AGX-5,全球最高密度 AGX-2等。针对高并发训练推理集群进行了架构优化,推出N20X 智能网络加速方案,打造了业界功能最全的 AI 管理平台AIStation,以及可自动建模、自动调参的自动机器学习平台AutoML Suite。这些动作让浪潮足以支撑起国民级的计算业务。
比如在国有六大银行的服务器中,浪潮的占有率超过50%,每日服务数亿笔金融交易。还帮助中国乃至全球最大、最复杂的在线客票系统,将售票能力从每天1500万张提升至2000万张……类似案例还有很多,如果有人需要寻找一个具备顶尖产品性能的计算厂商,浪潮毫无疑问会是第一选择。
3.普惠AI可持续。对于浪潮而言,要实现普惠AI的目标,除了短期内“授人以鱼”,更需要借助智算中心的标准化开放和规模化集约效应,实现长期可持续的低成本智能服务,让AI像水电、像云计算一样成为新的社会基本公共服务,更快的普及到每个人、每个企业。
可以看到,在浪潮智算中心战略背后,正蕴藏着一场企业IT基础设施的春雷涌动。
体:面向未来的生态循环系统
由点到面的价值释放,足够托举起一个企业在数年间屹立于“浪潮之巅”。如果我们将眼光放到更远的未来,会忍不住思考一个问题,整个产业长期繁荣发展的动能从哪里来?
这并不是在无病呻吟。尽管AI已经进入了产业化高速发展阶段,但依然存在许多瓶颈:
比如标准的不统一。目前网络上开放的AI平台和各种能力百花齐放,AI的开发优化和部署仍然是一项技术复杂度很高的工作,需要一套通用、易用的AI开发和部署环境,降低这项工作的技术门槛。
再比如概念的泛滥。“追赶风口”的人多了,市面上各种各样的软硬件、解决方案、X算中心等等说法五花八门,由于缺乏共识和秩序,很可能会扰乱大众认知、透支信任,进而损害整个行业的形象。引领行业走向规范化,需要领头羊做出更多的努力。
为了搭建一个综合技术、产业、平台的生态循环系统,让数智化热潮的动能长久不息,浪潮也坚定地在生态方面做了许多投入。
对外,2019年,浪潮提出了元脑生态计划,集合了具备AI功能开发核心能力的左手伙伴和具备行业AI整体方案交付能力的右手伙伴,叠加上浪潮的AI最强算力平台,来助力产业AI化落地。比如与百度联合开发的ABC一体机,在钢表面质量检测系统中,2小时完成以前人工检测2、3天的工作量,钢材的缺陷识别准确率达到99%以上。为缓解人象冲突,浪潮与西双版纳国家级自然保护区管护局合作,在雨林内实时收集亚洲象的行为数据和行进轨迹,实现毫秒级精准辨识,准确度高达96%。在金融、电力、交通、智慧城市、石油石化等行业,浪潮的影响力逐步释放。
对内,浪潮积极推动国际化产业技术标准的建立,在全球系统性能评测标准组织SPEC中,发起并担任机器学习(Machine Learning)技术委员会主席。还与百度、Facebook、微软等共同开发OAM加速计算的开放规范(OCP Accelerator Module),推动AI计算多元化融合发展与产业化应用。
比起浪潮自身在AI计算领域的市场成功,这种用生态的繁荣之力,支撑起AI计算产业长久循环的做法,也让浪潮得以收获更为深远的价值成长空间。
魂:写自未来的奋斗史诗
集齐了产业AI中所需要的“点线面体”各个符号,我们可以获得一个关于计算产业在当下的灵魂属性,也得以确认,到底是什么推动了浪潮一路走来。
一个值得注意的细节是,2016年前后,以深度学习为代表的人工智能所展现出的能量在全球掀起了热议,绝大多数同业者还在观望之际,浪潮就做出了非常坚决的战略调整,选择了押注AI,成为当时全球第一个全力投入研发基于NVLink高速AI服务器的公司。
没有任何市场调研数据或者前人的经验可以告诉浪潮,AI服务器到底会不会受欢迎。最后,浪潮全球第一个做出了在2U空间支持做8片NVLink 技术的V100 GPU的AI服务器,还好市场反应告诉他们,自己做对了。
提前一年多的产业趋势预判,靠的是幸运还是玄学?显然都不是,早在多年前的ISC国际超算大会上,浪潮就曾发布过将深度学习与高性能计算相结合的产品,这一次领先全球的技术革新,只是春播秋收的自然规律。
战略方向的大胆判断,执行途中的踏实稳进,产业共荣的开放潇洒,最终形成了浪潮的AI之魂。
惊艳众人的成绩单背后,是搏击风浪、勇立潮头。浪潮相信了未来,于是,未来便流淌在了每一个具象的符号与动作里。