MLperf基准测试榜首的“常青树”,浪潮攀上AI技术的“珠峰”

美国时间6月30日,国际权威AI基准测试MLPerf™刚刚公布最新一期榜单中,在封闭任务赛道的单机测试成绩中,浪潮获全部8项训练任务的4项冠军,NVIDIA、Nettrix各获得2项任务冠军。
这是继去年11月和今年4月,两次在MLPerf推理测试中夺魁后,浪潮AI服务器在MLPerf训练测试中再夺榜首。两个不同维度的AI基准测试,相同的高光表现,让浪潮实实在在成为了MLPerf测试榜首的“常青树”。
柯林斯在《基业长青》一书中总结了成为基业长青的两个关键点:第一,唯一不变的是改变;第二,拥有“正确”的价值观。对于浪潮而言,正是不断突破天花板,突破自我,才做到了今天的技术领先,正是将创新和细节当做了正确的价值观,才成为了国际认可的常青树企业。
攀上AI技术领域的“珠穆朗玛峰”
2017年的图灵奖得主大卫·帕特森在2018年,发起了AI计算基准评测组织MLPerf,并迅速成为业界最权威的测试ML(Machine Learning)硬件、软件及服务的训练和推理性能的公开基准。它囊括了AI行业中的70多个知名企业和机构,包括了英特尔、英伟达、Google、亚马逊、阿里巴巴和百度、微软,以及斯坦福大学等9所大学。
自创办以来,MLPerf一直代表了AI的发展和演进节奏,它包括用于测试推理和训练的程序、数据集以及像精确度目标和超参数值一些重要的细节,是当今权威性最大、影响力最广的国际AI性能基准测试,其高度相当于AI技术领域的“珠穆朗玛峰”。
据了解,本次的MLPerf™ TrainingV1.0基准测试,分为固定任务(Closed)和开放任务(Open)。其中,固定任务要求使用相同模型和优化器,衡量同一深度学习模型在不同软硬件上的性能,广受厂商和客户看重;开放任务则放开对深度学习模型及精度的约束,侧重深度学习模型及算法优化的能力,旨在推进ML模型和优化的创新。
最后的测试结果显示:浪潮AI服务器在语义理解(Bert)、图像分类(Resnet50)、目标检测(SSD)、智能推荐(DLRM)4项重量级AI模型训练任务中全面领先。
浪潮AI&HPC产品线总经理刘军
浪潮AI&HPC产品线总经理刘军表示,“MLperf就像提供给大家一个飙车的赛场,用各种办法,把性能飙到最高,飙到最快。而浪潮的能力证明了我们赛道中速度最快的赛车”。
作为业内最权威的AI基准测试,每一次MLPerfTM评测结果都在刷新业内纪录,不断突破AI系统性能。和2020年榜单相比,今年榜单的各项任务测试成绩均有明显提升。在单机性能上,浪潮在备受关注的ResNet和BERT上取得了新突破,创下单机27.38分钟完成128万张图片训练BERT模型的新纪录,比2020年最佳纪录耗时缩短18%;在BERT模型训练中,浪潮以21.15分钟打破2020年最佳成绩49.01分钟,用时缩短57%。
训练和推理双赛道夺魁的价值
去年10月,在MLPerf公布的AI推理基准测试成绩,浪潮打破18项记录,总成绩名列第一;今年4月的另一次MLPerf AI推理基准测试中,浪潮同样以18项性能第一,荣登榜首。加上本次在MLPerf训练基准测试中夺魁,浪潮已经算是实现了MLPerf测试的“大满贯”。
人工智能与高性能应用软件部总经理吴韶华表示,从训练和推理两个不通测试的参赛团队来看,都有芯片公司,比如谷歌、英伟达、英特尔,和赛灵思,也有和浪潮一样的主流服务器厂商。在AI计算领域有技术企图心的企业,都会争取在MLPerf上崭露头角。
训练和推理两个基准测试既有相同的模型,也有不同的模型。“例如推理任务不需要考虑CPU上面的负载,CPU参与的任务不太多,主要负载在加速器;而训练任务,CPU也要参与工作,有些任务的CPU负载还很重,所以对设备本身的要求并不一样。”吴韶华说。
也就是说能够在两个不同的测试中都能独占鳌头,就需要面向训练和推理两个不同方向的产品设计都具备领先之处。我们也看到,即便是如谷歌这样的巨头公司,因其本身业务的特性,也只是在训练基准测试中表现出色,但也没有进入推理测试的榜单。
所以,浪潮能够站上两个不同榜单的头把交椅,自身对AI服务器产品的理解,对AI服务器的设计理念和构想,都是领先于整个行业的。
例如,在本次竞赛中,浪潮是唯一凭借领先的产品设计和开发能力率先实现支持8xA100-80GB-500W GPU服务器的厂商,并且提供了液冷与风冷两种机型。
同时在不断斩获MLperf冠军的同时,浪潮也把竞赛过程中探索出的高效优化方法回馈至MLPerf社区,推动AI技术的共同进步。例如在MLperf™ Trainingv0.7中,浪潮开创性提出效率更高的ResNet收敛性优化方案:在ImageNet数据集上,仅使用85%的迭代步数就达到了75.9%的目标精度。该优化方案将训练性能提升了15%。目前,该方案已被社区成员采纳,并广泛应用到MLperf™ TrainingV1.0测试中,这也是此次RenNet任务成绩得以大幅提升的重要原因。
刘军也表示,“技术创新是开放的,浪潮愿意看到更多的厂商通过MLperf测试来提高性能,共同做大AI服务器的市场。”
把MLperf
当做能力舞台而不是应试舞台
冰冻三尺,非一日之寒。浪潮AI服务器之所以能够成为AI顶级测试榜首的“常青树”,与其对AI技术的提前布局,并通过深入行业,将场景与技术不断地相互印证而得来的。
2016年开始,深度学习迅速进化成人工智能的巨大机遇,浪潮发现之前在HPC领域所做的战略性投入,可以转变为市场上的竞争优势,开始重点开拓AI服务器市场,并一举成为市场领军企业,长期在中国AI服务器领域占据半壁江山。
所以,相比于部分企业建立专门的团队负责在国际赛事“刷榜”,浪潮反而走的是一条能力建设的路。
刘军说,“浪潮是实实在在的帮助客户去做AI模型的优化和落地,帮助产业AI化客户去实现他的应用场景,设立行业标杆,并帮助企业树立向AI转型的信心。在此过程中,我们将这些实践与客户的业务和需求更好地结合起来,并从中总结和提炼出浪潮的技术内核。”
的确,随着应用场景的不断成熟,人工智能也正逐渐渗透到各行各业,MLperf作为主流的AI基准测试,选择的也是当下最为热门的场景,如图像识别(ResNet)、目标物体检测(SSD)、自然语言理解(BERT)、智能推荐(DLRM)等等。
而浪潮已经做到了在这些场景中,为客户部署过实际的产品,这些宝贵的经验,并非一般的“应试舞台”所能比,这是浪潮的市场地位赋予浪潮的独特的能力。
一些企业会将MLperf这种测试看做一个终点,而浪潮是将MLperf作为发展路径中的一个验证业务实践的舞台。这种不同的高度,也是浪潮作为AI服务器领域领军者的独有的魅力。
(0)

相关推荐