直面传统x86架构:Arm Neoverse的性能革命

出品 21ic中国电子网 付斌
网站:21ic.com
提到数据中心和超级计算机,x86架构无疑是多年以来的霸主,Arm架构因其独特的特性和高性能逐渐占领数据中心市场,并在去年9月发布Arm Neoverse的产品路线图。
短短几个月,Arm Neoverse V1和N2平台终于正式亮相,与此同时Arm Neoverse CMN-700作为能够充分发挥以上两个平台每瓦性能优势的重要互连技术一并被发布。
全新架构来临之际,不容小觑的性能提升和Arm生态系统的进发,进一步挑战x86架构。

V1和N2的性能革命

从之前Arm给出的路线图中可以看出,Arm将Neoverse平台分为三个定位,分别是低功耗小面积的E系列、最大化PPA的N系列、最高性能的V系列。
去年Arm发布了Neoverse N1,由此也可以看出,Neoverse V1将作为Arm第一个最高算力平台,Neoverse N2则属于升级版的N1,继续发挥性能、功耗、面积上的平衡性。通过发言人的介绍,这两款平台在性能上的提升不仅回收此前的预告,也带给人更多的惊喜。
正如上文所讲,Neoverse V1的设计理念就是性能至上,而这种极致性能面向的便是高性能和百万兆计算市场。
Arm基础设施事业部高级副总裁兼总经理Chris Bergey为记者介绍,Neoverse V1不仅加宽了微架构,还增加了缓冲区和队列的深度,以便在运行中容纳更多指令。
他强调,这是Arm设计过最宽的微架构,Arm预期Neoverse V1在多核配置中能胜过市场上的其他的产品。
除此之外,Neoverse V1还提供了足够的灵活性,不仅能够整合片上专用加速器,还可自由选择适当IO尺寸,利用芯片集和多芯片功能提高能和数量和性能。
他认为,在这种组合的设计方法下,能够提高良品率降低成本,从合作伙伴SiPearl和ETRI的高性能计算SoC也拥有这种设计要点,这也是HPC的发展方向。
Neoverse V1新增了一个关键功能SVE,它为Arm开发者提供了一条全新的矢量编程和数据操作工具。与此同时,SVE也为HPC提供了全新的高性能且对开发者友好的编程功能。
在HACCmk算法中,Arm现有的SIMD指令集NEON难以将某些代码矢量化处理,而SVE可以直接取用相同代码,很好地对其自动矢量化,从而提高将近3.5倍的处理速度。在Neoverse V1中,加倍SVE的矢量宽度,对应的处理速度也几乎提高了一倍。
相比去年发布的Neoverse N1,Neoverse V1拥有1.8倍的矢量工作负载,2倍的浮点运算能力,4倍的机器学习性能。
Neoverse N2虽然作为一款在功耗、性能和面积做到最优化的产品,实际上随着云、边缘、5G市场的发展,不仅需要好的散热,还需要更强的算力。
根据Chris Bergey的介绍,Neoverse N2的效率配置使其能够在单插槽线程具有很大的竞争力,与此同时提供专属的内核,而并非共享线程。
Neoverse N2也搭载了SVE,不过是SVE2。SVE和SVE2都属于与矢量长度无关的指令集,用户只需编写、编译一次代码,即可在各种多样硬件中运行,还可以充分利用矢量宽度。
除此之外,两者具有一定差异性,SVE注重加速HPC,SVE2则主要是将其扩展到机器学习、DSP、多媒体和5G等应用场景。
相比去年发布的Neoverse N1,Neoverse N2拥有1.4倍的SPECint2006跑分数据,1.3倍的NGINX性能,1.2倍DPDK L3数据包处理能力。
Neoverse N2是基于Arm上个月刚刚发布的Armv9架构,拥有更好的安全性、能效和性能的重大提升。

碾压传统架构的实力

Neoverse在单线程处理能力处于领先地位,核心数量也处在前列。在Arm展示核心数上Neoverse N2在云端上的应用也直接达到了128核。Neoverse V1相比N2上,内核数量有缩减,但提供了最佳的单线程能力。
这一次,Arm也与传统的架构进行了对比。Chris Bergey表示,Arm Neoverse能够提供同等或者更高的单线程性能,它提供的是一个内核而不是一个线程,因此有非常明确的定义和高可用性;此外,在实现更多CPU内核数量支持和更低的能耗的同时还能提供很好的可扩展性。
通过Arm测量的数据来看,从单线程处理性能上来看,V1比N2更加强劲,值得一提的是及时在满载、高核数配置中,Neoverse N2也能提供惊人的性能。
仅从单线程能力来说,传统计算架构2021年升级的40核心80线程产品和64核心128线程产品依然无法与Neoverse N1相匹敌,而Neoverse V1和N2在单线程性能上则是遥遥领先竞争对手。
从单插槽吞吐量性能上来看,N2比V1更强劲,这也是Neoverse N2所聚焦的特性。Chris Bergey强调,性能固然重要,降低TCO也是互联网公司真正关心的,这也是N2不同的着重点。
传统计算架构2021年升级的40核心80线程产品和64核心128线程产品虽然在单插槽吞吐量上超过了N1,但V1和N2的重磅升级远远甩开了市场传统产品。
不容小觑的是,构建V1和N2高性能SoC的关键要素就是Arm CMN-700 Mesh互连技术。前一代CMN-600为可扩展、高内核数、高性能SoC奠定了基础,CMN-700则是奠定在此基础上的。
值得一提的是,CMN-700与前一代相比得到全面参数提升,包括内核数量、缓存大小、附加内存、IO设备数量和类型。
CMN-700不仅加入了CXL功能,还针对传统多插槽设计和新的芯片集或多芯片集成提高性能和优化功能。“多芯片集成将为突破传统的硅掩模版限制提供新的机遇,并为紧密耦合的异构计算提供更大的灵活性”,Chris Bergey如是说。

Arm多年IP积累的结晶

在摩尔定律放缓之下,异构计算是提升算力的关键。Arm基础设施事业部全球高级总监邹挺Frank Zou为记者介绍:“我们已经看到一些合作伙伴把Neoverse V1和N2平台应用到广泛场景中,其中就有合作伙伴将Neoverse N2的内核用于异构计算系统,和FPGA加速卡一起使用。还有合作伙伴将FPGA加速器和N2放在一个芯片上做成一个SoC芯片系统,通过Chiplet技术为紧密耦合的异构计算提供更大的灵活性。”
而如此强劲算力的Arm Neoverse自发布以来持续合作不断,包括腾讯、Oracle、AWS、MeitY、SiPearl、ETRI等,并且英伟达最近公布的Grace芯片也是基于Arm Neoverse的。
Arm Neoverse之所以如此广受信赖,是基于Arm多个IP的优化组合。Chris Bergey对此解释:“通过Neoverse产品,我们发现越来越多的客户需要完整的解决方案,即一个平台去承载他们的系统,他们可以在上面添加他们自己的加速器或者其他设备,并且可以对其进行定制,我们要做的就是为客户提供构建科技大厦所需要的“砖瓦”,而不只是单个给客户某一个单独的IP,单独的CPU或互联IP。”
当然,单纯的算力制衡并不是评判的标准,可扩展性成了当今HPC领域的重要指标。Arm的技术专家为此解释,Neoverse的产品线在可扩展性方面具有非常独一无二的技术特征。
第一个技术特征就是能够支持大量CPU的硬件一致性指令缓存,实现拥有多虚拟机的庞大操作系统的优化。第二,Neoverse产品同时还支持 MPAM(Memory Partitioning and Monitoring)和 C-busy(Completer busy)特性,能够让大量的内核可以均衡利用那些DRAM以及系统缓存等共享资源。同时,在支持可扩展性方面我们有CMN-700互连技术,能实现多达256个内核的可扩展性支持,同时还能连接到加速器以及合作伙伴的IP等。
根据Chris Bergey的介绍,之前Arm从来没有在这类IP实现上投入如此多的资源,而Neoverse平台的超高性能也为这个产品交了一份满意的答卷。

(0)

相关推荐