Arm发布5nm新架构:Cortex-A78和Cortex-X1,功耗暴降50%、性能提升30%
EETOP创芯网(易特创芯):国内著名的老牌电子工程师社区及半导体行业门户网站(150万会员)
blog.eetop.cn edu.eetop.cn
Cortex-A78是Cortex-A系列的迭代产品,Cortex-X1是一款新的高性能CPU。
两款处理器都有望在2021年用于顶级SoC和智能手机,甚至可能彼此结合使用。
Arm Cortex-A78:效率至上
Cortex-A78架构并没有盲目追求性能提升,更注重性能、功耗、面积,也就是PPA的均衡。Cortex-A78通过更保守的性能改进来优化功率和面积。ARM把更高性能提升用于Cortex-X1架构。
而Cortex-A78根据ARM的说法,Cortex-A78的架构性能(也就是IPC)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。
根据ARM的说法,在同样的每核心1W功耗下,7nm生产的Cortex-A77可以达到2.6GHz,而5nm生产的Cortex-A78频率可达3.0GHz,同功耗下持续性能提升20%左右。
能耗方面,在相同的性能下,5nm工艺生产的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%,有助于提高5G手机的续航。
为了抵消这种较小的L1内存,分支预测器可以更好地覆盖不规则搜索模式,并且现在能够在每个周期跟踪两个已取分支。这样可以减少L1高速缓存未命中的次数。与A77相比,流水线要长1个周期,从而确保A78达到3 GHz左右的时钟频率目标,但每个周期设计仍然是6条指令。
Arm还在执行单元中引入了第二个整数倍数单元,并引入了一个额外的加载地址生成单元(AGU),以将数据加载带宽增加50%。其他优化包括更多融合的指令以及指令调度程序的效率改进,寄存器重命名结构和重排序缓冲区。最重要的是,Cortex-A78是比A77更精简,更优化的CPU。
Cortex-A78的目标是达到效率的峰值效率。这对于电池续航时间非常有用,但对于希望Android能够在明年与苹果缩小差距的发烧友而言却并非如此。为此,这就需要Arm的高性能架构Cortex-X1了。
Cortex-A78主要面向2021年的智能手机等产品,不过考虑到之前的情况,2021年很难普及Cortex-A78,ARM也没提到有哪些公司现在应用了这个架构。
ArmCortex-X1:终极性能
Cortex-X1在结构设计上与Cortex-A78如出一辙,但几乎在每个地方都进行了扩展。
前端解码部分从4端口增加到了5端口,宏指令缓存直接加倍,达到3000条,甚至超过Intel的Sunny Cove(2250条),但少于Zen 2(4000条)。乱序重排缓冲区(ROB)的大小也是扩充到224条,与Zen 2和Skylake持平。
执行部分中变化最大的是FP单元,也就是ARM特有的NEON浮点引擎,Cortex-X1上面直接将FP单元的数量倍增,达到4x128B的规模,宽度上基本等同于目前的桌面x86处理器,不过ARM目前的指令集并不允许单个长度大于128B的向量,在吞吐上肯定是不如桌面端处理器的。
缓存部分也发生了较大的变化,除了同步Cortex-A78增加的一个Load AGU外,ARM允许Cortex-X1的二级缓存加倍,增加到1MB之多,同时L2 TLB较Cortex-A78翻倍,可覆盖8MB的L3缓存。
Cortex-X1很像Cortex-A78,两者共享了不少设计改进,但Cortex-X1明显是冲着高性能去的,它很宽,有着更高的计算吞吐量。官方数据显示它相比Cortex-A77在峰值性能上有30%的提升,是相当巨大的。
在产品层面,智能手机的SoC似乎不太可能使用四Cortex-X1集群,单Cortex-X1与三个Cortex-A78将是不错的选择。这样的配置只比四核Cortex-A76集群多占用15%的空间,但提供了更高的单核性能。
预计未来的SoC产品会选择1核X1、3核A78和4核A55的搭配,从而实现更好的的性能与能效的平衡。未来Windows on Arm产品则有可能会搭载多核Cortex-X1的SoC,从而大幅提升性能。