Arm发布5nm新架构:Cortex-A78和Cortex-X1,功耗暴降50%、性能提升30%

EETOP

EETOP创芯网(易特创芯):国内著名的老牌电子工程师社区及半导体行业门户网站(150万会员)

www.eetop.cn bbs.eetop.cn

blog.eetop.cn edu.eetop.cn

Arm 昨天推出了Cortex-A78和Cortex-X1 CPU 架构,2021年的移动设备将会搭载。

Cortex-A78是Cortex-A系列的迭代产品,Cortex-X1是一款新的高性能CPU。

据介绍,Arm的Cortex-A78和Cortex-X1都是基于上一代Cortex-A77,但这两款Arm处理器的设计目标不同,Cortex-A78侧重于提供更高的每瓦性能,同时体积更小,而Cortex-X1则是追求最大性能。

两款处理器都有望在2021年用于顶级SoC和智能手机,甚至可能彼此结合使用。

Arm Cortex-A78:效率至上

根据官方的介绍,Cortex-A78主频达到了3GHz,每核每瓦性能相比上代提升了20%,在同样的性能下,Cortex-A78的能耗相比上代降低了50%。另外,A78的面积也小了5%,为四核集群节省了15%的面积,这为额外的GPU、NPU和其他组件腾出了更多的空间。

Cortex-A78架构并没有盲目追求性能提升,更注重性能、功耗、面积,也就是PPA的均衡。Cortex-A78通过更保守的性能改进来优化功率和面积。ARM把更高性能提升用于Cortex-X1架构。

而Cortex-A78根据ARM的说法,Cortex-A78的架构性能(也就是IPC)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。

根据ARM的说法,在同样的每核心1W功耗下,7nm生产的Cortex-A77可以达到2.6GHz,而5nm生产的Cortex-A78频率可达3.0GHz,同功耗下持续性能提升20%左右。

能耗方面,在相同的性能下,5nm工艺生产的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%,有助于提高5G手机的续航。

谈到微体系结构,Arm进行了许多重大更改。首先,Cortex-A78带有可选的较小的32kB L1缓存配置,这可以节省大部分芯片空间。尽管Arm的合作伙伴仍然可以选择更熟悉的64kB L1缓存来进一步提高内核的性能。高通公司为其Snapdragon Prime内核在较大的L2缓存中做了类似的事情,并且在高达512kB的容量中仍保持了灵活性,以平衡这一代产品的性能,面积和功率。

为了抵消这种较小的L1内存,分支预测器可以更好地覆盖不规则搜索模式,并且现在能够在每个周期跟踪两个已取分支。这样可以减少L1高速缓存未命中的次数。与A77相比,流水线要长1个周期,从而确保A78达到3 GHz左右的时钟频率目标,但每个周期设计仍然是6条指令。

Arm还在执行单元中引入了第二个整数倍数单元,并引入了一个额外的加载地址生成单元(AGU),以将数据加载带宽增加50%。其他优化包括更多融合的指令以及指令调度程序的效率改进,寄存器重命名结构和重排序缓冲区。最重要的是,Cortex-A78是比A77更精简,更优化的CPU。

Cortex-A78的目标是达到效率的峰值效率。这对于电池续航时间非常有用,但对于希望Android能够在明年与苹果缩小差距的发烧友而言却并非如此。为此,这就需要Arm的高性能架构Cortex-X1了。

Cortex-A78主要面向2021年的智能手机等产品,不过考虑到之前的情况,2021年很难普及Cortex-A78,ARM也没提到有哪些公司现在应用了这个架构。

ArmCortex-X1:终极性能 

Cortex-X1是Arm“CXC项目”的第一款商用产品。性能方面,Cortex-X1将比Cortex-A77提高30%,与Cortex-A78相比,Cortex-X1的的整数运算性能提升了23%,Cortex-X1还拥有两倍于Cortex-A78的机器学习能力。
要实现Cortex-X1的目标性能,需要进行许多重大的微体系结构更改。Cortex-X1的内核比A77和A78要大得多,L2缓存的最大容量为1MB,带宽是原来的两倍,可以最大限度地提高性能,而共享的L3缓存可以达到8MB,是前几代缓存的两倍。有趣的是,Cortex-X1随附了一个特定的动态共享单元(DSU),以支持8MB配置,该配置也与集群中的所有Cortex-A78共享该内存。

Cortex-X1在结构设计上与Cortex-A78如出一辙,但几乎在每个地方都进行了扩展。

前端解码部分从4端口增加到了5端口,宏指令缓存直接加倍,达到3000条,甚至超过Intel的Sunny Cove(2250条),但少于Zen 2(4000条)。乱序重排缓冲区(ROB)的大小也是扩充到224条,与Zen 2和Skylake持平。

执行部分中变化最大的是FP单元,也就是ARM特有的NEON浮点引擎,Cortex-X1上面直接将FP单元的数量倍增,达到4x128B的规模,宽度上基本等同于目前的桌面x86处理器,不过ARM目前的指令集并不允许单个长度大于128B的向量,在吞吐上肯定是不如桌面端处理器的。

缓存部分也发生了较大的变化,除了同步Cortex-A78增加的一个Load AGU外,ARM允许Cortex-X1的二级缓存加倍,增加到1MB之多,同时L2 TLB较Cortex-A78翻倍,可覆盖8MB的L3缓存。

Cortex-X1很像Cortex-A78,两者共享了不少设计改进,但Cortex-X1明显是冲着高性能去的,它很宽,有着更高的计算吞吐量。官方数据显示它相比Cortex-A77在峰值性能上有30%的提升,是相当巨大的。

在产品层面,智能手机的SoC似乎不太可能使用四Cortex-X1集群,单Cortex-X1与三个Cortex-A78将是不错的选择。这样的配置只比四核Cortex-A76集群多占用15%的空间,但提供了更高的单核性能。

预计未来的SoC产品会选择1核X1、3核A78和4核A55的搭配,从而实现更好的的性能与能效的平衡。未来Windows on Arm产品则有可能会搭载多核Cortex-X1的SoC,从而大幅提升性能。


(0)

相关推荐