从英特尔首款Chiplet设计,看芯片的未来

来源:内容由半导体行业观察(ID:icbank)编译自「anandtech」,谢谢。

英特尔在其服务器平台的竞争中面临的一个关键缺陷是核心数量——其他公司正在通过以下两种途径之一实现更多的核心:更小的核心,或连接在一起的单个chiplet。
在 2021 年架构日,英特尔披露了有关其下一代至强可扩展平台的功能,其中之一是向tiled 架构的转变。英特尔将通过其快速嵌入式桥接器组合四个 tile/chiplet,从而在更高的内核数下实现更好的 CPU 可扩展性。
作为披露的一部分,英特尔还扩展了其新的高级矩阵扩展 (AMX) 技术、CXL 1.1 支持、DDR5、PCIe 5.0 和加速器接口架构,这些架构将来可能会让定制 Xeon CPU成为可能。

Sapphire Rapids介绍:

Sapphire Rapids (SPR) 基于Intel 7工艺构建,这将成为英特尔用于 其Eagle Stream 平台的下一代至强可扩展服务器处理器,使用了我们上周详细介绍的最新 Golden Cove 处理器内核,Sapphire Rapids 将为英特尔带来多项关键技术:加速引擎、原生半精度 FP16 支持、DDR5、300 系列 Optane DC 持久内存、PCIe 5.0、CXL 1.1、更广泛、更快的 UPI、其最新的桥接技术 (EMIB)、新的 QoS 和遥测(telemetry)、HBM 以及工作负载专用加速。
Sapphire Rapids 将于 2022 年推出,这将成为英特尔首款利用多芯片架构设计的现代 CPU 产品,该架构旨在通过其嵌入式多芯片互连桥接技术最大限度地减少延迟和最大化带宽。这个设计将允许集成更多的高性能内核(英特尔尚未透露具体数量),重点是“对其客户群来说有个很重要的指标,例如节点性能和数据中心性能”。英特尔将 SPR 称为“十年来 DC 能力的最大飞跃”。
PCIe 5.0 则是对上一代 Ice Lake PCIe 4.0 的升级,我们从 DDR4 的 6 个 64 位内存控制器迁移到 DDR5 的 8 个 64 位内存控制器。但更大的改进在于内核、加速器和封装。

Golden Cove:具有 AMX 和 AIA 的高性能内核

通过在其企业平台 Sapphire Rapids 和消费者平台 Alder Lake 上使用相同的核心设计,我们在 2000 年代初期看到了一些相同的协同效应,当时英特尔做了同样的事情。关于Alder Lake,这里有一个快速回顾:
据英特尔称,与 Cypress Cove 相比,新内核在单线程工作负载中的 IPC 增益将超过 19%,而 Cypress Cove 是英特尔对 Ice Lake 的反向移植。这归结为一些重大的核心变化,包括:
  • 16B → 32B length decode
  • 4-wide → 6-wide decode
  • 5K → 12K branch targets
  • 2.25K → 4K μop cache
  • 5 → 6 wide allocation
  • 10 → 12 execution ports
  • 352 → 512-entry reorder buffer
任何内核的目标都是更快地处理更多的事情,而最新一代的内核试图比以前做得更好。英特尔的许多变化都是有道理的。
Alder Lake 的消费者版本核心与 Sapphire Rapids 中的服务器核心之间存在一些差异。最明显的一个是消费者版本没有 AVX-512,而 SPR 将启用它。SPR 每个内核还有一个 2 MB 的私有二级缓存,而消费者版本仅有 1.25 MB。除此之外,我们还讨论了高级矩阵扩展 (AMX) 和新的加速器接口架构 (AIA)。
到目前为止,在 Intel 的 CPU 内核中,我们有标量操作(正常)和向量操作(AVX、AVX2、AVX-512)。下一阶段是专用矩阵求解器,或者类似于 GPU 中的张量核心。这就是 AMX 所做的,通过以 TMUL 指令的形式添加具有专用 AMX 指令的新可扩展寄存器文件。
AMX 将 8 个 1024 位寄存器用于基本数据运算( basic data operators),并且通过内存引用(memory references),TMUL 指令将使用这些块寄存器对数据块进行操作。TMUL 通过一个内置于内核中的专用引擎协处理器(每个内核有一个)来支持,而 AMX 背后的基础是 TMUL 只是一个这样的协处理器。英特尔将 AMX 设计为更广泛的范围,而不仅仅是这样——如果英特尔更深入地实施其多芯片战略,在某个时候我们可以看到通过 AMX 启用自定义加速器。
英特尔确认我们不应该看到任何比 AVX 更糟糕的频率下降——当调用向量和矩阵指令时,每个内核都有新的细粒度电源控制器。
这非常适合讨论新的加速器接口 AIA。通常,在使用附加加速卡时,命令必须在内核空间和用户空间之间导航( navigate )、设置内存并在多个主机之间引导任何虚拟化。英特尔描述其新加速引擎接口的方式类似于与 PCIe 设备交谈,就好像它只是 CPU 板上的加速器,即使它是通过 PCIe 连接的。
最初,英特尔将拥有两个功能强大的 AIA 硬件位。
英特尔快速辅助技术 (QAT) 是我们之前见过的一种技术,因为它展示了 Skylake Xeon 芯片组的特殊变体(需要 PCIe 3.0 x16 链接)以及附加 PCIe 卡——该版本将支持高达400 Gb/s 对称加密,或高达 160 Gb/s 压缩加 160 Gb/s 解压同时进行,是之前版本的两倍。
另一个是英特尔的数据流加速器 (DSA)。 自 2019 年以来,英特尔一直在网络上提供有关 DSA 的文档,称它是一种高性能数据复制和转换加速器,用于通过 DMA 重新映射硬件单元/IOMMU 将数据从存储和内存或系统的其他部分流式传输。DSA 是特定超大规模客户的请求,他们希望将其部署在自己的内部云基础设施中,英特尔热衷于指出一些客户将使用 DSA,一些将使用英特尔的新基础设施处理单元,而一些将使用两者,取决于他们感兴趣的集成或抽象级别。英特尔告诉我们,DSA 是对 Purley (SKL+CLX) 平台上的 Crystal Beach DMA 引擎的升级。
最重要的是,Sapphire Rapids 还支持半精度的 AVX512_FP16 指令,主要用于人工智能工作负载,作为其 DLBoost 策略的一部分。除了 INT8 和 BF16 支持外,这些 FP16 命令还可用作 AMX 的一部分。英特尔现在还支持 CLDEMOTE 进行缓存行管理。

关于 CXL 的一个副词

在 Sapphire Rapids 的演示中,英特尔一直热衷于强调它将在发布时支持 CXL 1.1。CXL 是一种连接标准,旨在处理比 PCIe 做的更多的事情——除了简单地作为从主机到设备的数据传输之外,CXL 还支持三个分支,称为 IO、缓存和内存。正如 CXL 1.0 和 1.1 标准中定义的那样,这三个标准构成了连接主机与设备的新方法的基础。
当然,我们期望所有 CXL 1.1 设备都支持所有这三个标准。直到几天后的 Hot Chips,我们才了解到 Sapphire Rapids 仅支持部分 CXL 标准,特别是 CXL.io 和 CXL.cache,但 CXL.memory 不会成为 SPR 的一部分。我们不确定这在多大程度上意味着 SPR 不符合 CXL 1.1,或者这对 CXL 1.1 设备意味着什么——没有 CXL.mem,如上图所示,英特尔失去的只是 Type-2 支持。也许这更多地表明 CXL 2.0 更好地服务于 CXL 周围的市场,这无疑会出现在以后的产品中。
接下来,我们将了解英特尔针对 Sapphire Rapids 的全新tiled架构。

向更多的硅前进:连接性很重要

迄今为止,英特尔所有领先的至强可扩展处理器都是单片的,即一块硅。拥有单片硅有其优势,即内核之间的快速硅内互连,以及需要管理的单一电源接口。
然而,随着我们转向越来越小的工艺节点,拥有一大块硅也有缺点:它们很难在没有缺陷的情况下批量制造,如果您想要高核数版本,就会增加成本,且最终这会受到限制。
大型单片设计的替代方案是将其切成更小的硅片并将它们连接在一起。这里的主要优点是更好的硅产量,而且还可以根据需要为不同的功能使用不同的硅进行配置。
使用多芯片设计,您最终会得到比单片设计所能提供的更多的硅——单个硅芯片的掩模版(制造)限制为 ~700-800mm²,而多芯片处理器则要小几个硅芯片可以放在一起,轻松推动超过1000mm²。英特尔表示,其每块硅片约为400mm²,总面积约为1600mm²。但多芯片设计面临的主要挑战是连接性和功耗。
将两个芯片封装在一个基板中的最简单方法是通过基板内连接,或者本质上相当于 PCB 走线。这是一个高良率的做法,但它有上面列出的两个缺点:连接性和功耗。与通过硅连接相比,通过 PCB 连接发送一点需要更多的功耗,但带宽也低得多,因为信号不能密集打包。因此,如果没有仔细规划,多芯片连接产品在任何时候都必须知道数据有多远,这是单片产品很少有的问题。
解决这个问题的方法是使用更快的内部互连。与其将这种连接性通过基板、封装,还不如通过硅来实现?通过将这些连接的裸片放置在一块硅片上,例如中介层,连接走线具有更好的信号完整性和更好的功率。使用中介层,这通常称为 2.5D 封装。它的成本比标准封装技术高一点(也有带逻辑的有源中介层的空间),但我们还有另一个限制,即中介层必须大于所有硅片的总和。但总的来说,这是一个更好的选择,特别是如果您希望您的多芯片产品表现得像整体一样。
英特尔认为,要克服中介层的缺点但仍能从有效的单片硅设计中获益,最好的方法是创建位于基板内部的超小型中介层。通过将它们预先嵌入到正确的位置,使用正确的封装工具,两个芯片可以放置在这个小型嵌入式多芯片互连桥 (EMIB) 上,瞧,这是一个在物理上尽可能接近单片设计的系统.
英特尔致力于 EMIB 技术已超过十年。从我们的角度来看,该发展具有三个主要里程碑:(1) 能够以高良率将桥嵌入到封装中;(2) 能够以高良率将大硅片放置在桥上;(3)能够将两个大功率骰子并排放置在桥上。我认为英特尔最难解决的就是第三部分——将两个大功率die并排放置,特别是如果芯片具有不同的热膨胀系数和不同的热特性,则有可能削弱基板围绕桥或与桥本身的连接。
到目前为止,几乎所有使用 EMIB 的英特尔产品都围绕着将 CPU/GPU 连接到高带宽内存,这比它所连接的功耗低一个数量级。正因为如此,我不相信将两个高性能tile放在一起是可能的,直到英特尔在2019年末用EMIB将两个高性能 FPGA tile连接成多芯片 FPGA。从那时起,英特尔在其 CPU 产品堆栈上启用该技术仅,我们也终于在 Sapphire Rapids 上看到了这一点。

Sapphire Rapids 上的 10x EMIB

Sapphire Rapids 将使用通过 55 微米连接间距通过 10 个 EMIB 连接连接的四个tiles。通常你可能认为 2x2 的tiels阵列中,每个tile到tile连接可能需要相等的 EMIB,所以在这种情况下,每个连接有 2 个 EMIB,那就是 8 个。但为什么英特尔在这里引用 了10 个?这就要从 Sapphire Rapids 的设计方式谈起。
由于英特尔希望 SPR 对每个操作系统来说都是单一的,因此英特尔基本上已经在水平和垂直方向上削减了其内核间网格。这样,通过 EMIB 的每个连接都被视为网格上的下一步。但是英特尔的单片设计在这两个维度上都不是对称的——通常像 PCIe 或 QPI 这样的特性在边缘,而不是在每个角落的同一个地方。Intel 告诉我们,在 Sapphire Rapids 中,情况也是如此,一个维度每个连接使用 3 个 EMIB,而另一个维度每个连接使用 2 个 EMIB。
通过在其设计中避免严格的旋转对称,并且没有中央 IO 集线器,英特尔非常倾向于把这个产品看作单片芯片 。只要tile之间的 EMIB 连接是一致的,软件就不必担心,尽管在我们在这里获得更多详细信息之前,如果不经过试图弄清楚英特尔的网格设计以及额外零件都连接在一起。如果有意义的话,SPR 听起来像是一个单片设计,而不是一个全新的多芯片设计。
英特尔今年早些时候宣布,它将使用四个 HBM tiles制作 HBM 版本的 Sapphire Rapids。这些也将通过 EMIB 连接,每个tile都有一个EMIB。

全都有关Tiles

英特尔确实深入解读了每个单独的Tile内部究竟有什么:
据介绍,在每个tile中有:
  • 核心、缓存和网格
  • 具有 2x64 位 DDR5 通道的内存控制器
  • UPI 链接
  • 加速器链接
  • PCIe 链路
在这种情况下,在整个演示文稿中,看起来所有四个tile都是相当的,并且具有我上面提到的旋转对称性。以所呈现的方式制造具有此功能的硅并不像将设计镜像并将其打印到硅晶圆上那么容易。硅片的晶面限制了设计的构建方式,因此任何镜像都必须完全重新设计。因此,英特尔确认它必须使用两组不同的掩膜来构建 Sapphire Rapids,每组一个用于它必须制造的两个die。然后它可以旋转这两个模具中的每一个以构建 2x2 tile网格,如图所示。
我们认为,值得将英特尔的设计与 AMD 的第一代 EPYC 进行比较。后者也使用 2x2 的小芯片设计,尽管通过封装进行连接。AMD 通过旋转对称避免了对多个硅片设计的需求——AMD 在硅片上构建了四个die到die接口,但每次旋转只使用三个。这是一种以芯片面积为代价的更便宜的解决方案(并且适合当时 AMD 的财务状况),但也实现了一定程度的简单性。AMD 在较新的 EPYC 中的中央 IO 芯片方法完全摆脱了这个问题。从我的角度来看,如果英特尔想要扩展到 SPR 之外,但出于不同的原因,他们将不得不朝着这个方向发展。
就目前而言,每个tile都拥有 128 位的 DDR5 内存接口,所有四个tile共有 512 位。从物理上讲,这意味着我们将看到系统中每个插槽有 8 个或 16 个内存模块的 8 个 64 位内存控制器(从技术上讲,DDR5 在单个模块上放置了两个 32 位通道,但目前业界还没有一个术语来区分具有一个 64 位内存通道的模块与具有两个 32 位内存通道的模块在上面。迄今为止,“通道”一词经常与“内存插槽”互换,但这必须改变)。对于具有所有四个计算块的 Sapphire Rapids 版本来说,这完全没问题。

添加一些 HBM和Optane

了解Sapphire Rapids 的另一个角度是他们提供了搭载 HBM 的版本。英特尔在 6 月份宣布了这一消息,但没有太多细节。作为架构日的一部分,英特尔表示 Sapphire Rapids 的 HBM 版本也公开,并与标准 Sapphire Rapids 兼容。SPR HBM 版本的第一个客户是阿贡国家实验室,作为其 Aurora Exascale 超级计算机的一部分。
该图展示了四个 HBM 连接,每个计算块一个。然而,从封装来看,我认为实际上没有足够的空间,除非英特尔委托了一些如图所示又长又窄的新型 HBM。
尽管英特尔表示 HBM 变体将在同一个插槽中,但即使他们自己来自 Hot Chips 的幻灯片也表示不同。
此处 HBM 的封装尺寸为 100x57mm,而 SPR 为 78x57mm。因此,除非英特尔计划为 78x57mm 插槽提供缩小版本,否则它将位于不同的插槽中。
重要的是要注意,HBM 将在与 Optane 类似的容量中发挥作用——要么作为 HBM 平面(flat)模式,DRAM 等同于两者,要么作为 HBM 缓存(caching )模式,在访问主内存之前类似于 L4 缓存。在此之上的 Optane 也可以处于平面模式、缓存模式或作为单独的存储卷。
HBM 会增加封装的功耗,这意味着如果 HBM 超过插槽限制,我们不太可能看到与 HBM 配对的最佳 CPU 频率。英特尔尚未宣布 SPR 将使用多少 HBM 堆栈或容量,但表示它们将位于散热器下方。如果英特尔打算采用非标准 HBM 尺寸,那么任何人都可以猜测容量是多少。但我们确实知道它将通过 EMIB 连接到tile。
关于 Optane DC 持久性内存的旁注 – Sapphire Rapids 将支持新的 300 系列 Optane 设计。我们问英特尔这是否是 200 系列但使用 DDR5 控制器,并被告知不是,这实际上是一种新设计。更多细节敬请关注。

UPI 链接

每个 Sapphire Rapids 处理器将有多达四个 x24 UPI 2.0 链接,以连接到多插槽设计中的其他处理器。借助 SPR,英特尔的目标是多达 8 个插槽平台,并且为了增加带宽已从 ICL 中的三个链接升级到四个(从技术上讲,CLX 为 2x3),并转向 UPI 2.0 设计。英特尔不会详细说明这意味着什么,但是他们将拥有新的八插槽 UPI 拓扑。
当前的英特尔超立方体
当前的八插槽设计使用双绞超立方体拓扑(twisted hypercube topology):两组四个组成一个盒子,一对连接到另一组四个的同一顶点,而第二对则相反。
本质上,每个 CPU 都直接连接到其他三个 CPU,而另外四个 CPU 相距两跳(wo hops away)。使用新的拓扑结构,每个 CPU 都可以直接连接到另一个 CPU,这使设计更趋向于完全连接的拓扑结构,但具体应该连接到哪个 CPU,英特尔尚未说明。

安全

英特尔表示将在稍后宣布 SPR 的完整安全更新,但 MKTME 和 SGX 等功能是关键优先事项。

结论

对我来说,改进的内核、升级的 PCIe/DDR 和“作为单体出现”的方法是迄今为止的亮点。然而,仍有一些非常明显的问题需要回答——核心数量、功耗、更低的核心数量如何工作(甚至建议 LCC 版本实际上是单片的),以及启用 HBM 的版本会是什么样子。HBM 版本增加了 EMIB,成本会很高,这在 AMD 的定价结构非常有竞争力的时候并不好。
预计当 Sapphire Rapids 发布时,AMD 仍将与 Milan 一起进入市场(或者像一些人推测的那样,Milan 的 3D V-Cache 版本,但没有得到证实),并且要到 2022 年底当 AMD 推出 Zen 4 时。如果英特尔能够执行并将 SPR 推向市场,它将在吸引潜在客户方面具有很小的时间优势。Ice Lake 的卖点在于其特定的加速器优势,而不是原始核心性能,我们将不得不拭目以待 Sapphire Rapids 能否带来更多优势。
多年来,人们一直期待英特尔转向企业中的 tile/chiplet 战略——至少在围栏的这一边,自从 AMD 让它工作并超越标准硅限制后,无论采用何种粘合剂,并将其用在硅片之间,英特尔就不得不走这条路。它已被推迟,主要是由于制造以及优化 EMIB 之类的东西,这也需要时间。EMIB 作为一项技术确实令人印象深刻,但是您放在一起的芯片和桥接器越多,即使您有 99% 的成功率,这也会降低良率。但这正是英特尔一直在努力的方向,对于企业市场,Sapphire Rapids 是第一步。
但是,我们知道 Sapphire Rapids 处理器产品将不得不缩减到更少的内核。过去,英特尔会创建三种不同的硅单片变体来迎合这些市场并优化硅输出,但所有处理器都将具有相同的内存控制器数量。
这意味着,如果 SPR 将提供具有更少内核的版本,它将创建没有任何内核的虚拟块,但仍然根据需要保留 PCIe/DDR5,或者很简单,那些较低的内核数量将减少内存控制器。对于想要构建包罗万象的系统的系统制造商来说,这将是一个痛苦,因为他们将不得不为两个极端进行构建。
另一种选择是英特尔拥有单片版本的 SPR,具有所有 8 个内存通道,用于较低内核数的设计。但此时,英特尔尚未透露将如何迎合这些市场。
(0)

相关推荐