Get Amped! 在今晚的GTC大会之前,我们为你梳理了Ampere架构的传闻
今天晚上9点,NVIDIA将会放出CEO黄仁勋为主讲人的GTC 2020主题演讲,经过官方的多次预热和暗示,我们很有可能会看到新一代的Ampere架构,还有基于新架构的GPU、新的Tesla计算卡和DGX计算服务器产品。在今晚揭晓谜底之前,我们整合了截至目前的多条流言和传闻,尝试为各位读者构建出一个尽量接近最终成品的Ampere架构。
传说中的GA102核心图,来自于@Ragdoll_Kitties
我们首先从制程工艺开始讲起。
制程工艺:台积电7nm还是三星8nm?
Ampere GPU将使用谁家的哪种制程工艺可以说是目前最为扑朔迷离的一个问题。要搞清楚这个问题,我们需要回顾一系列的新闻事实。
最早的传闻出现在去年的6月份,当时有媒体报道NVIDIA将会选择三星的7nm EUV工艺来生产新一代的Ampere GPU而不是用老伙伴台积电的7nm工艺。
这则消息随后被NVIDIA韩国的头头确认了,随后又被NVIDIA官方发言人和VP改正为他们将在下代GPU上同时使用两家的工艺”。之后很长时间,我们都以这个官方确认为准,但同时用两家代工厂肯定会带来一个新的问题:哪家多哪家少?
于是在去年于苏州举办的GTC 2019中国大会上面,有媒体直接向CEO黄仁勋询问了这个问题。当时黄仁勋确实给出了回答,原话是怎么样的现在已经不可知,目前能够找到的相关报道的引源都是来自于这段话:
NVIDIA创始人黄仁勋日前接受媒体访问时澄清,未来还是会将大多数7纳米制程产品订单交由台积电生产,三星只会获得少量订单。
通过CEO的澄清,我们似乎可以确定台积电在新一代产品中仍然将作为主要的代工厂。但之后不久,又出现了NVIDIA将会使用三星的8nm制程制造游戏GPU的传闻。
但其实细看的话,两者之间并不冲突,“会将大多数7纳米制程产品订单交由台积电生产”这句话中提到的产品是“7纳米制程产品订单”,而如果游戏GPU直接不使用7纳米制程,那它根本就不算是“7纳米制程产品订单”的成分,那么传闻和已经被确认的事实之间就不存在冲突了。
基于以上的判断,我们可以提出如下的猜测:核心面积巨大、面向专业计算市场的GA100可能会交由台积电进行生产,而面积更小,诸如GA104等游戏GPU将会交由三星进行生产,并且使用8nm制程。
由于三星的8nm工艺实质是10nm节点工艺的改良版本,其密度提升不大,所以是比较适合用来“摊大饼”以降低先进制程工艺带来的积热效应,在游戏卡上面可以用更低的成本来控制好核心温度。
架构优化升级
从Kepler架构开始,NVIDIA就着重于提升GPU的能效比,Ampere架构肯定也会伴随着一定的能效比提升,这其中部分是来自于制程工艺的升级,部分是来自于自身的架构优化升级。
从这几代NVIDIA GPU架构的变化来看,有几个趋势是比较明显的,一是单个SM中的CUDA Core数量在变少,而SM数量在不断变多;二是缓存系统在不断地变大,尤其是共享的L2缓存,在不断地变大;三是将整数与浮点计算解耦,对不同的数据类型进行并行化处理。
Turing是一代改变较大的架构,就算是与它的前辈Volta比,改变也堪称巨大。首先它引入了RT Core,支持对光线追踪进行硬件加速计算,并成功地将Tensor Cores应用在游戏卡上面。另外它独立设置了处理INT16的单元,让整数与浮点走两条并行的处理管线。总的来说,它打好了NVIDIA未来图形架构的基础,Ampere将会在它的基础上进行优化升级。目前的传言中,对于Ampere架构的猜测主要有如加大L2缓存,增加Tensor Cores的数量,RT Cores的效率改进等等。
先来说说Turing核心中被玩家们叫成是“电炉丝”的Tensor Cores和RT Cores。
Tensor Cores的更多用处:帮助压缩显存?
有传言称Ampere将会把单个SM中的Tensor Cores给加倍,以提供更强劲的FP16运算能力,那么会用在何处呢?
想必各位还是比较认同DLSS 2.0在图像质量和性能上面的优化改进的,传言中称,一个兼容性更好(能兼容TAA算法,目前不行)的DLSS 3.0已经在路上了,它会提供比DLSS 2.0更强的表现。那么数量加倍的Tensor Cores想必能够在AI相关的应用中提供好不少的性能,DLSS就是一大重点用途。当然,对于计算市场,加倍的Tensor Cores在计算能力方面也将会有出色的表现。
另外,传言中还说,Tensor Cores可能将会帮助GPU进行显存的压缩,以增加GPU与显存之间的带宽,这对当前的GDDR6显存是一个友好的补充。
RT Core改进:4倍光追性能?
再来看RT Core相关的内容,Turing GPU在处理实时光追效果时,会有不小的性能损失。Ampere的每个SM仍然只会有一个RT Cores,但它会在效率上可能会有很大的提升。
效率的提升会让GPU在处理实时光追时更为得心应手,至少不会像Turing那样,在碰到大量应用光线追踪特效时出现大幅度的帧数下降这种情况了。
L2缓存加大:提升IPC性能
缓存设计是现代GPU设计中重要的一环,非常影响最终的性能表现。从Kepler一路看过来,你可以发现NVIDIA一直都在加大GPU的缓存,Turing的L1缓存架构还被重新设计了一番。
目前的传闻中,Ampere将会把L2缓存给加倍,这也是得益于制程工艺的提升。这也会让架构的IPC得到一定的提升。配合上新工艺带来的频率提升,可以预见的是,Ampere在普通应用中(没有光追和DLSS)相比Turing也会有较大的提升。
I/O、显示接口升级:PCIe 4.0板上钉钉,DP 2.0、HDMI 2.1可以有
Ampere架构是未来一到两年中NVIDIA方面主打的GPU架构,那么在I/O部分自然也要有相当的前瞻性以满足后面几年的需求才行。从Turing到现在过去已经快有两年的时间了,I/O接口有了不少的升级,比如说HDMI推出了2.1版本,DisplayPort也推出了2.0版本,而PCIe 4.0也已经进入实用领域,竞争对手的最新GPU中已经升级到了PCIe 4.0,那么NVIDIA自然是不会落后,支持PCIe 4.0总线可以说是板上钉钉的事情。
为了面向未来的8K甚至更高的分辨率,对显示接口进行升级也基本上是可以肯定的事情。我们很有可能会看到它支持HDMI 2.1和DisplayPort 2.0,原来的USB-C支持也将保留。
总结
好了,以上就是对今晚即将要发布的Ampere GPU的一些传闻的汇总,我们抛去了传闻中针对游戏卡的部分,只保留了架构的变动,由于Ampere很明显将会是一代同时面向计算和游戏的通用型架构,我们从今晚的主题演讲中应该会得知关于它的很多信息,敬请等待今晚九点之后的专题报道。