有关于Ampere GPU的传闻,看这一篇就足够了
近日我们注意到国内外有很多硬件媒体对几张疑似是新的Ampere GPU的核心架构图进行了报道,实际上这并不是很新鲜的“泄漏”,这两张架构图早在上个月17日就已经被人发在Twitter上面,因为我们不能认定它的真实性,所以便没有做报道。包括这两天传的“GA100的核心面积将达到826mm2”,其实都是来自于同一个Twitter账号发出的消息。
鉴于NVIDIA有一定可能会在三月份的GTC 2020上面发布Ampere GPU以及基于它的全新计算卡,我们收集了目前为止的传闻,汇总成了这篇文章。重要的事情说三遍,这是传闻、传闻、传闻。
GA103、GA104的核心架构图以及新SM的架构图
在1月17日,一个新开的Twitter账号发布了两张图,并且称这两张图就是NVIDIA尚未发布的GA103和GA104 GPU核心部分简图,随后这个账号在1月18日继续给出了张SM单元架构图,简述了Ampere架构的主要改进点,我们将这三张图搬运在下方:
疑似GA104核心图,6组GPC,每组GPC配置8组SM,共48组SM单元
疑似GA103核心图,6组GPC,每组GPC配置10组SM,共60组SM单元
疑似Ampere SM单元图,以上三张图片来自于Twitter账号@CorgiKitty
Turing GPU SM单元结构简图,作对比用
我们先来看传闻中的Ampere SM单元架构图,与Volta和Turing架构一样,NVIDIA延续了他们的分精度计算理念,在Ampere GPU中分别设计了用于整数运算的INT32单元和用于浮点运算的FP32单元,但有一个很明显的改动:**原本只有一组的FP32单元倍增了。**然后是Volta架构中引入的Tensor Core,它的数量也倍增了。那么这样一来,单个SM中包含的CUDA核心数量就来到了128个,恢复到了Pascal架构的水平。
再看到整个SM单元,很明显的一点是Turing架构引入的RT Core在Ampere上面进行了加强,泄露的架构图上面将新的光追单元称为“RT Core Advanced”,预计是在光追性能上面有加强,另外,每个SM单元原本配备的96KB L1高速缓存在Ampere上面扩大到了128KB。
那么从这些改变来看,Ampere的单SM计算能力会有明显的增强,FP32单元的倍增让它的理论单精度浮点运算吞吐量至少是倍增的。而Tensor Core和RT Core的增强也是对RTX显卡上面的深度学习计算和硬件加速光线追踪这两个重要卖点进行了加强。
看完了SM单元的变化,我们再回头看GA104。从命名上来看它是TU104的后继者,一般是作为消费级显卡的次旗舰出现的。我们将其与TU104的规格进行对比,首先GA104的SM单元数量仍然保持了48个,但每个SM单元所含的CUDA核心和Tensor Core数量都倍增了,所以整个GA104将拥有6144个CUDA核心。然后其显存控制器的数量仍然为8组,典型的显存位宽为256-bit,持平。值得注意的是架构图顶部的PCIe总线版本,升级到了4.0。
另外一个核心代号是GA103,值得注意的是此前NVIDIA并没有使用过103这样末尾为数字3的代号,根据一贯的传统,在104之上的应该是102才对,所以这次NVIDIA可能是新设计了一枚高于传统次旗舰的GPU,用来替代原本102系GPU在消费级市场中的旗舰位置,也就是我们可能会看到的3080 Ti。
这颗GA103的SM数量并没有完整版TU102那么多,相比后者要少12组SM,但由于单个SM中CUDA核心倍增,其整个GPU的CUDA核心只增不减,达到7680个,超过完整版TU102(Titan RTX)66.67%,在如此巨大规模的核心上有如此高的规模增大,实属恐怖。
GA100的核心面积高达826mm2
这条传言也是来自于这个Twitter账号,账号持有者在2月22日发布了如图的Tweet:
826mm2是什么概念呢?比近年来NVIDIA做过的最大的芯片——GV100还要大上一点点(815mm2),再加上工艺进步带来的晶体管密度提升,GA100的最终规模是相当恐怖的。
甚至于这条传言本身可以得到一定的印证,Tweet作者在发出826这个数字前转发了一条去年5月份的传闻,里面已经清楚的写着GA100的面积将会超过800mm2,还给出了它有8个GPC,使用HBM显存这些信息。
传闻总结:Ampere规模可能会有巨大提升
所有的传闻都指出,Ampere的规模将会有巨大的提升,这很大程度上是得益于制程工艺的进步,Turing GPU使用的12nm FFN工艺只是老16nm工艺的改进版,在晶体管密度上面实际并没有太大的提升,但是Ampere将使用的7nm工艺就不一样了,它的密度提升是非常巨大的。
但这也带来了一个隐患:功耗和发热。我们暂时还没有看到7nm工艺在超大核心上面的表现,旗舰级的GA100核心面积突破800mm2,而低了好几级的GA104在规模上实际也并没有小太多。核心面积一大,带来的问题就是良品率降低和漏电率的上升。专业级市场对这点并不敏感,但在消费级市场中,这将会影响到产品最终的表现,不过真实情况到底会如何呢?这个答案至少要到今年下半年才能揭晓了。
最后,重申一遍,本文基于目前的传闻而写,不代表实际产品就一定会像本文中所写的那样。