今天晚上9点，NVIDIA将会放出CEO黄仁勋为主讲人的GTC 2020主题演讲，经过官方的多次预热和暗示，我们很有可能会看到新一代的Ampere架构，还有基于新架构的GPU、新的Tesla计算卡和DGX计算服务器产品。在今晚揭晓谜底之前，我们整合了截至目前的多条流言和传闻，尝试为各位读者构建出一个尽量接近最终成品的Ampere架构。

传说中的GA102核心图，来自于@Ragdoll_Kitties

我们首先从制程工艺开始讲起。

制程工艺：台积电7nm还是三星8nm？

Ampere GPU将使用谁家的哪种制程工艺可以说是目前最为扑朔迷离的一个问题。要搞清楚这个问题，我们需要回顾一系列的新闻事实。

最早的传闻出现在去年的6月份，当时有媒体报道NVIDIA将会选择三星的7nm EUV工艺来生产新一代的Ampere GPU而不是用老伙伴台积电的7nm工艺。

这则消息随后被NVIDIA韩国的头头确认了，随后又被NVIDIA官方发言人和VP改正为他们将在下代GPU上同时使用两家的工艺”。之后很长时间，我们都以这个官方确认为准，但同时用两家代工厂肯定会带来一个新的问题：哪家多哪家少？

于是在去年于苏州举办的GTC 2019中国大会上面，有媒体直接向CEO黄仁勋询问了这个问题。当时黄仁勋确实给出了回答，原话是怎么样的现在已经不可知，目前能够找到的相关报道的引源都是来自于这段话：

NVIDIA创始人黄仁勋日前接受媒体访问时澄清，未来还是会将大多数7纳米制程产品订单交由台积电生产，三星只会获得少量订单。

通过CEO的澄清，我们似乎可以确定台积电在新一代产品中仍然将作为主要的代工厂。但之后不久，又出现了NVIDIA将会使用三星的8nm制程制造游戏GPU的传闻。

但其实细看的话，两者之间并不冲突，“会将大多数7纳米制程产品订单交由台积电生产”这句话中提到的产品是“7纳米制程产品订单”，而如果游戏GPU直接不使用7纳米制程，那它根本就不算是“7纳米制程产品订单”的成分，那么传闻和已经被确认的事实之间就不存在冲突了。

基于以上的判断，我们可以提出如下的猜测：核心面积巨大、面向专业计算市场的GA100可能会交由台积电进行生产，而面积更小，诸如GA104等游戏GPU将会交由三星进行生产，并且使用8nm制程。

由于三星的8nm工艺实质是10nm节点工艺的改良版本，其密度提升不大，所以是比较适合用来“摊大饼”以降低先进制程工艺带来的积热效应，在游戏卡上面可以用更低的成本来控制好核心温度。

架构优化升级

从Kepler架构开始，NVIDIA就着重于提升GPU的能效比，Ampere架构肯定也会伴随着一定的能效比提升，这其中部分是来自于制程工艺的升级，部分是来自于自身的架构优化升级。

从这几代NVIDIA GPU架构的变化来看，有几个趋势是比较明显的，一是单个SM中的CUDA Core数量在变少，而SM数量在不断变多；二是缓存系统在不断地变大，尤其是共享的L2缓存，在不断地变大；三是将整数与浮点计算解耦，对不同的数据类型进行并行化处理。

Turing是一代改变较大的架构，就算是与它的前辈Volta比，改变也堪称巨大。首先它引入了RT Core，支持对光线追踪进行硬件加速计算，并成功地将Tensor Cores应用在游戏卡上面。另外它独立设置了处理INT16的单元，让整数与浮点走两条并行的处理管线。总的来说，它打好了NVIDIA未来图形架构的基础，Ampere将会在它的基础上进行优化升级。目前的传言中，对于Ampere架构的猜测主要有如加大L2缓存，增加Tensor Cores的数量，RT Cores的效率改进等等。

先来说说Turing核心中被玩家们叫成是“电炉丝”的Tensor Cores和RT Cores。

Tensor Cores的更多用处：帮助压缩显存？

有传言称Ampere将会把单个SM中的Tensor Cores给加倍，以提供更强劲的FP16运算能力，那么会用在何处呢？

想必各位还是比较认同DLSS 2.0在图像质量和性能上面的优化改进的，传言中称，一个兼容性更好（能兼容TAA算法，目前不行）的DLSS 3.0已经在路上了，它会提供比DLSS 2.0更强的表现。那么数量加倍的Tensor Cores想必能够在AI相关的应用中提供好不少的性能，DLSS就是一大重点用途。当然，对于计算市场，加倍的Tensor Cores在计算能力方面也将会有出色的表现。

另外，传言中还说，Tensor Cores可能将会帮助GPU进行显存的压缩，以增加GPU与显存之间的带宽，这对当前的GDDR6显存是一个友好的补充。

RT Core改进：4倍光追性能？

再来看RT Core相关的内容，Turing GPU在处理实时光追效果时，会有不小的性能损失。Ampere的每个SM仍然只会有一个RT Cores，但它会在效率上可能会有很大的提升。

效率的提升会让GPU在处理实时光追时更为得心应手，至少不会像Turing那样，在碰到大量应用光线追踪特效时出现大幅度的帧数下降这种情况了。

L2缓存加大：提升IPC性能

缓存设计是现代GPU设计中重要的一环，非常影响最终的性能表现。从Kepler一路看过来，你可以发现NVIDIA一直都在加大GPU的缓存，Turing的L1缓存架构还被重新设计了一番。

目前的传闻中，Ampere将会把L2缓存给加倍，这也是得益于制程工艺的提升。这也会让架构的IPC得到一定的提升。配合上新工艺带来的频率提升，可以预见的是，Ampere在普通应用中（没有光追和DLSS）相比Turing也会有较大的提升。

I/O、显示接口升级：PCIe 4.0板上钉钉，DP 2.0、HDMI 2.1可以有

Ampere架构是未来一到两年中NVIDIA方面主打的GPU架构，那么在I/O部分自然也要有相当的前瞻性以满足后面几年的需求才行。从Turing到现在过去已经快有两年的时间了，I/O接口有了不少的升级，比如说HDMI推出了2.1版本，DisplayPort也推出了2.0版本，而PCIe 4.0也已经进入实用领域，竞争对手的最新GPU中已经升级到了PCIe 4.0，那么NVIDIA自然是不会落后，支持PCIe 4.0总线可以说是板上钉钉的事情。

为了面向未来的8K甚至更高的分辨率，对显示接口进行升级也基本上是可以肯定的事情。我们很有可能会看到它支持HDMI 2.1和DisplayPort 2.0，原来的USB-C支持也将保留。

总结

好了，以上就是对今晚即将要发布的Ampere GPU的一些传闻的汇总，我们抛去了传闻中针对游戏卡的部分，只保留了架构的变动，由于Ampere很明显将会是一代同时面向计算和游戏的通用型架构，我们从今晚的主题演讲中应该会得知关于它的很多信息，敬请等待今晚九点之后的专题报道。

Get Amped! 在今晚的GTC大会之前，我们为你梳理了Ampere架构的传闻