NVIDIA正式发布GA100 GPU核心并推出DGX A100：计算性能上的一次飞跃 / 开普饭

今晚9点，NVIDIA正式上线了GTC 2020的主题演讲视频，视频被分为8个部分，其中的第二部分主题是NVIDIA的RTX技术，而在第六部分，CEO黄仁勋正式发布了基于新一代Ampere的A100加速计算卡和基于A100加速卡的新一代DGX A100 AI计算系统。

我们首先来看人们最为关心的新一代Ampere架构，完整版的GA100核心架构图如下：

可以看到完整版的GA100拥有128组SM，每组SM中拥有4个最新第三代Tensor Cores，仍然是64个CUDA Cores/SM的结构。所以完整的GA100拥有8192个CUDA核心和512个第三代Tensor Cores，因为它是面向纯计算领域的核心，所以没有RT Core，可以说是Volta架构的直属继承者，面积高达826mm²，比GV100核心还要大，这还是换用了台积电的7nm工艺才达成的。

而此次发布的A100计算卡上面使用的GA100核心并不完整，被屏蔽了20组SM，所以它的规模是108组SM，6912个CUDA核心外加432个Tensor Cores，可以提供约19.5 TFLOPS单精度计算能力和9.7 TFLOPS的双精度计算能力。

Tensor Cores在Ampere架构上面进化到了最新的第三代，NVIDIA特别引入了全新的Tensor Float（TF32）数据格式，可以让Tensor Cores在没有改动代码的情况下提高20倍的单精度性能，另外，新的Tensor Cores加入了针对双精度浮点的支持，可以在诸多场景中发挥出更大的作用。

GA100上面还引入了新的多实例GPU功能，该功能支持将单GPU的计算资源切分成最多7块，多任务也好，虚拟化也好，这个特性对数据中心是相当友好的。

另外，用于GPU之间互联的NVLink技术升级到了第三代，能够提供最高600GB/s的数据传输速度，同时GPU的PCIe支持升级到了4.0版本，最高数据传输速度提升到了64GB/s。A100计算卡使用了40GB的HBM2显存，能够提供高达1.6TB/s的恐怖显存带宽。

凭借着架构和制程的升级，A100计算卡的性能较上一代——V100出现了飞跃，各种官方数据中，它相比V100都是成几倍的碾压。

基于这张计算卡构建的DGX A100系统，也就是黄仁勋此前给我们从烤箱里面拿出来的那张“卡”，则是拥有恐怖的5PFLOPS的计算能力（半精度），不过它的售价也及其高昂，单节点的价格高达20万美金。

好了，看完这个逆天级别的A100，我们说回第二部分中的重点——NVIDIA RTX技术。NVIDIA此次着重提到了《Minecraft》在加入RTX特效之后，诸多主播们的反应，并且宣布继续为这款游戏带去新的5张带有RTX效果的地图，这几张地图都是由知名的《Minecraft》玩家或团队倾力打造的，拥有丰富的可玩性和很好的展示效果。

当然，GTC 2020主题演讲内容不止于此，黄仁勋还展示了他们在自动驾驶、医疗保健、科学计算和HPC等领域中的成就和最新发布，我们会对这些内容做简要的介绍。

NVIDIA正式发布GA100 GPU核心并推出DGX A100：计算性能上的一次飞跃

相关推荐