NVIDIA正式发布GA100 GPU核心并推出DGX A100:计算性能上的一次飞跃
今晚9点,NVIDIA正式上线了GTC 2020的主题演讲视频,视频被分为8个部分,其中的第二部分主题是NVIDIA的RTX技术,而在第六部分,CEO黄仁勋正式发布了基于新一代Ampere的A100加速计算卡和基于A100加速卡的新一代DGX A100 AI计算系统。
我们首先来看人们最为关心的新一代Ampere架构,完整版的GA100核心架构图如下:
可以看到完整版的GA100拥有128组SM,每组SM中拥有4个最新第三代Tensor Cores,仍然是64个CUDA Cores/SM的结构。所以完整的GA100拥有8192个CUDA核心和512个第三代Tensor Cores,因为它是面向纯计算领域的核心,所以没有RT Core,可以说是Volta架构的直属继承者,面积高达826mm2,比GV100核心还要大,这还是换用了台积电的7nm工艺才达成的。
而此次发布的A100计算卡上面使用的GA100核心并不完整,被屏蔽了20组SM,所以它的规模是108组SM,6912个CUDA核心外加432个Tensor Cores,可以提供约19.5 TFLOPS单精度计算能力和9.7 TFLOPS的双精度计算能力。
Tensor Cores在Ampere架构上面进化到了最新的第三代,NVIDIA特别引入了全新的Tensor Float(TF32)数据格式,可以让Tensor Cores在没有改动代码的情况下提高20倍的单精度性能,另外,新的Tensor Cores加入了针对双精度浮点的支持,可以在诸多场景中发挥出更大的作用。
GA100上面还引入了新的多实例GPU功能,该功能支持将单GPU的计算资源切分成最多7块,多任务也好,虚拟化也好,这个特性对数据中心是相当友好的。
另外,用于GPU之间互联的NVLink技术升级到了第三代,能够提供最高600GB/s的数据传输速度,同时GPU的PCIe支持升级到了4.0版本,最高数据传输速度提升到了64GB/s。A100计算卡使用了40GB的HBM2显存,能够提供高达1.6TB/s的恐怖显存带宽。
凭借着架构和制程的升级,A100计算卡的性能较上一代——V100出现了飞跃,各种官方数据中,它相比V100都是成几倍的碾压。
基于这张计算卡构建的DGX A100系统,也就是黄仁勋此前给我们从烤箱里面拿出来的那张“卡”,则是拥有恐怖的5PFLOPS的计算能力(半精度),不过它的售价也及其高昂,单节点的价格高达20万美金。
好了,看完这个逆天级别的A100,我们说回第二部分中的重点——NVIDIA RTX技术。NVIDIA此次着重提到了《Minecraft》在加入RTX特效之后,诸多主播们的反应,并且宣布继续为这款游戏带去新的5张带有RTX效果的地图,这几张地图都是由知名的《Minecraft》玩家或团队倾力打造的,拥有丰富的可玩性和很好的展示效果。
当然,GTC 2020主题演讲内容不止于此,黄仁勋还展示了他们在自动驾驶、医疗保健、科学计算和HPC等领域中的成就和最新发布,我们会对这些内容做简要的介绍。