Nvidia发布Tesla V100计算卡:Volta架构,恐怖的5120个CUDA

昨晚NVIDIA CEO黄仁勋在GTC 2017大会上发布了基于Volta架构的旗舰计算卡 Tesla V100,为了应付日益庞大的AI以及高性能计算需求,Tesla V100拥有超越上一代的5120个CUDA单元,并且增加能提高深度计算性能的Tensor单元,因此晶体管数目足足有210亿之多,核心频率为1455MHz,16GB HBM2显存,浮点性能更是达到单精度浮点15 TFLOPS,双精度浮点7.5 TFLOPS。

对比上一代Tesla P100,Tesla V100最大变化就是增加了与深度学习高度相关的Tensor单元,Tensor性能可以达到120 TFLOPS;而且CUDA数目暴增,由3584个增至5120个,增长了42%;全新的台积电12nm FFN工艺制造有史以来最大的815mm2 GPU核心(16nm的第四代改良版本,更高的晶体管密度,更低的功耗;管中窥豹,估计Volta游戏卡都是使用这个工艺了);虽然依然是4096bit 16GB的HBM2显存,但是带宽已经Tesla P100 720GB/s提升至900GB/s水平。

除了CUDA单元数量增加,Tesla V100为了更好提升高性能计算,继续增加二级缓存及寄存器大小,L2缓存由Tesla P100的4096KB增加到了6144KB,每组SM单元的寄存器文件大小总数从14336KB增加到了20480KB。

NVIDIA计算卡专享的NVLink是一种高带宽的互联技术,能够在CPU-GPU和GPU-GPU之间实现超高速的数据传输。诞生之初就获得传统PCIe 3.0 5-12倍的数据传输速度,还能大幅提升应用程序的处理速度。现在NVIDIA将其提升至300GB/s水平,当然了这个技术主要还是用在高性能计算上,估计不会下放至游戏卡上。

Tesla V100架构:

6组GPC单元,每组GPC单元由14组SM单元构成,满血版应该是6 x 14 = 84组SM单元,但Tesla V100只有80组,每组SM单元64个CUDA单元,因此共同构成80 x 64 = 5120个CUDA单元。每组SM单元中,FP32:FP64:Tensor单元比例为8:4:1。

这个核弹太厉害了,CUDA数不过来,密密麻麻

那么问题来了,强大如斯的Tesla V100究竟用在哪里?NVIDIA表示将会率先更新用于深度学习超算DGX-1上,内部同样集成了8张Tesla V100,提供960 TFLOPS Tensor深度计算性能,能够在8小时完成TITAN X需时8天的计算量,极大地节约科研人员等待深度计算结果时间。就当然啦,拥有8张真·核弹的新DGX-1售价并不便宜,149000美元,折合人民币102万元。对于这颗威力十足的核弹我们暂时还是看看就好,毕竟不是面对消费级市场的,但对1080ti感兴趣的用户的话,可以关注下小超哥(ID:9501417)朋友圈,近期将为你带来它们的横评。

(0)

相关推荐