超能课堂(88)：Volta显卡架构、性能解析，频率红利到头了？ / 开普饭

NVIDIA这几年垄断了高端显卡市场，从他们的Q1季度财报中虽然也能看到Tegra、数据中心等业务有了明显增长，不过营收的主力还是游戏PC市场，Q1季度游戏PC市场营收就增长了50%，高端玩家现在买游戏显卡往往是从GTX 1080 Ti/1080/1070中选一款了。如今Pascal还未显出颓势，今天凌晨的GTC 2017主题演讲上，NVIDIA CEO黄仁勋发布了Volta架构显卡，新一轮升级又要来了。

NVIDIA能够获得现在的表现很大程度是因为他们的产品路线图比较连贯，从Kepler到Maxwell，再到现在的Pascal架构，NVIDIA每一代GPU升级都很稳定，短时间内就能完成高端到低端的布局。以Pascal这一代为例，首发的是GTX 1080、GTX 1070，接着是Titan X，陆陆续续又有GTX 1060 6GB及GTX 1060 3GB，还有GTX 1050 Ti、GTX 1050，今年3月份又有GTX 1080 Ti、Titan Xp，马上还会有GT 1030主打入门级市场——不算不知道，NVIDIA在Pascal这一代的GPU产品组合还真是挺多的。

Pascal显卡发布一年整了，产品线布局还在完善，不过大家的兴趣点现在已经开始向新一代GPU转移了，特别是今天发布了Volta架构显卡——Telsa V100，这跟去年Pascal架构首发GP100核心的Telsa P100一样，也在去年这个时候，，今天我们也会针对GV100核心及Tesla V100显卡做更深入的探讨。

早上已经有Tesla P100的新闻发布了，大家也了解过基本情况了，我们先来看看Tesla V100加速卡的真身，这次同时展示的是两个版本的。

Tesla V100显卡真身：NVLink与PCI-E版大不同

NVLink 2接口的Tesla V100显卡（点击放大，图片来源于Heise）

老黄手里曝光最多的就是这个短小强悍的Tesla V100，它实际上NVLink版的，跟去年的Tesla P100看着很像，毕竟这二者都使用了HBM 2显存，功耗也没有明显增加，应该是直接沿用相同的PCB电路。

PCI-E接口的Tesla V100显卡（点击放大，图片来源于Golem）

PCI-E版的Tesla V100显卡不太引人注意，找到了上面这张照片，如果跟去年PCI-E版的Tesla P100显卡对比，可以看出PCI-E版Tesla V100显卡跟PCI-E版P100有很多不同，散热器明显小多了，体积跟NVLink版差不多。

这是去年的PCI-E版Tesla P100加速卡

Telsa V100加速卡规格：Volta架构终于来了

Tesla V100是针对HPC市场设计的，跟普通消费者没啥关系（属于吃瓜群众买不到买不起系列），之所以引人关注是因为它使用的是新一代Volta架构，首发的依然是GV100这种大核心。早上的新闻中大家也看到了它各方面规格都很惊人——815mm2核心面积、211亿晶体管、5120个CUDA核心、15TFLOPS浮点性能等等，放在当前的显卡中简直是鹤立鸡群，拿来跑游戏不知道多爽，可惜老黄不卖给消费级玩家。

NVIDIA Volta/Pascal与AMD Vega显卡的规格对比

为此我做了一个详细的规格表，对比的产品除了目前的Tesla P100和Titan Xp之外，还加入了AMD的Vega 10核心的Radeon Instinct MI25显卡，尽管还没上市，但AMD早前公布过这款显卡的一些信息，比如带宽、浮点性能，不过Vega核心的晶体管、核心面积等关键参数还是个谜。

对比GP100核心与GV100核心，可以看出后者规模进一步扩大，SM单元数量从之前的56组提升到了80组，CUDA核心数从3584个提升到5120个，计算单元数量增幅为43%。显存位宽及容量都没变化，还是16GB HBM2显存，不过频率有所提升，带宽从前代的720GB/s提升到了900GB/s，非常接近HBM 2显存理论上1024GB/s的带宽了（搭配4颗HBM显存的情况下）。

计算单元的增加也使GV100核心的规模进一步扩大——晶体管数量从目前的153亿增加到了211亿，核心面积从610mm2提升到815mm2，一举创造了NVIDIA GPU同时也是现代GPU的核心面积新纪录。NVIDIA这几代大核心虽然核心面积有涨有降，不过之前最多是在600mm2级别徘徊，这一次直接做了815mm2的大核心。

与Pascal架构GP100核心相比，Volta的GV100核心在架构上更多地是量变而非质变，不过它在架构也不是说没升级，这次GV100核心主要的变化就是针对AI人工智能、DL深度学习等新兴领域专门做了运算单元，我们下面再说这个。

Volta架构改进：Pascal翻新，新增Tensor单元

在之前解析GTX 1080与Tesla P100时，我们说过主流的GP104核心跟GP100核心是不同的，前者跟Maxwell架构没多大变化，每组SM单元是128个CUDA核心，GP100上每组SM单元是64个CUDA核心，而后面的GP102核心跟GP100也不同，更像是GP104核心的扩大版，也是每组SM单元128个CUDA核心。

GP100核心架构示意图

回到GP100与GV100大核心上，他们的架构也是渐进式变化，也是6组GPC计算单元，不过GP100核心每个GPC单元中是10组SM单元，每个SM单元有64个CUDA核心，而GV100大核心中每组GPC单元是14个SM单元，总数应该是84组SM单元，但是现在Tesla V100跟Tesla P100一样都不是完全体，前者启用了56组SM单元，后者启用了80组SM单元，总计80x64=5120个CUDA核心。

GV100核心架构示意图

以上算的是典型的FP32单精度运算单元，除此之外还有FP64单元，GV100依然延续了GP100中FP32：FP64=2：1的比例，每个SM单元中有32个FP64单元，理论上有2688个FP64单元，实际启用的是2560个。

NVIDIA这两年在深度计算、人工智能等领域投入很多精力，GPU架构也在传统HPC应用之外开始适应这些新兴领域，他们对运算精度要求没这么高，但对性能要求很高，Pascal显卡中就开始支持FP16、FP8精度运算，执行这些运算的性能也是翻倍增长。

GV100与GP100核心SM单元的变化

因此在GV100大核心，NVIDIA还加入了专门的Tensor（张量）运算单元，大部分人估计不熟悉这个词，不过还记得前不久Google搞的那个TPU在AI性能上吊打GPU的新闻吗？Google的TPU处理器中的T也是Tensor这个词，大家可以把它当作专用的AI运算单元来看。

GV100核心中增加了专门的Tensor运算单元（图片来源于Golem网站）

在GV100大核心中，每组SM单元中还有8个Tensor单元，这样整个SM单元中就是FP32：FP64：Tensor=64：32：8的比例存在，GV100也因此有了Tensor计算能力这个指标，Tesla P100的Tensor计算能力高达120TFLOPS，NVIDIA宣称它的Tensor性能是Pascal架构的12倍。

Volta支持第二代NVLink技术：300GB/s带宽

除了针对AI等新兴领域改进了Tensor单元之外，GV100核心在总线技术上也有升级，这次使用的是NVLink 2，如果你注意看了上面的架构示意图，应该可以发现GV100核心是6组NVLink通道，双向总带宽可达300GB/s。

相比之下，GP100核心上是4组NVLink通道，每个通道带宽是40GB/s，总带宽是160GB/s。

不论NVLink还是NVLink 2总线，相比PCI-E 3.0x16双向32GB/s的带宽都有明显提升，不过NVLkink并不是通用技术，主要用于IBM和NVIDIA开发的超算平台，这次GV100核心就会用在双方合作的Summit超算上，预计今年下半年正式启用。

Volta工艺升级：这个12nm有点特别

NVIDIA在主题演讲中还提到了Volta显卡的制造工艺，使用的是TSMC的12nm FFN工艺，听上去要比目前TSMC 16nm工艺更先进，那这种新工艺对Volta显卡到底有什么改善吗？我们依照上次的计算简单评估下不同工艺下的晶体管密度及效能。

由于AMD Vega显卡的核心面积、晶体管数量都是未知数，所以这里只对比了NVIDIA几代显卡的。

GV100核心是12nm工艺，211亿晶体管，核心面积815mm2，算下来晶体管密度是每平方毫米25.9百万晶体管，与16nm工艺的晶体管密度差不多。实际上，TSMC的12nm工艺也是16nm工艺的改良版。根据TSMC此前公布的资料，它实际是基于16nm FFC工艺改进的，性能是后者的1.1倍，功耗只有后者的70%，核心面积则可以缩小20%。

按照TSMC的说法，16nm FinFET Plus依然是他们性能最好的16nm工艺，现在GV100用的12nm工艺在性能上还真不一定能超过16nm FinFET Plus工艺，Tesla V100的加速频率就比P100要低一些，但从核心面积来看，计算单元规模增加了43%，核心面积只增加了33%，说明这个12nm工艺对缩小面积还是挺管用的。

至于未来的消费级显卡，GV102、GV104核心上12nm工艺也没跑了，但显卡的核心频率不会再像Pascal对比Maxwell时代那样大幅提升了，性能提升只能靠计算单元数量增加了。

Volta架构性能：比Pascal提升50%

说到性能，我们再简单看下NVIDIA官方资料中介绍的GV100性能提升情况：

DL深度计算性能三倍快，这个因为有Tensor单元加持，性能暴涨很正常

HPC性能提升情况

与Tesla P100加速卡相比，Tesla V100在不同HPC应用中性能提升有所不同，多的能超过70%，少的也有40%以上，官方给出的平均性能提升大约是50%——考虑到计算单元增幅也有43%，性能提升基本上与计算单元数量增幅呈正比，这跟Tesla P100时代频率大幅提升带来性能大提升的情况也有所不同。

总结：

GV100核心是为HPC运算市场而生的，跟Tesla P100的GP100核心一样也不会用于消费级市场，所以这篇文章对我们的意义更多地是分析未来的GV102、GV104核心的GeForce 20系列显卡的性能及表现。

与GV100一样，GV102/104核心的CUDA核心数量也会进一步提升，NVIDIA还可以通过阉割对消费级市场没什么用的FP64、Tensor单元来降低核心面积及成本，一如GP100到GP102那样。

Volta架构使用的12nm工艺在降低核心面积上很有用，但是从GV100上的频率来看，12nm下消费级Volta显卡的核心频率恐怕也很难有明显提升了，现在的GTX 10系中高端非公版显卡核心频率都能达到2GHz左右，未来的12nm Volta显卡估计也就是这个水平，甚至还有可能更低一些。

如果是这种情况，NVIDIA要想提高新一代显卡的性能，那么就只能从CUDA核心数量上着手了，Pascal这一代在频率上占了很多红利，Volta又要回到GPU运算单元提升的道路上了。

目前消费级的Volta显卡还没有明确的发布时间，今年底有希望推出部分高端产品，不过更有可能的还是2018年Q1季度，所以现在的Pascal显卡并不会受到什么冲击，大家现在该买什么卡就买什么卡，不着急的也可以等等AMD发了Vega显卡之后再看。不过NVIDIA看起来并不担心AMD的竞争，黄仁勋在之前的财报会议上表态2017年的市场竞争态势不会有什么变化，换言之就是AMD发布的Polaris 20及Vega 10显卡对他对不会有什么影响。

总之，Volta显卡现在露出了曙光，GV100上带给大家的有希望也有担心，想要了解更多Volta显卡信息的玩家可以加小超哥（ID：9501417）微信，他会爆料更多Volta显卡发布、性能及售价方面的消息。

超能课堂(88)：Volta显卡架构、性能解析，频率红利到头了？

相关推荐