双倍CUDA单元和良心价格!新一代Ampere GPU架构和首发显卡简析

今天不管对DIY硬件业界还是对游戏业界来说,都是个大日子,因为NVIDIA发布了新一代在性能上有巨大飞跃的RTX 30系显卡。首批的三张显卡在性能方面可谓是有着非常大的提升,就算其中定位最低的RTX 3070在官方宣传口径中都能有超过上一代旗舰卡RTX 2080 Ti的性能。那么,RTX 30系显卡是如何做到如此巨大的性能提升幅度的呢?本文就基于官方目前给出的信息对RTX 30系显卡的核心,也就是代号为Ampere的GPU进行简要的分析,由于官方尚未给出新一代显卡的白皮书,故本文只能挖掘到较为浅层的一些信息。

相关文章:

NVIDIA正式发布新一代GeForce RTX 30系列显卡:性能爆炸,价格惊喜

与RTX 30系显卡一同登场的各种黑科技汇总:AI技术已经来到我们身边

[视频] 5分钟看完NVIDIA RTX 30系列GPU发布会!

[视频] 初谈刚发布的NVIDIA RTX 30系列显卡!7家AIC厂商聊他们的看法!

Turing架构是NVIDIA的初代RTX架构,它首次引入了RT Core,并升级了从Volta架构开始引入的Tensor Core。

它的意义在于将整个GPU的处理管线分成多个部分,早前的GPU只需要全力渲染画面即可,而在引入实时光线追踪特效之后,GPU中的处理核心需要分心去算光线追踪特效,偏偏这部分又非常吃算力,会让传统的GPU浪费非常多的算力。

于是NVIDIA想到为实时光线追踪引入独立的硬件处理管线,也就是RT Core。但在开启实时光线追踪的情况下,单靠RT Core在那边加速仍然没法达成高帧数的目标,所以NVIDIA研发了DLSS技术,也就是利用机器学习,通过AI升频的方式将低分辨率的游戏图像实时处理成高分辨率的图像输出。因为降低了实际的渲染分辨率,所以大幅减轻了GPU的计算压力,从而达成开启实时光追下的流畅游戏。

但是,Turing显卡的一大问题就是计算规模不够大,老黄在发布上也很坦诚的说,开了光追的Turing显卡表现和没开光追的Pascal差不太多(从图上甚至可以看到GTX 1080 Ti在非光追情况下的表现要优于光追场景下的RTX 2080 Super)。但是Turing GPU的工艺已经不允许NVIDIA往里面塞入更多的计算单元了,那么,是时候换工艺了。

与A100加速卡上那枚使用台积电N7工艺的GA100芯片不同的是,NVIDIA选择和三星合作,定制了基于三星8nm工艺的制程,称为Samsung 8N(N for NVIDIA)。在面积最大的GA102芯片中,NVIDIA塞入了280亿个晶体管,这个数字是TU102的1.5倍,但仍然比面向计算用途的GA100少很多(542亿)。

这多出来的1.5倍晶体管主要被用在加倍FP32单元上,从NVIDIA官网上的对比表我们即可看到这一明显的区别点。

以往在NVIDIA的GPU中,一个CUDA Core对应一个FP32计算单元,在Turing GPU上面,NVIDIA加入了独立的整数计算单元,它与传统FP32计算单元的比例是1:1,到了Ampere上,因为对算力有非常高的需求,NVIDIA直接选择把FP32单元的数量暴力翻倍。并且官方并没有采用一个CUDA Core对应两个FP32单元的计数方式,仍然保留了1:1的算法,所以我们看到了CUDA核心数量暴涨的一代显卡,下表对几代同级显卡的CUDA核心数量进行了对比:

注:Ampere显卡的INT单元数量暂时按照1:2的比例计算。

从上表中我们可以感受到RTX 30显卡在计算规模上的暴增,不过这只是它性能增幅来源的一个部分。NVIDIA还引入了第二代RT Core和第三代Tensor Core。新的RT Core在处理光线追踪相关的计算时,可达到初代RT Core的1.7x效率,而GA100的同款Tensor Core则带来了2.7x的AI性能提升。

另外不得不提的还有新的显存。RTX 3080和RTX 3090都使用了来自于美光的GDDR6X显存,在显存带宽上逼近1TB/s的大关。这多个方面拼合到一起,让RTX 30系列显卡拥有了暴涨的性能表现。

第二代RT Core让RTX 30显卡在越复杂的实时光追场景下有更高的性能增幅

总的来看,Ampere GPU在能耗比上达成了一个1.9x的进步,在半导体制程提升日益困难的今天,这个进步幅度已经算是不小了。但是从上图我们也需要注意到,Ampere显卡在功耗上将会比Turing显卡去到更高的地步。

再来详细谈一谈这次发布的三张显卡。

首先是RTX 3080,官方将其作为旗舰卡,而不是RTX 3090。官方标称它有2倍于RTX 2080的性能。

就算单看RTX 3080的CUDA核心数量,我也会信NVIDIA的说法,毕竟它有着三倍于RTX 2080的CUDA核心数量。但是这也带来了一个问题,三倍于RTX 2080的CUDA核心数量为什么只能带来两倍的性能?这个问题只能等到官方公布显卡白皮书的时候才能知晓了。

RTX 3080香不香?当然了,同样的起售价给你两倍的性能,能不让人高喊“NVIDIA YES”吗?但各位准备买新显卡的朋友需要注意两个问题,一个是供电,另一个是新卡的体积。

三星的8nm制程实际上是10nm的改良版,给GPU带来的省电效果是比从TSMC N16跨越到N7差得远了。庞大的GPU规模带来的必然是能耗和发热的大幅增加,公版的RTX 3080的标称TGP达到了320W,同时其GPU最高限温被抬高到了93℃。原本GPU的瞬时功耗就要比标称的TGP高上不少,现在基数都高了很多,那瞬时功耗还不得上天?这就给电源带来了很大的挑战,首先是瓦数要高,750W可能只能算是底线,上850W会更好,另外是电源的品质要好,能够应付新显卡的超高瞬时功率。那么功耗高了,发热量当然也会上去,这带来了第二个问题,为了即时散去热量,显卡厂商需要升级散热器,增大鳍片、加多风扇叶片数量这些都是常规操作了,自然会带来散热器体积的增加,进而增加了显卡整体的体积。官方给公版RTX 3080的标称厚度是双槽,不过就我们手上的显卡和今晚AIC们的发布来看,新显卡占到三槽的可以说是比比皆是。

再来说说大家都爱的RTX 3070。如果说RTX 2070是一代坑爹卡的话,那么这次的RTX 3070可以说是回归系列定位初心的一张卡。让我们回想一下,当年的各种x70显卡提供的是什么?是次旗舰级别的性能表现和平近易人的价格,最经典的就是GTX 970和GTX 1070 Ti了。那么这次的RTX 3070在性能上虽然仍被拉开了一个身位,次旗舰级别的性能表现无从谈起,但如果进行代际之间比较的话,它是比RTX 2080 Ti略强一点点的,换句话说,你可以用4000块钱买到一张RTX 2080 Ti级别的显卡,想想之前RTX 2080 Ti卖到多少吧。唯一的一个问题是,它仍然只有8GB的显存,在未来的4K游戏普及时代,这点显存可能会出现不够用的情况。

再说说这次的卡皇RTX 3090。老黄用了“BFGPU”这个自造缩写来描述这款显卡。它瞄准的,已经不再是简单的4K游戏,而是更高层次的8K游戏,而且一做,就要做到8K60。当然,这个目标是要通过DLSS技术来实现的,但也足以让人们惊叹了。24GB的显存也让它很适合用来当成一张创作卡,或者说,准专业卡。 最后,¥11999的售价看上去不怎么亲民,但想想上一代Titan RTX的定价……足够让人发自肺腑的说一句,老黄良心啊。

当然,老黄是不是真的良心,我们抱持怀疑态度,因为这次的RTX 30系显卡采取如此有性价比的定价方案可能是受到AMD方面的压力了,RDNA 2可能真的不是省油的灯,所以NVIDIA需要通过提前布局市场来防范对手。

好了,以上就是我个人对Ampere架构和首发游戏卡的快速分析,如有看法可以在评论区讨论。

(0)

相关推荐