AMD、NVIDIA两家旗舰显卡创作性能对比测试
2020年,我们正式进入了视频爆炸的年代,不论是以抖音、快手为代表的短视频APP,还是专注于较长视频的Bilibili平台,用户人数都得到了突破性的增长,越来越多的人拥有了生产力需求。此时高端显卡的重要性就得到体现了,显卡最早只不过是PC中的一个负责显示输出的零部件,最初显卡的作用就是把图形处理能力从CPU里独立出来。然而随着通用计算理念的诞生,GPU可以做越来越多的运算,俨然已经成为PC中的最核心部件。
GPU强大的并行处理能力在许多应用场景都表现出比CPU更为强劲的性能。CPU更多像是系统的调度师,而GPU则是真正的得力干将。特别是各种视频创作类软件,已经越来越依赖于GPU的加速。这时一张强大的显卡就不仅仅要承担传统的游戏功能了,也要肩负起为用户尽可能提供更强生产力性能的任务。在2020年末,A/N两家都拿出了自己当下最强大最先进的旗舰产品,并都对外宣称在生产力方面大有进步。
先是NVIDIA这边推出了RTX 3090显卡,加强的第三代AI单元以及第二代RT单元,让它可以在光线追踪渲染时更游刃有余,24GB的大容量也是让RTX 3090在生产力软件中足够给力。AMD这边的RX 6900 XT也不甘人后,今年同样加入了全新的RA光线加速器单元,在硬件上上支持了光线追踪渲染,此外,AMD也提升了自家的生产力性能,据官方介绍,相比之前的生产力老旗舰Radeon VⅡ,RX 6900XT在多个方面都具备显著的提升。很多读者朋友也在评论区留言说,希望可以看到两家2020年旗舰显卡的生产力性能比拼。因此为了搞清楚现在两家的生产力,我们将从目前最火热的渲染以及视频导出两个方面来进行对比测试。
Ampere架构下的RTX Studio
NVIDIA这次RTX 30系列GPU采用了全新的Ampere架构,在通用计算的SM单元、专为光线追踪运算的RT core,以及用于AI运算的Tensor core,这三个主要部分都作了大幅度的改进。在RTX 3080的首发评测中,我们已经可以看到这三个部分的升级,为游戏带来跨越性的性能提升,即使上到4K光追游戏中也能提供流畅的体验,而事实上这三大特性对于如今主流的创意应用,也能进一步提速。
更多CUDA、更强光追、更快AI
因为在RTX Studio支持的创意应用中,目前已经有50+主流创作软件利用上了RTX系列GPU的这三大特性,比如视频剪辑软件Premiere Pro支持基于CUDA的水银硬件加速,3D动画制作软件Blender可利用RT core来提高渲染速度,还有DaVinci Reslove、Photoshop、Lightroom在Tensor core帮助下,实现更快更准确的AI功能。
而在NVIDIA介绍中提到,相比上代Turing架构,这次在全新Ampere架构的内部,新的SM单元翻倍了FP32运算核心,使得CUDA数量大增,在首发的RTX 3080中拥有高达8704个CUDA单元,而第二代RT core增加了核心数量,提高了1.7倍的光线追踪运算性能,并新增支持了动态模糊效果的加速,最后第三代Tensor core也采用新的设计,内部翻倍了离散运算能力,整体AI运算速度提高2.7倍。
所以RTX 30系GPU这三个大提速,相应地也会帮助那些有利用到这三个特性的创意应用,获得更快速度处理速度,而且不仅如此,一些应用还获得新的功能特性。比如Blender支持了第二代RT core的动态模糊加速,在渲染带有高速运动场景的3D动画中,更更好应付当中的动态模糊效果,还有就是基于AI的超采样技术DLSS,现在也可以应用到创意工作中了,室内设计和渲染软件D5渲染器便是首个支持DLSS技术的3D渲染器,大幅提高了图像在实时预览时的帧率。
最大24GB显存、8K视频硬件解码
另外RTX 30系列GPU的其它一些新硬件特性也是对创意工作更加友好,新一代GPU支持到最大24GB的GDDR6X显存,应对需要超大显存的3D渲染和超高分辨率视频剪辑工作,有着比肩专业卡的充裕容量。而在游戏应用中目前还无法用满带宽的PCI-E 4.0,在高负载的创意应用中,更能利用上高传输带宽的优势。
最后RTX 30系GPU还升级了内置的NVDEC到第五代,支持最高8K分辨率HDR视频的AV1硬解码,配合HDMI 2.1接口的8K单线显示输出,这对于有8K HDR视频回放需要的视频后期工作者也会有很大帮助,加上本来的第七代NVENC硬件编码器,最高缩短了五倍的视频导出耗时,以及在直播串流中帮助降低硬件性能消耗。
Studio驱动、NVIDIA Broadcast
NVIDIA在RTX Studio中除了提供硬件特性,在软件方面还有Studio驱动和套件做软硬结合,除了为创意应用提供功能和稳定性的驱动优化支持,Sutdio还做了一些可以利用到RTX GPU特性的应用软件给创作者们,这次便为直播主们推出NVIDIA Broadcast,这用到RTX GPU的AI能力来对直播主的背景消除或替换,还有摄像头重构图,甚至帮助麦克风进行背景噪音消除。
在安装了NVIDIA Broadcast软件后,它会在摄像头、耳麦与直播软件之间建立一个中间者的角色,让外置设备可以利用到RTX GPU的AI能力来做一些AI增强效果,耳机和麦克风现在支持了降噪功能,AI会分析出哪些是主要音频,哪些是背景杂音进行降噪,给直播主和观众呈现清晰、有用的声音。
而摄像头现在有了自动重构图以及背景处理能力,从摄像头采集到画面,可以设置经过Broadcast进行处理,再传到OBS这些直播软件中,这可以让直播主的背景变得更为生动灵活,同时也可以降低直播场景的搭建成本。
另外对于游戏开发者,NVIDIA最新公布Omniverse Machinima,这是个用于快速构建动画CG的平台,将支持多个游戏和第三方插件,能更快帮助游戏开发者制作游戏里面的故事剧情动画,并可以利用AI技术配合摄像头,把现实姿势和脸部动作采集导入到3D动画建模中,另外NVIDIA还提供了一个基于GPU加速的Texture Tools,让材质艺术师和开发者可以更方便管理材质包。
最后游戏玩家们熟悉的GeForce Exprience,其内置的录制功能在新版本里面,将可以最高支持到8K30P的HDR视频捕抓,而无需额外的硬件采集设备,这让一些做游戏实况的视频UP主,或者游戏玩家可以用超高画质来记录下自己的精彩集锦。
NVENC加入到Premiere Pro工作流
在Premiere Pro的视频制作工作流当中,主要分为了原始素材导入、剪辑与添加效果,以及最后的成片导出三个主要阶段,对于硬件来说,在第一阶段的素材导入时,目前主要是利用CPU来进行解码(decode)工作的,而到了第二阶段的视频剪辑过程,处理这些操作的仍然主要是CPU,但如今的视频制作不仅仅是对素材进行简单的修剪、拼接,还会有各种转场、字幕、调色、颗粒化等等进阶效果,如果这些全靠CPU来回放预览,处理起来会非常卡顿和缓慢,所以在过去有不少视频工作者,会对原始素材进行生成代理文件,以降低对CPU资源的占用。
为此Adobe与NVIDIA一起合作,在PR中加入了支持利用GPU来处理回放、效果、多轨道预览等操作,以提升处理效率。这便是Mercury Playback Engine,它可以利用GPU来显著加速视频剪辑阶段的工作效率。
在目前最新版本的Premiere Pro里面,NVIDIA GPU已经支持非常多的效果加速,包括大家常用的变形稳定器、模糊、裁剪,以及Lumetri调色等等,这些在过去都是需要CPU,耗费大量时间去做分析和运算,但现在有了GPU的帮助,可以更快完成这些效果的合成速度,让剪辑工作变得更顺畅。
最后当大家把素材剪好、加完效果后,就要到第三阶段的导出视频了,而这次Preimere Pro的大升级,便是针对这一部分引入了额外的硬件加速,因为过去这个环节,其实也是更多采用CPU来进行编码(encode),由此可见现阶段CPU性能提升已经不足以满足视频处理的需要了。而GPU则将很多工作一点一点的接了过来,在整个工作流中扮演着越来越重要的角色。
RDNA 2架构的生产力提升
AMD在RDNA 2架构也引入了专门处理光线的RA单元,实时光线追踪最大的缺点就是对显卡的计算能力要求极高,传统的CU单元运行实时光线追踪的效率非常低,为了让实时光线追踪的画面更为流畅,AMD在RDNA 2架构的每一个CU计算单元里都放入了一个"Ray Accelerator"光线加速器, 由此可推断CU计算单元越多,RDNA 2架构显卡的实时光线追踪性能就越强大。RX 6900 XT拥有80组CU单元,自然就拥有80个RA光线加速器。
"Ray Accelerator"光线加速器是用于处理光线相交计算的专用硬件。与软件方案相比,其相交计算性能可提高10倍。AMD还提到实时光线追踪性能也可以吃到“无限缓存”带来的增益,并且RA单元同样可以用在生产力软件中,让A卡用户可以使用光线追踪渲染技术。
在AMD的官方PPT中我们可以看到,官方宣传RX 6900 XT凭借着全新的RDNA 2架构,在渲染软件Blender中相比之前的老生产力A卡旗舰Radeon VⅡ在渲染速度上都有着近2倍的提升,提升幅度也算比较大了。
在视频渲染软件达芬奇、PR中,RX 6900 XT相比老旗舰也是进步明显,在PR的一个项目中甚至性能甚至可以达到老GCN架构的3倍。此外,PR在今年的新版本也加入了A卡乃至APU的AFM硬件加速支持,因此RX 6900 XT现在的生产力性能也是得到了一个明显的进步。
创意应用测试
目前3D动画渲染和高分辨率视频剪辑,在如今市场中拥有最多的用户量,所以我们这里的测试也是以这两类创意应用为主。而在显卡的选择上,自然就是这次RTX 30系的旗舰显卡RTX 3090以及AMD的RX 6900 XT了,这两张卡代表着A/N两家各自在2020年的显卡产品最高成果。
至于整个测试平台,我们搭建了一套AMD Ryzen 9 5800X平台,搭配的X570主板提供了PCI-E 4.0插槽,5800X可以说是目前在游戏性能以及创造性能上都兼具的性价比CPU,使用这颗CPU进行显卡的生产力测试不会产生瓶颈。
3D渲染类
Blender
在众多3D动画制作软件中,Blender一直对GPU有着非常好的支持,其作为一个开源软件,它在近年也是获得越来越多个人和工作室用户的青睐,这得益于其自身灵活快速的软件发展,目前最新版Blender在其Cycles渲染器中,已经可以完好低依靠OptiX API,来调用到RTX GPU的硬件加速能力,包括支持光线追踪和AI降噪功能,并且在这次RTX 30系GPU,Blender Cycles也是最先支持了第二代RT core的动态模糊加速。
动态模糊效果主要是模拟真实相机在拍摄中因快门速度不够快,而无法捕抓到清晰的背景画面,这在3D动画中被用于体现物体在高速移动时的速度感,但是在3D渲染过程中,过去是无法做到在渲染时做动态模糊效果,只能后处理加入,这样会显得效果不够真实,而且极为耗费性能,但在NVIDIA RT光追单元的帮助下,在保证动态模糊精确性的同时,还提高了渲染效率,即提高画质,又加快了速度,官方称最高可以实现8倍于前代的速度。
AMD自从拥有了RA单元之后,基于开源的OpenCL,也可以进行光线追踪渲染了,因此两者的渲染时间长短就成了目前光追单元实力的体现。
后处理动态模糊光追加速动态模糊
通过对比最终渲染导出来的4K渲染图可以看到,采用后处理的动态模糊更像是简单地加上一些模糊滤镜,各处都很生硬和不自然,但在光追加速处理过的模糊效果就要明显好很多了,应该产生模糊的地方都做到,而最明显的就是无人机螺旋桨高速转动产生的残影,这更接近真实人眼看到的效果,在这种运动场景有精准的动态模糊,整体呈现出更强烈的冲击力。
在Blender这个项目测试中,RTX 3090的优势还是非常明显的,在三个项目中都领先了RX 6900 XT。最引人注目的当然是光线追踪动态模糊的成绩,RX 6900 XT的渲染时间约为RTX 3090的2.4倍,两者目前的光追渲染时间还是有较大差距的。这一方面跟两者的硬件架构光追单元的设计有一定的关系,另一方面RTX 3090采用的OptiX API是经过专属优化的,AMD采用的OpenCL是一个大众化的开放型API,在针对性的光追优化上还是差点意思,至少光追渲染这方面两者是差距明显的。
视频剪辑类
Adobe Premiere Pro
作为视频后期工作中最流行的软件,Premiere Pro很早就支持了CUDA运算的水银加速,帮助加快视频剪辑操作,而且Adobe还利用上RTX GPU的AI运算能力,来解决一些重复繁琐的工作,比如AutoReframe,这大大提高了如今流行的竖屏视频制作效率,另外从2020版本开始,在视频最后的导出阶段,现在还支持利用NVENC来加速编码,相比传统的软件编码,大大缩短了导出时间。此外,AMD显卡也在这次更新中得到了基于OpenCL的AFM硬件加速支持,两家显卡终于可以在PR上进行同步PK了。
在Premiere Pro中RTX 3090与RX 6900 XT的差距就没有刚才的Blender那么大了,但RTX 3090依旧拥有一定的优势。与此同时我还做了只用CPU渲染的情况作为对比测试,可以看到两张显卡的渲染时间都远远小于Ryzen 7 5800X,CPU渲染视频的效率现在被显卡拉的太远了,推荐大家一定要下载最新版本的PR并且开启硬件加速,从而提高自己的导出速度。
BMD DaVinci Resolve
在视频调色和剪辑工作中有着重要地位的DaVinci Resolve,向来都是个硬件优化良好的软件,可以在显卡的帮助下,提供进行高分辨率视频的剪辑工作,这款软件现在在也受到越来越受到欢迎。
而除了性能方面的加速,还在功能方面有利用到硬件的特性,DaVinci Resolve通过NVIDIA RTX系列GPU特有的Tensor Core,来做一些AI功能的加速运算,比如稳定器的补帧、Super Scale、自动适配调色等,不少高级剪辑工作中会用到的操作,提高视频后期用户的工作效率。
DaVinci Resolve相对来说更能体现显卡间的性能差别,但在5个DEMO测试中,A卡的渲染时间都是较长的,其中第三个和第五个DEMO中落后的尤为明显,我曾经怀疑是我自己测试出错,但经过多次的重启以及驱动检查,结果都是如此。后来经过一番寻找,最终在任务管理器中我总算发现了罪魁祸首。
我们看到在达芬奇软件渲染的时候,RX 6900 XT负责硬件加速的Compute 1单元的占用率呈锯齿形,经过实际观察,每过一秒钟这个单元的占用率就会下降一下,再升上来,如此反复直至渲染完成,这个应该说是一个很奇怪的事情,很明显RX 6900 XT因此没能完全发挥出实力。
这种情况的发生跟目前A卡暂时未推出相应的Studio驱动不无关系,游戏的驱动跟生产力驱动本来就是针对性软件不同,一个侧重实际游戏,一个侧重生产力软件,如果一起用的话就可能会出现上面的问题。这方面NVIDIA确实做的不错,意识到了混用两个驱动可能会给生产力软件带来不便,因此特意推出了RTX Studio驱动以及GeForce Game Ready两个方向的驱动供玩家选择。至于GPU温度方面,上图显示的应该是AMD的GPU热点温度,所以不是过热降频。
8K游戏测试
最后我还顺便测试了一下8K游戏的情况,结果不出所料,RTX 3090凭借着更大的真实带宽在8K分辨率时的表现会比RX 6900 XT还要强20%-30%,在一些3A大作上更流畅,而像极限竞速:地平线这种优化不错的游戏,则是有67帧的表现,跨越了60帧的流畅游玩大关。AMD这边则是没能跨越60帧的及格线,因此目前两者在8K游戏上还是差距明显的。
最后再来看一下现在非常火爆的《赛博朋克2077》,现在正好手头有一个8K显示器,不玩可惜了。由于现阶段的A卡还没得到《赛博朋克2077》的光追支持,光追的重要性对这款游戏还特别重要,因此我就只用RTX 3090试验了一下,以下是帧数表现:
原生8K光追DLSS超级性能
在8K超高分辨率的情况下,即便是RTX 3090帧数表现也不理想,好在这款游戏支持DLSS2.0技术,我打开专门为8K而生的超级性能模式,发现帧数提升了一大截。虽然在绝对画质上DLSS超级性能模式还是会比原生画质稍逊一些,广告牌有时会出现摩尔纹。但打开DLSS2.0之后,游戏从8K原生不到10帧的PPT模式,到已经超过35帧可以比较流畅游玩,这点画质牺牲我觉得还是可以接受的,毕竟一个可以玩一个不可以玩,原生8K画质再出色也只能截图,不能实际游玩,实际意义就不大。
开启DLSS2.0之后我们看到在游戏中显存的占用率也从20G下降到了11G左右,显存压力大大减小,因此DLSS2.0功能无疑是现阶段玩家体验8K游戏的最佳利器。
总结
通过上面的测试我们看到目前两家旗舰显卡的生产力差距还是比较明显的,虽然这次AMD的生产力性能进步不小,水平应该是跟20系显卡相当。但RTX 30系更进一步的创意性能提升,以及NVIDIA Studio、CUDA生态的建立则不是一朝一夕就能突破的,在这些方面NVIDIA还是下了很大功夫的。
NVIDIA的创作生态优势确实给RTX 3090带来了巨大的收益,创意类软件的应用一方面是速度,另一方面是稳定性和专属工作流的优化。之前在显卡领域一直是分为游戏显卡以及设计专用显卡两个部分,现在NVIDIA RTX Studio和CUDA把创意类软件的生态和游戏生态融合的非常好,不同需求的用户可以通过切换不同的驱动来满足游戏与创造的双加速。不少生产力软件也十分依赖于RTX生态以及CUDA生态,而AMD这方面还是有待加强,通用的OpenCL API目前看还不能跟RTX Studio以及CUDA生态抗衡,在稳定性以及性能方面都有明显的差距。
最后则是游戏性能,目前RTX 3090其实是一张全面的显卡,无论你是游戏发烧友还是内容创造者,这张显卡都不会让你失望。AMD的RX 6900 XT现在更大的意义上还是一张传统的游戏显卡,因此现阶段的话,RTX 3090在生产力以及高分辨率游戏体验方面是优于RX 6900 XT的。