GeForce RTX 3080 Ti创作性能测试:与RTX 3090差距不到5%的多面手
在很多用户的固有印象里,只有游戏型PC才需要性能强大的独立显卡,生产工作只要集显就足够了。这样的观点如果放在10年前或许问题不大,然而在今天还这样认为的话,那显然就是放弃了提升工作效率的大好机会,因为如今的显卡已经不仅仅是在游戏领域可以大显神威,在生产创作方面也可以起到很好的加速效果,可以让创作者在更短的时间里完成作品。也就是说如今的独显已经不仅仅是游戏玩家的专属,它们更是担负起了提供更强生产力的任务。
当然并不是所有的独立显卡都能很好地同时完成这两项任务,早期大家熟悉的独显产品特别是高端独显大都只专注于优化游戏领域应用,创作生产方面是由俗称的“专业卡”负责,基本上很少会涉及对方的领域,直到近年来两者才开始合二为一,如今一个GPU就能很好地兼顾游戏和创作,而在这里面的佼佼者则是NVIDIA的RTX系列GPU产品。如今NVIDIA的RTX 30系列GPU已经配备了第三代AI核心以及第二代RT核心,不仅支持光线追踪的硬件加速,可以在各种光追游戏中提供优秀的效能,最高24GB的大容量显存也是让RTX 30系列GPU在生产力软件中足够给力。
NVIDIA新近发布的GeForce RTX 3808 Ti则是RTX 30系列GPU中的次旗舰,其基本规格与RTX 3090接近的同时,也配置有12GB容量的GDDR6X显存,在我们的评测中其综合游戏性能领先RTX 3080接近10%,对于游戏玩家来说是一款非常理想的GPU产品。那么对于创作者用户来说,RTX 3080 Ti是否也有着足够的吸引力呢?
Ampere架构下的RTX Studio
NVIDIA的RTX 30系列GPU采用了全新的Ampere架构,在通用计算的SM单元、专为光线追踪运算的RT core以及专门用于AI运算的Tensor core这三个主要部分相对于上一代的Turing架构都做了大幅度的改进。而在RTX Studio支持的创意应用中,目前已经有50+主流创作软件利用上了RTX系列GPU的这三大特性,比如视频剪辑软件Premiere Pro支持基于CUDA的水银硬件加速,3D动画制作软件Blender可利用RT core来提高渲染速度,还有DaVinci Reslove、Photoshop、Lightroom在Tensor core帮助下,实现更快更准确的AI功能。
相比上代Turing架构,这次在全新Ampere架构的内部,新的SM单元翻倍了FP32运算核心,使得CUDA数量大增;而第二代RT core增加了翻倍了光线与三角形求交的计算效率,从而获得了1.7倍的光线追踪运算性能,并显著提升了动态模糊效果的加速,最后第三代Tensor core也采用新的设计,大幅提升了离散运算能力,使得整体AI运算速度提高2.7倍。
所以RTX 30系GPU这三个大提速,相应地也会帮助那些有利用到这三个特性的创意应用,获得更快速度处理速度,而且不仅如此,一些应用还获得新的功能特性。比如Blender支持了第二代RT core的动态模糊加速,在渲染带有高速运动场景的3D动画中,能更好处理其中的动态模糊效果,还有就是广泛应用于游戏中的基于AI的深度学习超级采样技术(DLSS),现在也可以应用到创意工作的应用中了。
大容量显存与8K视频硬件解码
另外RTX 30系列GPU的其它一些新硬件特性也是对创意工作更加友好,新一代GPU支持到最大24GB的GDDR6X显存,这已经在RTX 3090上应用,而最新发布的次旗舰产品RTX 3080 Ti也同样配置有12GB容量的GDDR6X显存,在应对需要超大显存的3D渲染和超高分辨率视频剪辑工作时有着比肩专业卡的充裕容量。同时PCI-E 4.0在高负载的创意应用中,也更能利用上高传输带宽的优势,进一步提升运算的效能。
最后RTX 30系GPU还升级了内置的NVDEC到第五代,支持最高8K分辨率HDR视频的AV1硬解码,配合HDMI 2.1接口的8K单线显示输出,这对于有8K HDR视频回放需要的视频后期工作者也会有很大帮助,加上本来的第七代NVENC硬件编码器,最高提升了五倍的视频导出效率,并且能在直播串流中分担更多的编解码工作,减少对其他硬件资源的消耗。
Studio驱动与NVIDIA Broadcast
NVIDIA在RTX Studio中除了提供硬件特性,在软件方面还有Studio驱动和套件做软硬结合,除了为创意应用提供功能和稳定性的驱动优化支持,Sutdio还做了一些可以利用到RTX GPU特性的应用软件给创作者们,例如为直播主们推出NVIDIA Broadcast,这用到RTX GPU的AI能力来对直播主的背景消除或替换,还有摄像头重构图,甚至帮助麦克风进行背景噪音消除。
在安装了NVIDIA Broadcast软件后,它会在摄像头、耳麦与直播软件之间建立一个中间者的角色,让外置设备可以利用到RTX GPU的AI能力来做一些AI增强效果,耳机和麦克风现在支持了降噪功能,AI会分析出哪些是主要音频,哪些是背景杂音进行降噪,给直播主和观众呈现清晰、有用的声音。
而摄像头现在有了自动重构图以及背景处理能力,从摄像头采集到画面,可以设置经过Broadcast进行处理,再传到OBS这些直播软件中,这可以让直播主的背景变得更为生动灵活,同时也可以降低直播场景的搭建成本。此外在最新的Broadcast软件中,NVIDIA已经实现了两种画面效果同时运算的能力,例如主播可以在开启背景虚化的同时叠加自动聚焦的功能,进一步增加了直播的专业性。
对于游戏开发者,用于快速构建动画CG的平台Omniverse Machinima将支持多个游戏和第三方插件,能更快帮助游戏开发者制作游戏里面的故事剧情动画,并可以利用AI技术配合摄像头,把现实姿势和脸部动作采集导入到3D动画建模中。另外NVIDIA还提供了一个基于GPU加速的Texture Tools,让材质艺术师和开发者可以更方便管理材质包。
最后游戏玩家们熟悉的GeForce Experience,其内置的录制功能在新版本里面,将可以最高支持到8K30P的HDR视频采集,而无需额外的硬件视频采集设备,这让一些做游戏实况的视频UP主,或者需要采集高分辨率视频的视频后期工作者可以更方便的获取超高画质的原始素材。
NVENC加入到Premiere Pro工作流
在Premiere Pro的视频制作工作流当中,主要分为了原始素材导入、剪辑与添加效果,以及最后的成片导出三个主要阶段,对于硬件来说,在第一阶段的素材导入时,目前主要是利用CPU来进行解码(decode)工作的,而到了第二阶段的视频剪辑过程,处理这些操作的仍然主要是CPU,但如今的视频制作不仅仅是对素材进行简单的修剪、拼接,还会有各种转场、字幕、调色、颗粒化等等进阶效果,如果这些全靠CPU来回放预览,处理起来会非常卡顿和缓慢,所以在过去有不少视频工作者,会对原始素材进行生成代理文件,以降低对CPU资源的占用。
为此Adobe与NVIDIA一起合作,在PR中加入了支持利用GPU来处理回放、效果、多轨道预览等操作,以提升处理效率。这便是Mercury Playback Engine,它可以利用GPU来显著加速视频剪辑阶段的工作效率。
在目前最新版本的Premiere Pro里面,NVIDIA GPU已经支持非常多的效果加速,包括大家常用的变形稳定器、模糊、裁剪,以及Lumetri调色等等,这些在过去都是需要CPU,耗费大量时间去做分析和运算,但现在有了GPU的帮助,可以更快完成这些效果的合成速度,让剪辑工作变得更顺畅。
最后当大家把素材剪好、加完效果后,就要到第三阶段的导出视频了,而这次Preimere Pro的大升级,便是针对这一部分引入了额外的硬件加速,因为过去这个环节,其实也是更多采用CPU来进行编码(encode),由此可见现阶段CPU性能提升已经不足以满足视频处理的需要了。而GPU则将很多工作一点一点的接了过来,在整个工作流中扮演着越来越重要的角色。
创意应用测试
目前的创作者用户主要以3D动画渲染和高分辨率视频剪辑为主,因此我们这里的测试也是以这两类创意应用为主,我们将在多款应用中对比RTX 3080 Ti与RTX 3080、RTX 3090显卡的创作效能。
我们基于AMD锐龙7 5800X处理器搭配了测试平台,锐龙7 5800X是目前在游戏性能以及创造性能上都兼具的性价比CPU,使用这颗CPU进行GPU的生产力测试不会产生瓶颈。
3D渲染类
Blender
目前Blender可以依靠两种API来实现RTX 3080 Ti的GPU加速,一个是一直以来都有良好支持的CUDA加速,另一个则是使用OptiX API来调用到RTX GPU的硬件加速能力,包括支持光线追踪和AI降噪功能多种功能的加速。从成绩上可以看到,由于Optix API可以调用RTX GPU中的RT Core等诸多特有单元,因此其渲染速度相比常规的CUDA加速可以说是大大提升,往往只需要后者不到一半的时间即可完成。同时得益于更高的基本规格和更大容量的显存,RTX 3080 Ti在渲染速度上相比RTX 3080也有明显的提升,可以缩短10%的时长。
而RTX 3080 Ti与RTX 3090的差距则很小,两者的成绩差距基本上都控制在5%以内,有部分测试甚至可以跑出与RTX 3090相同的成绩。
V-Ray
在V-Ray同样可以实现常规的CUDA加速以及RTX GPU加速,后者是RTX系列专享的加速模式,从成绩上看规格更高的RTX 3080 Ti在两项测试中都领先RTX 3080,领先幅度超过10%,明显拥有更高的运作效能,而与RTX 3090之间的差距则小得多,RTX 3080 Ti的表现要更接近于RTX 3090.
在接下来的Octane以及Indigo测试中也是类似的结果,RTX 3080 Ti在渲染效能上相比RTX 3080均有10%到15%的优势,与RTX 3090之间的距离则不到5%,这也就意味着比RTX 3080更高的基础规格以及更大的显存容量为RTX 3080 Ti带来的不仅仅游戏性能的大幅提升,对于创作者应用也有明显的加速,而且与RTX 3090之间的差异是非常小的,在日常应用中甚至肯说两者的差距几乎可以忽略。
Octane
Indigo
视频剪辑类
Adobe Premiere Pro作为视频后期工作中最流行的软件,Premiere Pro很早就支持了CUDA运算的水银加速,帮助加快视频剪辑操作,而且Adobe还利用上RTX GPU的AI运算能力,来解决一些重复繁琐的工作,比如AutoReframe,这大大提高了如今流行的竖屏视频制作效率。另外从2020版本开始,在视频最后的导出阶段,现在还支持利用NVENC来加速编码,相比传统的软件编码,大大缩短了导出时间。
Premiere Pro的测试分为渲染和导出两个项目,在渲染中测试中RTX 3080 Ti用时相比RTX 3080更低,而且在视频时长越长、所需素材越多的情况下,优势会愈加明显,从整体来看可以比RTX 3080节约10%的时间,对于长视频来说这个幅度会变得相当可观。
RTX 3090在测试中速度肯定是最快的,但是就实际体验来说RTX 3090并没有比RTX 3080 Ti快很多,大部分时候都只有数秒的差别,需要渲染的视频时长越短两者之间的差距也同样会越小,也就是说RTX 3080 Ti在Premiere Pro中的渲染速度是接近于RTX 3090的。
在导出测试三者的差距则都不明显,短视频的导出上三者所用时间几乎一致,只有时长比较长的视频在导出时,三张显卡相互之间才会拉开一些差距,从体来说依然是RTX 3080 Ti领先与RTX 3080,同时表现与RTX 3090几乎一致,也就是说对于专业剪辑的人员来说,RTX 3080 Ti的工作效率基本上就是RTX 3090的相同水平。
总结
创意类软件的应用一方面是速度,另一方面是稳定性和专属工作流的优化。之前在GPU领域一直是分为游戏GPU以及设计专用GPU两个部分,现在NVIDIA RTX Studio和CUDA把创意类软件的生态和游戏生态融合的非常好,不同需求的用户可以通过切换不同的驱动来满足游戏与创造的双加速,不少生产力软件也十分依赖于RTX生态以及CUDA生态。
作为最接近RTX 3090的次旗舰,RTX 3080 Ti在这两方面同样有很好的兼顾,其不仅可以实现游戏效能接近于RTX 3090、领先RTX 3080达10%的目标,同时在创作者应用上同样实现了接近于RTX 3090且相比RTX 3080明显更高的工作效率,同时售价比RTX 3090要便宜3000元,因此如果说RTX 3090更倾向于提供最佳的创作者效能的话,那么RTX 3080 Ti则是更适合于创作与游戏都要兼顾的用户,对他们而言后者才是更合适的选择。