NVIDIA Broadcast软件体验:随时随地开播
刚刚过去的双十一,在巨大的购物狂潮中,蕴含着一个亮眼的名词——“直播带货”。李彦宏称之前也说过“直播电商现在已经成为了一种趋势,并且我认为它将来还会成为一种重要的商业形式,直播可能会成为和视频、文字一样的重要媒体。”
全民直播时代
其实我们生活中也能感受到直播带来的影响力,不管是直播带货、游戏直播还是秀场直播,直播行业的影响力、覆盖范围以及从业人员都在迅速增大,并且现在已经进入了巨头的时代,上个月,腾讯促成了虎牙、斗鱼的合并就是一个重要的标志。
据艾媒咨询数据显示,去年,中国直播电商行业总规模为4338亿元,预计今年国内直播电商行业规模将达到9610亿元,接近万亿级体量,更有说法预测,到2021年规模将达到2万亿元。
而对于我们DIY玩家来说,相对接触更多的应该还是游戏直播了,对于游戏直播来说,如果想带给观众一个较好的体验,对于设备以及环境、场地的需要还是很苛刻的。
这一般来说需要一个尽量安静的环境,这样就不会带给观众过多的环境杂音,而如果没有这样的条件,那就只能斥资在设备上下功夫,比如降噪效果好的收音系统。除此之外,还有直播环境的布置,凌乱的环境总是会给人不好的视觉体验,而且会影响观众的注意力。
这样的要求显然是阻碍“全民直播”这样时代趋势的因素,而时代趋势应该是,只需要一台主流的电脑,就可以进行不错的直播活动。英伟达今年伴随着安培新架构显卡一起推出的NVIDIA Broadcast软件,就是为了解决这个问题而开发的。
NVIDIA Broadcast软件的主要作用有三个方面,分别是语音降噪、虚拟背景和网络摄像头画面的自动跟随,现在玩家只需要一台搭载NVIDIA RTX显卡的主流电脑,配合上NVIDIA Broadcast软件就能实现专业级的直播效果。
为什么需要RTX显卡
近年来AI计算、机器学习或者说深度学习这样的概念不断被提及,特别是在芯片上,比如刚刚苹果发布的M1芯片,内置专用的16核神经网络引擎,非常适合AI计算,拥有最高达每秒 11 万亿次的惊人运算能力。同样的,手机中的高通骁龙处理器和华为的麒麟处理器中的NPU也是这类擅长AI计算的单元。
而为个人计算机首先带来高效AI计算的就是NVIDIA RTX显卡中的Tensor Core(张量核心),简单的来说, NVIDIA RTX显卡中的Tensor Core是专门针对深度学习而设计的特殊计算核心,它尤其适合深度学习训练和深度学习推理,而在噪音消除、虚拟背景、人像跟踪这样的应用中,正是深度学习大展拳脚的领域,拥有Tensor Core和NVIDIA RTX显卡可以很好的实现这些功能。
体验平台
对于游戏主播来说,最适合他们的RTX显卡肯定是基于最新安培架构打造的新一代旗舰——RTX 3090显卡了,本次笔者用来体验NVIDIA Broadcast软件所搭建的平台就是围绕着一张RTX 3090显卡搭建的平台,显卡用的是索泰的RTX 3090天启OC。
索泰RTX 3090天启OC除了具有目前最强的消费级游戏GPU——RTX 3090核心之外,还具有24GB的GDDR6X显存,不论是对于游戏应用还是创作应用来说都是目前最好的消费级显卡。当然此次选择它更重要的原因是,由于NVIDIA Broadcast软件主要是利用NVIDIA RTX显卡中的Tensor Core的AI功能,而RTX 3090显卡就是目前NVIDIA RTX显卡中Tensor Core性能最强的一款显卡型号。
不同于上一代的图灵架构显卡,索泰RTX 3090天启OC显卡基于新一代采用安培架构的RTX 3090核心打造,搭载的是第三代Tensor Core,它能够提供比图灵显卡上的第二代Tensor Core高出4倍的效能,带来的更强劲的AI运算。至于其他的硬件部分,如下表所示,不再赘述:
功能体验
接下来我们依次看看NVIDIA Broadcast软件依次在噪音消除、虚拟背景、人像跟踪这三个主要功能上的使用体验。
噪音消除
在说到这个功能之前,有必要先提一下它的前身,也就是在图灵显卡时代NVIDIA推出的RTX Voice软件,该软件可以利用AI识别来对音频进行处理,实现降噪的效果。笔者之前也对RTX Voice软件进行过体验,得出的结论是“这个AI还处在学习阶段,只要用户足够多的用RTX Voice软件,提供更多的数据供其学习,配合背后工程师们的努力,RTX Voice软件会变得越来越智能的,体验也就会越来越好些了。”
如果你对之前的RTX Voice软件的效果还有印象的话,会发现现在的NVIDIA Broadcast软件在噪音消除方面的表现确实要好上一些,不过距离完美仍然有距离,至少在将“降噪”开至最大的时候,对于声音的处理仍然有些许人声丢失,所以大家使用的话可以酌情将“降噪”等级开到自己觉得合适的等级就好,无脑拉至最大或许并不是最好的体验。
另外就是,虽然对于复杂条件下的人声和噪音处理还是有些错误,但是在笔者的体验过程中,在较为单一的噪音环境中,比如键盘声、风扇气流声,NVIDIA Broadcast软件都可以很好的识别并且完全去除掉,效果还是非常不错的。
虚拟背景
虚拟背景这个功能也是利用显卡的AI计算来识别主播本人和座椅(和现在手机的AI摄影的原理差不多,不过加入了对主播座椅的AI识别),然后将这两部分与背景可以区分开来,就可以进行背景模糊、换背景或者直接扣掉背景的操作了,效果如下。
这是不做任何处理的摄像头输出图像
开启最强程度的背景模糊如上
换背景的效果
就体验来说,这个虚拟背景的功能有一定效果,特别是对于人物的识别很准确,不过对于座椅的识别就很不智能了。当然对于人物的识别由于应用很久了,所以AI模型已经有很多的积累,对于直播来说,如果只让观众看到一个人以坐着的姿势出现,但是身后并没有支撑会显得很奇怪,所以英伟达为Broadcast软件加入了对座椅的识别。
但是可以明显看出,对于“座椅识别”这部分,相比已经成熟的人物识别来说太差劲了,画面中“主播位”的座椅可以识别,但是边缘错误的问题还是有点明显,而对于画面中其他部分的座椅则是完全无法识别了。
需要说明的是,笔者使用的摄像头规格是720P 30FPS的,并未达到真正主播那么高的规格,如果是更高清的摄像头,那么Broadcast软件会接受到更多的数据,或许AI识别的效果会更好一些,那么虚拟背景的体验也会更好一些。
人像跟踪
这个人像跟踪其实是基于自动裁剪和缩放来实现的,也就是说在摄像头的视野覆盖区域内,它会首先识别出主播头部,然后仅显示出头部周围的局部画面,这样你移动头部,但是只要不超出摄像头的视野覆盖范围,它会重新识别你的头部位置,然后显示出新位置下的周围画面,这样画面中就看起来是摄像头在跟随头部在转动一样,我为该效果做了一个GIF图如下。
就效果来说,这个体验还是非常好的,给观众的感觉就是摄像头会自动跟随主播转动一样,感觉非常智能。不过体验过程中确实还是有明显的延迟,会让画面在动的时候变得模糊。
总结
相比之前的RTX Voice软件,这次随着安培显卡一起发布的NVIDIA Broadcast软件增加了对于视频的AI处理能力,并且在RTX Voice的基础上提供了更好的噪音消除功能,虽然从效果来看仍然还有进步空间,但是已经可以明显看到机器学习的进步速度是真的很快,进步的效果很明显,噪音消除的功能在较为单一的噪音环境中已经能取得很好的效果。
而对于新加入的虚拟背景功能,能极大的方便直播用户在任何地点都能以干净整洁的环境方便的直播,也可以利用背景模糊功能来凸显画面的主体,相当不错。人像跟踪功能也能使得直播效果更好,仿佛有个专门的摄影师在实时操控摄像头,来让主播永远处于C位。
不过要较好的应用虚拟背景和人像跟踪功能笔者建议要配合上一个素质较好的摄像头,当然,在更主要的RTX 显卡选择方面也肯定是越强大越好,这样更强大的Tensor Core可以带来更强的AI计算能力,体验也会更好一些,目前具有最多Tensor Core的消费级显卡RTX 3090肯定是最好的选择。