亮点与槽点齐飞的Netflix“黑客日”:4D特效、饭圈产粮神器、会议室攻略……
科技公司令人神往的特色之一,就是为了激发员工的创造力,寻找下一个大事件,它们什么都干得出来!
比如谷歌著名的“20%时间”,邀请Lady Gaga和员工交谈;微软每年还会在比尔盖茨的办公室举办两次“科学展会”为员工的创意项目评分;HubSpot的员工可以短时间换岗……
流媒体巨头Netflix自然也不甘落后,每年都有几次内部黑客马拉松,让不同学科的员工抽出时间聚在一起,尝试一些新兴技术,挖掘新的idea。
Hack Day活动上的创意未必每一个都精妙而实用,之前就诞生过在原始NES上玩纸牌屋,将目录转变为VR租赁店,创建使用摩尔斯电码的搜索系统等等创意……但哪怕是愚蠢的想法也有可能成为扇动的“蝴蝶翅膀”,碰撞出妙趣横生的未来体验。
今年的Netflix Studio Hack Day就亮点与槽点齐飞,来为大家简单介绍一下。
手机版“4D”
不少小伙伴想必都体验过游戏城里打着4D、5D、7D等各种旗号的动感电影,每当剧情中出现爆炸、翻车之类的情节,影院中的座椅就会做出各种令人哭笑不得的震动效果,试图营造身临其境的感觉。
今年Hack Day,Netflix的技术人员却通过触摸反馈技术将类似的体验搬到了手机剧集上。
项目组“Project Rumble Pak”使用Immersion Corporation技术,将Netflix上的剧集内容与触觉效果同步。遇到爆炸、打斗之类的情节,手机就会接收到力反馈开始震动。工作人员认为,这能够增强观众的兴奋感。(是对我们观众有什么误会?)
足不出户就能感受4D版大片,享受同款体感特效,还不用担心手机朝你滋水,惊不惊喜?
饭圈产粮神器
若是对手机版4D特效无感的话,那么接下来这个The Voice of Netflix可能会让不少追星男孩女孩发出鸡叫。
Netflix的工程师训练出了一个深度神经网络,能够从Netflix网剧中扫描并对单个词语进行分割,然后根据需要将它们重新组合成新的句子。比如在搜索字段中键入“that is preposterous”,Netflix就会以最喜欢的角色声音念出来。
饭圈产粮神器、鬼畜up主好帮手啊有木有,从此告别几TB的剪辑素材包。
从海量视频中完成文本分析、韵律分析、声学分析,然后准确地将某一个演员的声音提取并合成,再以富有情绪的语调念出来,不仅要求有情感丰富的大数据,比如更自然的发音、更高强度的表现力,还需要应用到一系列训练好的语音模型,高性能的语义理解能力,这些才是Netflix真正能够“秀肌肉”的地方。
当然,黑客日上展示的词汇量和语句长度都还比较浅,但研究人员说实验数据正在积极地延长。未来,机器会不会连影视配音都一起搞定了呢?
剧组“最强辅助”
辅助PGC创作的专业级工具也初露苗头。
拍摄前期,影视制作团队往往会在选景、机位、构图等方面下很大的工夫筹备。而Netflix的新软件TerraVision,就重新设想了创作过程,彻底改变了电影制作人搜索和发现拍摄地点的方式。
作为一种计算机视觉模型,TerraVision可以基于线稿图或关键词来显示类似的建筑物或场景,并确定和匹配它们的位置。
比如剧情中需要拍摄城堡的镜头,输入设计图就可以在城市中找到可能符合条件的建筑。电影制作人可以将他们喜欢的外观照片放入界面,并从我们的集中位置照片库中找到最接近的视觉匹配。
不滚蛋就捣蛋的会议系统
当然,Netflix的员工并不是只惦记着吃瓜刷剧,他们也躲不过社畜的命运——开会。想必每个工作党都有类似的体会,如果前面的人会议逾期,那简直和老师上课“拖堂”一样令人气愤。大多数人是不是都选择“表面笑嘻嘻内心mmp”地等在会议室外呢?Netflix员工表示偏要像魏璎珞一样跟敌对势力正面刚。
有一个小组设计出了简单的Web应用程序,员工在全球任何地方都可以连入会议室,如果日历中早该结束事项的人超时了,就会自动呼入那个会议并播放类似于奥斯卡奖的离场音乐,简单粗暴地欢送同事赶紧出去!
对此我只想说,请Netflix大力开源这款产品好吗?拯救社畜,人人有责!
One more thing:
流媒体“创新样本”
随着Disney+、Apple TV+等竞争对手的相继上线,在流媒体赛道拥挤的情况下,Netflix的压力也在增大。可以发现,为了持续领跑,技术起家的Netflix,正在把AI系统性地整合到更宽广的产业维度中去。
无论是给App增加带有未来感的体验元素,到内容制作和发行的智能工具,都或多或少展示出了Netflix探索中的技术成果和产业方向。
整体来看,主要体现在以下几个方面:
1. 基于视频理解技术提升观看体验
手机震动功能其实早在功能机时代就出现了,触屏手机中我们也经常能够接触到类似设计,比如系统设置或游戏、绘图等App中,就常常加入力反馈来让用户更加直观地感知自己的操作效果。而触控技术与App端内容的结合,无疑为人机交互注入了新鲜的血液。
要实现触觉与音画的同步,这对视频理解相关算法也提出了更高的要求。
目前视频识别的相关研究多数使用的是基于图像的卷积神经网络来学习视频特征,这种方法仅仅是对单帧图像的语义特征进行融合,却往往忽略了相邻的连续视频帧间的联系以及视频中的动作信息。
Netflix对音画同步震感的创新,可以看做是流媒体在视频理解技术上的新尝试,也可以以此为支点,撬动更多的影视立体化体验。某种程度上,也可以看做是Netflix释放给行业的技术迭代信号。
2. 语音视觉技术辅助内容生产
目前很多流媒体平台都在用AI辅助视频内容的生产工作,以期扶持和吸引创作者。
比如爱奇艺就曾推出过智能听打字幕,通过智能语音识别技术,帮助后期人员缩短音频到文字的转换时间。百度大脑也曾推出过“创作大脑”,识别视频片段中的关键人物,然后配上图片及文字介绍,自动生成预告片。而Netflix的新创意则告诉我们,AI与内容生产环节的故事绝对不仅于此。从the voice of Netflix及TerraVision等创意中,我们可以看到在语音识别与合成(TTS)、视频语义理解等等技术的全新进展。
显而易见,为视频产业寻求更低的制作成本、更丰富的创作素材、更高效的产业效率,是Netflix重点关注的技术方向,也确实在重构整个生产环节的固有体系。
3.云端视频流进入办公场景
至于让拖堂同事置身奥斯卡的会议系统,目前也已经被Netflix员工放置在了云服务器AWS上。
可以看到,Netflix的云基础设施正在让稳定可靠高并发的云端视频流成为现实,这意味着未来视频的生产与分发都可以基于云服务持续创新。
比如与办公场景流程集合,实现跨区域的多屏互动、全媒体内容汇聚、流传输会议内容等等,进一步丰富办公场景的交互效果。