Nvidia发布第一个交互式AI—可将智能手机捕捉的素材转换为3D渲染
AMiner已发布《人工智能芯片研究报告》和《计算机图形学研究报告》。
欢迎大家在微信公众号菜单栏直接下载。
我们在玩游戏或体验虚拟现实时,也许会感到好奇:如何才能让它能更接近现实世界?Nvidia公司可能有一个答案。该公司今天发布的研究结果显示了,AI生成的视觉效果如何与传统的视频游戏引擎相结合?结果表明混合图形系统有朝一日可用于视频游戏、电影和虚拟现实。也就是该公司开发了一种人工智能,可以将视频转变为虚拟景观。
图片来源:Nvidia
Nvidia其实已经推出了许多创新产品,他们表示,这项工作的一个产品是第一个带有AI生成图形的视频游戏演示。这是一个简单的驾驶模拟器,玩家可以在AI生成的空间的几个城市街区中导航,但不能离开他们的车或以其他方式与世界互动。该演示仅使用一个GPU即可实现 - 这是这项前沿工作的显着成就。(虽然不可否认GPU是公司价值3000美元Titan V的顶级产品,“有史以来最强大的PC GPU”,而且通常用于高级模拟处理而不是游戏。)
Nvidia应用深度学习副总裁Bryan Catanzaro
他在一份声明中说:“Nvidia已经创造了25年来生成交互式图形的新方法 ,这是我们第一次使用神经网络实现这一目标,神经网络 - 特别是生成模型将改变图形的创建方式。”
他补充说,这项技术将帮助开发人员和艺术家以比以前低得多的成本创建虚拟内容。
图形生成过程
Nvidia的系统使用几个步骤生成图形。首先,研究人员必须收集训练数据,在这种情况下,这些数据来自用于自动驾驶研究的开源数据集。然后将该镜头分段,意味着每个帧被分成不同的类别:天空,汽车,树木,道路,建筑物等。然后,对该分段数据训练生成对抗网络,以生成这些对象的新版本。
接下来,工程师使用传统的游戏引擎创建了虚拟环境的基本拓扑。在这种情况下,该系统是虚幻引擎4,这是一种流行的引擎,用于诸如Fortnite,PUBG,Gears of War 4等许多其他游戏。使用此环境作为框架,深度学习算法然后实时生成每个不同类别的项目的图形,将它们粘贴到游戏引擎的模型上。
AI生成图像的比较:左上角是分割图; 右上角pix2pixHD; 左下角COVST; 右下角,Nvidia的系统,vid2vid。
图片来源:Nvidia
面临的挑战
为了创建这个系统,Nvidia的工程师必须解决许多挑战,其中最大的挑战是对象持久性。问题是,如果深度学习算法以每秒25帧的速率为世界生成图形,它们如何保持对象看起来相同?Catanzaro说这个问题意味着系统的初始结果“看起来很痛苦”,因为颜色和纹理“每帧都会改变”。
解决方案是给系统一个短期记忆,以便将每个新帧与之前的帧进行比较。它试图预测这些图像中的运动之类的东西,并创建与屏幕上的内容一致的新帧。所有这些计算都很昂贵,因此游戏只能以每秒25帧的速度运行。
Nvidia应用深度学习副总裁Bryan Catanzaro
Catanzaro强调,这项技术处于早期阶段,而且人工智能生成的图形可能需要几十年时间才能出现在消费者头衔中。他将这种情况与光线跟踪的发展进行了比较,光线跟踪是当前图形渲染的热门技术,其中实时生成单独的光线,以在虚拟环境中创建逼真的反射,阴影和不透明度。第一次交互式光线追踪演示发生在很久很久以前,但直到几周前我们还没有在游戏中得到它。
潜在应用
这项工作确实在其他研究领域有潜在的应用,包括机器人和自动驾驶汽车,它可以用来产生训练环境。它可以更快地出现在消费产品中,尽管容量更有限。
例如,该技术可用于混合图形系统,其中大多数游戏使用传统方法渲染,但AI用于创建人或物体的相似性。消费者可以使用智能手机自己捕捉素材,然后将这些数据上传到云端,算法将学习复制并将其插入到游戏中。例如,它可以更容易地创建看起来像玩家的头像。
最终,对于Nvidia来说,推动人工智能生成的图形有一个明显的好处:它将有助于销售更多的公司硬件。自从深度学习热潮在2010年初开始起飞以来,Nvidia的股价飙升,因为很明显,其计算机芯片非常适合机器学习研究和开发。