AI太傻分不清东西?首个3D点云+GAN新方法,让机器人“眼神”更犀利!
但你知道吗?目前用于室内任务、尤其是需要与环境进行频繁交互的机器人,其视觉灵敏度仍需进一步提高——许多机器人在面对相似物体时,并不能辨别出其中的细微区别。
近日,来自德克萨斯大学阿灵顿分校(University of Texas at Arlington,UTA)的一个研究团队,提出了一种名为 PCGAN 的方法。相关研究论文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”为题,发表在预印本网站 arXiv 上。
研究人员表示,这是第一个以无监督方式生成 3D 点云(3D point cloud)的条件生成对抗网络(GAN),该网络能够产生具有多分辨率和精细细节的 3D 彩色点云,以生成利于辨别的物体图像,这将极有利于机器人视觉灵敏度的提升。话不多说,先上图。
而要想让机器人具有这种自我决策能力,科学家们则需要使用机器学习和深度学习等方法来训练 Ta 们:通过将收集到的大量图像数据集用作训练数据,来训练机器人应对各种不同物体或环境时应该做出的正确反应。
要实现这一点,一方面一些人会使用手动方法来收集图像数据,比如通过使用昂贵的 360 度全景摄像头来捕获房屋环境,或者先拍摄局部图片再使用各类软件将单个图像拼接成房屋全景图像。但很明显,这种手动捕获方法效率太低,无法满足需要大量数据的训练要求。
于是,此次的研究小组转向使用一种被称为生成对抗网络的深度学习方式来创造足够逼真的图像,用来训练机器人以提高其辨别环境的能力。
作为生成模型的一种,GAN 的主要结构包括两个神经网络:生成器(Generator)和判别器(Discriminator)。生成器不断生成假图像,判别器则判断这些图像的真假。两个神经网络就这样相互竞争,最终形成非常强的制造样本的能力。一旦经过培训,这样的网络将能够创建无数可能的室内或室外环境,其中放置着多种多样的桌椅或车辆等物体。这些物件之间的差别将变得很微小,但对于人和机器人来说,其图像仍带有可识别的尺寸和特征。
此次研究中的图像数据则通过 3D 点云呈现,这是一种透过 3D 扫描器所取得的物体图像形式,它以点的形式记录对象,每一个点包含有三维座标,强度信息(可以反映目标物体的材质、粗糙度、入射角方向等信息),还可能含有色彩信息(RGB)。
对此,Beksi 解释道:“我们可以将它们移动到新位置,甚至使用不同的灯光、颜色和纹理,将它们渲染为可在数据集中使用的训练图像。这种方法可能会提供无限的数据来训练机器人。”
他解释说:“我们的模型首先学习低分辨率对象的基本结构,然后逐步建立高级细节。例如对象的各个部分及其颜色之间的关系——椅子/桌子的腿是相同的颜色而座椅/车顶的颜色则截然不同。我们建立层次结构以进行完整的合成场景生成,这对于机器人技术将非常有用。”
他们为每个类别生成了 5,000 个随机样本,并使用多种不同的方法进行了评估。他们使用该领域的各种常用指标评估了点云的几何形状和颜色。结果表明,PCGAN 能够为不同种类的对象类别合成高质量的点云。
此外,Beksi 还正在研究另一个问题——Sim2real。Sim2real 着眼于如何通过捕捉场景的物理特性(摩擦,碰撞,重力)以及使用射线或光子追踪来量化细微差异,并使仿真图像更加逼真。
他说:“如果是由于增加分辨率而包含更多的点和细节,那么代价就是计算成本的增加。” 除计算需求外,Beksi 还需要大量存储来进行研究。研究团队每秒产生数百兆的数据,每个点云大约有 100 万个点,因此,这些训练数据集非常庞大,需要大量的存储空间。
接下来,Beksi 团队希望将软件部署在机器人上,并查看它与模拟真实的领域之间还存在何种差距。当然,尽管要拥有真正强大的、可以长时间自主运行的机器人还有很长一段路要走,但研究人员的工作必将有益于多个领域,比如医疗保健、制造业和农业等。
编审:寇建超
排版:邹静雯
参考资料:
https://arxiv.org/abs/2010.05391
https://www.tacc.utexas.edu/-/how-to-train-a-robot-using-ai-and-supercomputers-