AI太傻分不清东西？首个3D点云+GAN新方法，让机器人“眼神”更犀利！

2024-07-31 03:45:38

随着 AI、机器人技术的不断发展，人们的生活得到了“AI 机器人们”的各种帮助：大到太空机器人辅助宇航任务，小到家用扫地机器人解放我们的双手，可以说，机器人在人类生活中充当的角色越来越多样。

但你知道吗？目前用于室内任务、尤其是需要与环境进行频繁交互的机器人，其视觉灵敏度仍需进一步提高——许多机器人在面对相似物体时，并不能辨别出其中的细微区别。

近日，来自德克萨斯大学阿灵顿分校（University of Texas at Arlington，UTA）的一个研究团队，提出了一种名为 PCGAN 的方法。相关研究论文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”为题，发表在预印本网站 arXiv 上。

研究人员表示，这是第一个以无监督方式生成 3D 点云（3D point cloud）的条件生成对抗网络（GAN），该网络能够产生具有多分辨率和精细细节的 3D 彩色点云，以生成利于辨别的物体图像，这将极有利于机器人视觉灵敏度的提升。话不多说，先上图。

图 | real 列为真实物体的 3D 点云图像，后列为 PCGAN 产生的的结果（来源：该论文）

图像不逼真怎么办

想象一下，家里的扫地机器人是如何工作的？一般来说，这类需要与环境交互的机器人首先需要在已构建的环境中完成导航任务，这就要求机器人必须能够感知环境情况并实时做出决策，决定当前如何与其周围环境进行交互。

而要想让机器人具有这种自我决策能力，科学家们则需要使用机器学习和深度学习等方法来训练 Ta 们：通过将收集到的大量图像数据集用作训练数据，来训练机器人应对各种不同物体或环境时应该做出的正确反应。

要实现这一点，一方面一些人会使用手动方法来收集图像数据，比如通过使用昂贵的 360 度全景摄像头来捕获房屋环境，或者先拍摄局部图片再使用各类软件将单个图像拼接成房屋全景图像。但很明显，这种手动捕获方法效率太低，无法满足需要大量数据的训练要求。

另一方面，尽管手握数百万房的间照片和视频，但这些数据都不是从像扫地机器人所处的有利位置进行拍摄的。于是，尝试使用以人为中心的视角的图像来训练机器人也不可取。

于是，此次的研究小组转向使用一种被称为生成对抗网络的深度学习方式来创造足够逼真的图像，用来训练机器人以提高其辨别环境的能力。

作为生成模型的一种，GAN 的主要结构包括两个神经网络：生成器（Generator）和判别器（Discriminator）。生成器不断生成假图像，判别器则判断这些图像的真假。两个神经网络就这样相互竞争，最终形成非常强的制造样本的能力。一旦经过培训，这样的网络将能够创建无数可能的室内或室外环境，其中放置着多种多样的桌椅或车辆等物体。这些物件之间的差别将变得很微小，但对于人和机器人来说，其图像仍带有可识别的尺寸和特征。

PCGAN：更清晰的 3D 点云图像

整个研究小组由 UTA 的计算机科学与工程学系助理教授 William Beksi和他的六名博士学生组成。参与这项研究的博士生 Mohammad Samiul Arshad 表示：“手动设计这些对象将耗费大量资源和人力，而如果进行适当的培训，生成网络就可以在几秒钟之内完成同样的任务。”

此次研究中的图像数据则通过 3D 点云呈现，这是一种透过 3D 扫描器所取得的物体图像形式，它以点的形式记录对象，每一个点包含有三维座标，强度信息（可以反映目标物体的材质、粗糙度、入射角方向等信息），还可能含有色彩信息（RGB）。

对此，Beksi 解释道：“我们可以将它们移动到新位置，甚至使用不同的灯光、颜色和纹理，将它们渲染为可在数据集中使用的训练图像。这种方法可能会提供无限的数据来训练机器人。”

图 | PCGAN 合成的 3D 点云图像，飞机、桌椅等（来源：该论文）

在实验中，研究人员以 ShapeNetCore 作为数据集，ShapeNetCore 是各种对象类的 CAD 模型的集合。他们选择了椅子、桌子、沙发、飞机和摩托车图像进行实验，以满足物体形状的多样性；并将每个类别的数量确定为 5 个，以减少训练时间。此外，还消除了所有没有材料和颜色信息的 CAD 模型。

他解释说：“我们的模型首先学习低分辨率对象的基本结构，然后逐步建立高级细节。例如对象的各个部分及其颜色之间的关系——椅子/桌子的腿是相同的颜色而座椅/车顶的颜色则截然不同。我们建立层次结构以进行完整的合成场景生成，这对于机器人技术将非常有用。”

他们为每个类别生成了 5,000 个随机样本，并使用多种不同的方法进行了评估。他们使用该领域的各种常用指标评估了点云的几何形状和颜色。结果表明，PCGAN 能够为不同种类的对象类别合成高质量的点云。

One small step

尽管 PCGAN 的确优于一些传统的样本训练方法，但正如 Beksi 所说：“此次研究只是朝最终目标迈出的一小步，我们的最终目标是生成足够逼真的室内全景图，以提高机器人的感知能力。”

此外，Beksi 还正在研究另一个问题——Sim2real。Sim2real 着眼于如何通过捕捉场景的物理特性（摩擦，碰撞，重力）以及使用射线或光子追踪来量化细微差异，并使仿真图像更加逼真。

他说：“如果是由于增加分辨率而包含更多的点和细节，那么代价就是计算成本的增加。” 除计算需求外，Beksi 还需要大量存储来进行研究。研究团队每秒产生数百兆的数据，每个点云大约有 100 万个点，因此，这些训练数据集非常庞大，需要大量的存储空间。

接下来，Beksi 团队希望将软件部署在机器人上，并查看它与模拟真实的领域之间还存在何种差距。当然，尽管要拥有真正强大的、可以长时间自主运行的机器人还有很长一段路要走，但研究人员的工作必将有益于多个领域，比如医疗保健、制造业和农业等。

编审：寇建超
排版：邹静雯

参考资料：
https://arxiv.org/abs/2010.05391
https://www.tacc.utexas.edu/-/how-to-train-a-robot-using-ai-and-supercomputers-

文本生成图像的新SOTA：Google的XMC-GAN

来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...
火爆的老照片动起来、唱歌，微视把AI视频特效打包「一键」实现了

机器之心原创作者:张倩从论文到手机,这个团队正在「一键实现」越来越多的好玩特效. 这几年,AI 模型在特效方向的技能似乎已被拉满.因此,我们在有生之年见到了会说话的蒙娜丽莎.cos 油画的周杰伦以 ...
微软AI单凭文字就可作画，谁最先受到冲击？

马云曾说:"三十年后,<时代>杂志封面年度最佳CEO说不定是个机器人." 机器人CEO可能还需等待,但机器人绘画师已经在路上. 当Google的AI正在涂鸦时,微软的绘 ...
机器人中的人工智能：人工智能在机器人中的应用

机器人技术中的人工智能帮助机器人以类似人类的视觉执行关键任务,以检测或识别各种物体. 如今,机器人是通过机器学习训练来开发的.大量数据集用于训练计算机视觉模型,以便机器人可以识别各种对象并相应地执行操 ...
【年终总结】有三AI至今在人脸图像算法领域都分享了哪些内容？

在所有图像中,人脸是最大的一个领域,研究人员最多,应用范围最广,对我们的生活影响最深.每一个从事计算机视觉的人不可能完全绕过人脸图像,那么迄今为止有三AI在人脸方向都输出了哪些内容呢? 人脸算法综述 ...
一键将汽车图片转成3D模型？还带悬架、尾灯和动画的~

CG世界 2021-07-20 " 感知技术 · 感触CG · 感受艺术 · 感悟心灵 " 中国很有影响力影视特效CG动画领域自媒体现在AI和机器学习在我们CG行业的应用越来越广 ...
傻傻分不清？五招教你买到新国标插座

可能很多人都没意识到,身边每天都在用的插座也有国家标准,事实上它至今已经历了两次国标转换,第三版插座国家标准即将于今年4月14日起正式实施. 新国标主要增加了设置儿童保护门.针焰试验项目和提高了电线导 ...
一人一首粤语歌，方力申邓丽欣这两首歌总是傻傻分不清？

一人一首粤语歌,好像还没有怎么写过合唱的歌曲,其实这类粤语歌还是蛮多的,但要说到以合唱出名的,我第一个想到的就是方力申跟邓丽欣! 时过境迁,如今两人已有了各自的路,不过,曾经他俩合作的那些情歌,如今不 ...
【津巴时讯】英国外交大臣太无知成国际笑柄！傻傻分不清津巴布韦和赞比亚

英国非洲事务大臣詹姆斯·杜德里奇(JAMES Duddridge) 据<新津巴布韦网>7月5日报道:英国非洲事务大臣詹姆斯·杜德里奇(James Duddridge)上周在赞比亚首都卢萨卡 ...
元宵和汤圆不是一种东西，区别显著，别再傻傻分不清了

正月十五是一年当中的第一个月圆之夜,正月是农历中的元月,而古人把"夜"称为"宵",所以,正月十五被称为"元宵节"."凤箫声动,玉壶 ...
调休、补休傻傻分不清？待遇差别太大了！| 劳动法行天下

生活中,很多人经常混用调休和补休,有时将补休称为调休,有时又将调休当成补休.调休和补休,有什么区别,对你的劳动权益有什么影响,你分得清吗?一起来了解! 调休调休,从文义解释看,是调整休息时间的意 ...
烤瓷牙种类太多傻傻分不清？教你选对烤瓷牙

你一定有这样的苦恼: 蛀牙导致牙洞太大,树脂补牙补救不了,外伤导致牙体缺损过大,或者单颗牙齿缺失,只能做牙冠保护起来. 但随着医疗技术的发展,牙冠材料也越来越多,在面对种类繁多的牙冠材料时,常常让人摸 ...
太意外！手机流行的全面屏竟有这么多种叫法？都傻傻分不清了！

全面屏可以说是今年手机工业设计上的一大发展趋势,早期已有夏普.小米.三星.LG等厂商率先布局,随着苹果加入阵营后,vivo.金立.华为等厂商的全面屏产品也已经箭在弦上了. 但你知道吗?全面屏本身也是一 ...
AI你到底行不行？能找到秃头元凶，却光头&足球傻傻分不清

作者:Ada 物联网智库整理发布导读一边,腾讯 AI Lab通过自研AI工具揭示了"秃头元凶":另一边,AI摄像头在足球赛中将边裁的光头错认为足球,观众看了个寂寞.AI你到 ...
“par rapport à”与“rapport à”傻傻分不清？？！

Par rapport à = Au sujet de ? 总所周知,法语讲究同义词迭用(synonymie).我们在学习法语的过程中常常也会注重积累同义词或同义词组,比如很多同学会说:par rap ...

AI太傻分不清东西？首个3D点云+GAN新方法，让机器人“眼神”更犀利！

相关推荐