Facebook Research正在研发“有求知欲”的机器人，推进发展更灵活的AI系统 / 开普饭

我们已发布《智能机器人研究报告》，报告附有word版本和PPT版本，欢迎各位下载。

下载网址：https://www.aminer.cn/research_report/5c2edcad81ecb9818a8006ec?download=true&pathname=rb.pdf

温馨提示：点击阅读原文可预览此报告，但是目前只支持电脑端下载，各位复制链接至浏览器即可下载。

研发团队在机器人技术方面的大部分工作都集中在自主学习上，系统直接从原始数据中学习，以便能够适应新任务和新环境。团队正在推进诸如基于模型的强化学习（RL）等技术，使机器人能够通过传感器的直接输入，通过尝试和错误来进行自我教学。

教机器人自学走路

（图片来源：engadget）

具体来说，该团队一直试图让一个六足机器人在没有任何外界帮助的情况下自学走路。一般来说，机器人学习走路是很有挑战性的，目前团队已经能够为AI设计算法，并进行测试。

AI机器人最开始的六足并不具备感知周围环境的功能。当使用强化学习算法时，机器人慢慢找出一个控制器，帮助它实现前向运动的目标。并且由于该算法采用递归自我改进功能，因此机器人可以监控自身收集的信息并进一步优化其随时间的行为。也就是说，机器人获得的体验越多，其性能就越好。

这说起来容易做起来难，因为机器人不仅要确定自身在空间的位置和方向，还要感知到自身的平衡和动力，这些都来自机器膝盖上的一系列传感器。通过优化机器人的行为并专注于让它接近目标时尽可能少的步骤行走，Facebook教会机器人如何在几小时内“走路”，而不是几天。

利用好奇心更有效地学习

（图片来源：engadget）

以前研究人员对赋予人工智能自身求知欲的研究一直致力于减少不确定性。Facebook目前力求实现同样的目标，同时以更有条理更结构化的方式实现。

起初机器人知道如何把控自己的手臂，但并不知道应该采取哪种具体动作来达到确定的目标。当机器人了解需要应用哪些扭矩以将手臂移动到下一个目标配置时，它就可以开始优化自身行动的规划步骤。

这种模式关键一点是提前计划好几个时间步骤，研究团队尝试使用这个计划好的程序来优化动作序列以完成任务。为了防止机器人过高地优化程序并陷入循环，研究团队奖励机器人解决不确定性的行为。团队这种探索，实际上更快地学习了更好的模型，同时更快地完成任务。

通过触觉传感学习

最后，Facebook一直在努力赋予机器人如何进行身体上的感知。团队启用了最初为视频设计的预测性深度学习模型。这种模型简言之就是从当前的图像和动作可以预测出当前状态的视频。在实验过程中，机器人已经能够成功的操纵杆，球并识别出20面模具的正确面。

研究团队目前已经可以让机器人以无人监督的情况下操纵小物体。研究表明现在运用的算法已经可以准确地预测出一个给定动作的输出结果。

结合视觉和触觉输入可以极大地改善未来机器人平台的功能并改进学习技术。为了制造能够通过与世界独立互动来学习的机器，团队表明目前需要研发能够利用多种感官数据的机器人。

参考：http://c7.gg/f7GEG

Facebook Research正在研发“有求知欲”的机器人，推进发展更灵活的AI系统