【热点剖析】AI看世界之3D摄像头
人类有83%的信息是通过眼睛获得的。我们所在的三维空间包含了三个维度的视觉信息,人类的双眼在记录了二维信息后,由大脑根据其连续变化在巨量运算后推导出第三维深度视觉信息。那么AI呢?很遗憾传统2D摄像头即使在记录二维信息时依然有断档,最先进的人工神经网络芯片此时在人脑面前不值一提,因此3D摄像头应运而生。
3D摄像头,即记录三维信息的摄像头。目前的主要技术方案包括:结构光(structure light)方案,光飞时间(TOF)方案,双摄(或多摄)方案。前两者是主动式探测方案,即主动发射探测信号根据信号变化判断被探测物;后者是被动式探测方案,即直接对被探测物发射的信号进行检测。下图是三种方案的结构简图:
结构光方案
随着Apple 率先推出跨时代产品Face ID ,其采用的结构光方案正处于爆发性成长阶段。结构光方案的本质是运用探测信号弥补2D摄像头接收信号时的缺失,然后推导出深度信息。目前的结构光方案基本为“散斑结构光“,光源经DOE光栅衍射后(理论上在空间中的任意一点不会产生相同的点阵),根据反射点阵可以判断反射位置的相对空间坐标,将所有反射位置连接,从而得出物体的三维结构。
iPhone X 结构光方案
iPhone X 结构光点阵
光飞时间方案
早已在手机前置距离传感器与后置激光对焦上大规模的使用,其大规模爆发的时机基本可以确定为手机端AR功能的爆发。提到移动AR就不得不提谷歌的Tango项目,Tango虽然已经暂停但是其提出的三大理念-运动追踪,区域学习,深度感知基本包含了AR技术的核心。这里面的深度感知部分就是由TOF摄像头负责。TOF即根据发射光与反射光的时间差就算距离,但是短距离时反射时间将会到10-12级,如何保证精度一直是困扰业界多年的难题。幸运的是,随着半导体行业的发展计算力的提高以及新的计算方法的提出,目前TOF方案已经逐渐开始进行大规模商业应用,预计2019年将猛烈爆发。
TOF 示意图
Tango 手机 联想Phab 2 Pro
双目方案
之所以放到最后,是因为以笔者的观点看,双目方案在移动端的大规模应用目前处在一个非常尴尬的地位。后置双摄已经成为了中高端手机的标配。在光学与结构层别,几乎与传统2D摄像头没有任何区别,也是最像人类空间识别模式的方案,所以被最早应用于背景虚化。背景虚化最难的是主体与边缘的分离,如果是有了深度信息,运算的难度就大大降低了,所以双摄手机人像模式背景虚化效果比美图秀秀要好。之后随着芯片运算能力的提升与摄像头sensor宽容度的提升,我们发现好像仅用双摄就可以实现AR 功能了,苹果用iPhone X 为我们展示的AR Kit效果着实让人惊艳。但是就像文章开头所提到信息的断档与巨量的运算极大的限制了它的发展前景,导致了一定精度的前提下它的识别距离非常有限,同时如果物体的颜色与纹理对比度不大,甚至没有办法推算深度信息(著名的自动驾驶第一撞,白色货车没有和天空分离)。因此双目3D摄像头方案后续在移动端很难大规模推广,目前最火的是做手势识别配件的Leap Motion 但是控制距离也只有60cm。
手机双摄模组
Leap Motion手势识别控制器
对三种3D摄像头方案分析,目前手机3D摄像头方案业界已经基本形成了共识(或者说大家都觉得苹果就打算这么做),前置摄像头采用结构光方案,后置摄像头采用TOF方案。前置Face ID 与后置AR 这两大应用将推进3D摄像头的飞速发展,在后续的文章中笔者会针对这两大技术方案进行更深度的分享。