3D视觉是CV技术的未来!对话奥比中光CEO黄源浩

CV君:在近年CVPR论文中,越来越多的内容与3D视觉相关,这已经成为CV领域一大趋势。在今天刚刚结束的首届中国三维视觉大会(China3DV)大会上,3D视觉产业界的领军人物黄源浩博士做了题为《3D视觉感知底层技术全图及产业化应用进展》的分享。CV君有幸采访到了黄源浩博士,并在征得同意后分享其前沿观点,希望对3D视觉研发的朋友们有帮助。

黄源浩,奥比中光科技集团股份有限公司创始人、董事长兼CEO,获评“深圳经济特区建立40周年创新创业人物和先进模范人物”,广东省“珠江人才计划”团队项目带头人。从事3D视觉技术的芯片、传感器、算法研发近20年,企业致力于成为3D视觉技术产业化的领导者。本科、硕士、博士分别毕业于北京大学、新加坡国立大学、香港城市大学,并在新加坡、中国香港、加拿大、美国等多个著名课题组开展博士后研究工作,包括麻省理工学院SMART研究中心3D光学系统组。

6月13日,奥比中光创始人、董事长兼CEO黄源浩在China3DV主会场演讲

1、在刚才的演讲中您提到2D到3D是第四次视觉革命,但人眼成像是2D的,人类天生可以利用2D信息感知三维世界,请问在业界已有案例和贵公司参与的相关产品开发中,有哪些是3D传感器一上场就碾压2D传感器效果的? 

黄源浩:我们通过双眼可以轻易判断物体之间的层叠关系,也可以大致估计物体和我们的距离,双目立体视觉就是模仿这一原理。虽然人眼对距离或者深度的感知,精度并不高,但应对人类的日常生活是足够的。比如我们可以判断眼前的一堵墙距离我们大概3~5米,尽管不够精确,但已经足够让我们做出各种决策。

随着科技的进步,人类想要机器对这个世界的感知比人类能做到的更加精确

比如在自动驾驶领域,为了安全,我们希望汽车对百米远物体感知误差在厘米级,这是人眼无法做到的。如果我们还是使用2D传感器,即使机器能聪明到像人一样感知三维世界,误差可能要十几二十米,也远不能达到要求。

但现在3D传感器已经可以做到。

甚至目前近距离(1~2米)的3D传感器,可以做到毫米级深度感知,能够帮助机器刻画更精确的三维世界(物体),这也是人眼做不到的。

借助3D视觉实现高精度足部扫描

3D扫描领域,借助3D传感器,对人体的建模可以达到毫米级,对环境的建模可以达到厘米级,甚至将来我们可以把整个世界数字化了,如果使用2D传感器进行扫描,结果就很差。

再比如,自主移动机器人领域,像清洁机器人、送餐机器人,机器要自主构建3D地图,要有对距离的精确感知,才能规划路线、避开障碍,靠近物体的时候速度放慢等,如果使用2D传感器,没有精确的距离概念,就很容易处处碰壁。

借助3D传感器,无人驾驶物流车、工业产品尺寸测量、物体抓取机械臂等越来越多的应用将进入人们的生产生活,把2D传感器“做不到、做不好”的事情做好,3D视觉是计算机视觉领域的大趋势,所以我们说这是第四次视觉革命。

2、贵公司提供多种3D视觉感知产品,它们之间有什么差异? 

黄源浩:不同的3D传感器在感知距离、精度、视场角等技术指标上不同。

主流3D视觉感知技术路线对比

比如结构光、iTOF、dTOF探测距离就比较短,但精度甚至可以做到毫米级精度,在3.5-5米这样的距离都可以比较好的工作,在手机、平板、门锁上用的比较多。

双目3D感知探测距离又更远一点,15米以内都可以较好的工作,用在机器人、无人机上比较适合。

激光雷达(Lidar),感知距离可达200米以外,精度做到2厘米的误差,用在汽车无人驾驶等领域。

而需要高精度测量的工业三维测量,根据不同应用场景,可能需要在20毫米到30米。

另外视场角也是很重要的技术指标,比如扫地机器人,就需要大一点的视场角。

总结来说,结构光、iTOF、dTOF、双目、雷达,还有工业测量,其实这6种技术原理有一些类似还有几种是很不同的,然后他们的测量范围、价格成本、体积都很不同,所以确实是分不同行业、不同应用,使用不同的技术方案。

3、对于3D视觉感知的底层技术,将来会不会有一种技术方案在成本可控的情况下可以兼顾各个场景的应用?您对3D视觉感知底层技术的发展方向有什么判断? 

黄源浩:目前看没有一种技术可以做到在各个场景通用,其实这几种是互补的。可以想象一下这就像交通工具里有自行车、汽车、高铁、飞机。按照我们想要去的地方远近、时间成本、金钱,我们应该在不同场合使用不同交通工具。

如果按照使用范围来讲,根据探测距离来衡量,其中有一种功能覆盖面比较广的就是双目结构光,技术上像模仿人的双目,可以在0.1~0.15米工作,也可以在几十米以内探测。在1~1.5米以内的扫描,可以达到毫米以内精度,如果放到探测几十米外的物体,也能探测到,但误差比较大,比如测得的30米,可能是25米,也可能28米。

所以目前来看,双目结构光是范围最广的,但它也有不work的时候,比如不能像激光雷达那样探测200米开外的物体。它的成本也比iTOF、dTOF方案要高,所以在需要3D传感器的场合,可以先上双目结构光,后期从降成本的角度再考虑其他替代方案。

所以,就像不同交通工具是长期共存的一样,不同技术方案的3D传感器也会长期共存。

4、您认为3D视觉感知技术的杀手级应用是什么?可以极大推动技术普及的点在哪里? 

黄源浩:可以分三个方面来看这个问题。

第一个是影响最大的方面,应该是3D视觉在手机上的应用。目前苹果等公司最新的几款手机前置和后置摄像头都有3D传感器,在拍照、滤镜特效、AR/VR游戏、测距、场景建模等都有应用,随着更具创意或更有实用价值的应用出现,3D视觉将深刻改变我们的生活。

借助3D传感器的AR游戏

第二个是价值最高的方面,应该是3D视觉在自主移动终端上的应用。比如自动驾驶汽车、无人机、各类服务机器人,这将改变人们的生产生活方式,是一个强刚需,尽管不像手机上那样已经普及,但正处于爆发的前夜。

装有激光雷达的自动驾驶汽车

第三个是应用最广的方面,应该是基于3D视觉的生物识别。以人脸识别为代表的生物识别技术将成为人们的另一个“钥匙、身份证、银行卡、钱包”,将来无论是购物还是办事,都会用到更加便捷的身份信息验证。

5、CV技术的发展离不开如OpenCV这样的开源社区,请问在3D视觉开源软件、开发者社区方面有哪些布局?对于开发者(视觉创业者)来说,您觉得如果作为你们的下游企业,在3D视觉领域有哪些机会是值得尝试的?

黄源浩:我们认为3D视觉一定是未来,开发者对推动视觉3D化以及推动各个行业的智能化升级是非常重要的。

我们已经做了3D视觉开发者社区(https://developer.orbbec.com.cn/),给开发者提供各种基础的模组,基础的算力平台,基础的算法,还有一些开源的代码等等,另外也会举办各种各样的比赛,社区里面还会有我们发起的悬赏,让开发者过来挑战解决工业应用中的难题,我们希望逐步将它做成整个3D视觉领域最大的社区,帮助开发者学习技术,也促进整个行业的技术进步。

对于创业者的未来机会,我们鼓励他们深入聚焦在行业里面,在一个具体行业里钻透钻深,利用技术给这个行业提供价值,比如说你可以聚焦在智能家居、机器人、无人机、农业、养殖业、物流行业,这些都充满机会。先聚焦钻深钻透,成为行业的龙头,真正帮你的客户创造价值。然后在经验积累基础上,慢慢再去拓展,这是我对他们的建议。

6、贵公司在招聘算法人员时,比较看重哪方面的考量?名校?顶会?竞赛?开源社区贡献?实际项目经验?能否给立志于核心算法研发的同学一些建议?

黄源浩:首先你刚才提到的顶会、实践等等都非常重要。但我们更看重候选人的意愿是否足够强烈,我们希望候选人具有专研精神,其实笨一点也没关系,别人花两年干好的事情,愿意花5年也要把它做好,十年磨一剑,能够沉进去,钻到底,这是我们最看重的

我想给同学们三点建议:

第一个建议,就是在某个领域里边要做到龙头,做得非常深。第一名价值是第10名的10倍以上,是100名的100倍以上,假如第一名这个效果是做到99.9%,第10名可能99.8%,别看他0.1%的差别,但是你的价值是它的10倍。所以在某个方面大家要沉下心,专心的把它做到极深的一个境界。不要贪多,不要每个都懂都是半桶水,一定要有一桶水非常深的。当你有一桶水达到底之后,其实将来学别的东西触类旁通的。

第二个建议,当你一桶水达到底之后,成为整个行业里面较牛的人之后,你要开始拓宽你的知识面。当你有一个方向,比如你算法做到这个行业里面最强之后,你把算力芯片、感光芯片、光学的,包括模组的,包括开发板的等等这些东西拾起来,包括产品方面的,你的价值又是翻了10倍。

第三点就是要落地实践。技术真正落地,在真实复杂的环境下解决问题,需要你对算法和工程问题的理解,到了“骨髓级”的理解,最终把事情做好。奥比中光基本上也是围绕这三点在培养人。新人进来先专注,做到行业里顶尖水平,然后横向扩展知识面,第三是落地做各种各样的项目实践,人的能力才会越来越强,越来越全面,这个人的价值才会越来越高。

(0)

相关推荐