从左至右依次为李薇、郑昱、赵弘毅、林瓊、葛晨阳
11月9日至11月10日,科技智库「甲子光年」在北京举行2019「甲子引力」大会。在9日下午的“光电技术专场”圆桌论坛中,诠视科技创始人、CEO林瓊,宇泛智能创始人、CEO赵弘毅,灵犀微光创始人、CEO郑昱,盈芯科技创始人葛晨阳担任嘉宾,舜宇V基金投资合伙人李薇担任主持人。嘉宾们围绕“3D视觉引领信息升维时代”主题,展开了精彩争锋。
圆桌要点总结:
机器视觉领域历经了3次革新:从黑白到彩色、从低分辨率到高分辨率、从静态图像到动态影像。而今天,我们想让机器理解真实的三维立体空间,并把最接近真实的立体图像视觉呈现在眼前,这就是所谓第四次视觉革命。
同属于主动光,结构光本质上是激光数据,适合近距离高精度内容使用;ToF是计算一束光打回去和返回来的飞行时间,更适合远距离使用;
以AR眼镜为例,不同的器件,有常规的,有深度的,有结构光的,都需要整合到一起,但到现在为止还没有一个通用的标准,多传感器如何整合?整合成什么样?没有标准。而为了和苹果、微软这种大公司这样的大公司对抗,不同部分的公司应组合起来、合作起来。
圆桌实录如下:
李薇:我们这个环节是光电论坛的最后一个活动,也是今天「甲子引力」的最后一个节目。这意味着什么?只有最精彩的,才有资格压轴,非常感谢大家留在这里,欣赏我们这场精彩的圆桌。大家好,我是舜宇V基金的投资合伙人李薇。刚才我的同事在第一个论坛讲到,光电技术正处于从2D发展到3D的趋势。在此之前,机器视觉领域历经了3次革新:从黑白到彩色、从低分辨率到高分辨率、从静态图像到动态影像。而今天,我们想让机器理解真实的三维立体空间,并把最接近真实的立体图像视觉呈现在眼前,这就是所谓的第四次视觉革命。今天圆桌的主题叫“3D视觉引领信息升维时代”,为了探讨这个主题,我们特意请了四位产业端的行业专家以及创业者。有趣的是,我们这个小论坛基本上包括了3D视觉的整个生态,有底层的传感器,有终端的应用,有光学的显示,还有空间追踪算法,非常期待在本次圆桌中看到不同行业间的洞见碰撞。首先请各位嘉宾做一个简短的自我介绍。郑昱:大家好,我是灵犀微光的创始人郑昱。灵犀微光主要业务是AR眼镜中的一个核心器件,叫AR光学显示模组。我们希望通过AR光学基础上的创新,使AR眼镜变得跟普通眼镜一样轻便、美观。现在我们已经研发出世界上最小型、最轻薄的AR眼镜,重量只有11克。赵弘毅:大家好,我是宇泛智能CEO赵弘毅,宇泛智能软硬结合,不仅做算法,也做一些终端硬件,目前在办公、社区和工地等领域应该是业界出货量最大的公司。林瓊:大家好,我是诠视科技创始人林瓊。非常高兴受到邀请。我从事传感器行业将近17年,我司专注3D视觉应用。作为人机交互背后的引擎,目前面临的主要挑战是算法和算力跟不上,且难以和应用结合。在过去的一年,我们迎接了各种挑战,从算法到传感器到场景应用,我们主要在这三个方面进行深入的探讨。葛晨阳:大家好,我是盈芯科技的葛晨阳,我们主要是做三维感知的产品模组。大家都知道,我们的物理世界是三维的,现在物理世界和数字网络世界交互得越来越紧密,它不可或缺地需要三维感知的设备来进行交互,我们主要做模组设备。
3D技术,新的视觉体验
李薇:好的。了解了各位从事研究的领域,我们先各自讲一讲自己研究的3D领域的特别之处。我们在座的很多嘉宾可能都用自己的手机或者平板感受过2D平面内的三维叠加效果,为什么我们还要追求在AR眼镜上结合虚拟三维世界?有哪些场景只有三维才能够实现,2D实现不了呢?郑昱:实际上,AR眼镜上的三维效果和手机、平板上看到的2DAR效果,是完全不一样的。第一点,我相信普通人接触3D信息肯定比2D手机信息更加方便有效,我们一出生就接触了3D信息。更重要的是,AI领域中的3D信息是跟实体环境相结合而叠加的。举个例子,我们一般只有在3D电影院才能看到3D效果,但在3D电影院看到鲸鱼和在体育馆看到一条鲸鱼从篮球场的地板上飞跃而起,或者说在自己卧室里养的一条全息小恐龙,感觉完全不一样。通过跟3D结合的视觉效果,我们在视觉呈现上会有更多变化,它会带来更多的应用场景,我觉得这是AR眼镜呈现的3D和普通的平面3D最不一样的地方。说到3D交互,我第一次用AR眼镜时,看到地板上有一个小恐龙,当时我可以做一个操作——把这个小恐龙拎起来摆到另一个墙角,没有人可以在平板上完成这种操作,我们所有的交互方式都是基于三维感知的,而“拎”这个操作是一个3D交互,不是2D交互。基于这种3D交互,可以延伸出更多应用场景,相当于我们在手机上用手指访问。所以从3D,到和环境结合的3D,到3D交互,AR眼镜能够呈现出远比手机多得多的应用。李薇:谢谢郑昱。我们的3D显示不仅仅停留在显示这个层面,更多是在三维世界的交互层面。大众对赵总做的人脸识别机器可能更熟悉。之前听赵总讲过,他们做2D人脸识别时,算法的精准度就已经非常高了,达到98%甚至更高,那时赵总还觉得3D不那么需要,现在已经铺了很多3D的人脸识别机器,为什么要增加3D功能呢?赵弘毅:一开始,我们并不是一个3D的拥护者,我们是从2015年开始做的。之前觉得2D已经足够了,可以做很多事情。但去年发现如果加上深度学习之后,整个1:1(即身份验证场景,机器在已知身份信息的情况下,识别当前人脸是否能与身份数据中的人像匹配),比如说银行转账,用银行的APP进行1:1的误识率能够降低两个百分点,也就是说可以降两个量级。赵弘毅:对。同时,如果用2D+3D多模态的话,在1:n(即身份确认场景,机器在采集当前人脸后,从海量人像数据库中找到与之对应的人脸,从而确认身份)的真正人脸识别场景,n的规模可以提升到30倍以上。以前我们可以做到百万级,用2D+3D的多模态,可以做到3000万以上的人脸识别。赵弘毅:我们去年开始着手,一个是3D,一个是高分辨率的人脸识别,我用4000万像素的镜头做人脸识别,毛孔都清晰可见,得到的细节也会更多,做3D可以得到更充分的细节和纹理。李薇:下一位是林总。刚才郑昱已经提到了三维交互的话题,我们刚才听林总讲了算法,这是一个非常重要的技术——对空间的识别、追踪和实时感知。这是一个非常难的算法技术,林总在这么专注的领域里面尝试,在机器人、无人机和AR眼镜上运用,算法难度有区别吗?林瓊:实际上它是一种机器人定位技术,通过传感器提取空间特征,得到我们自身在空间中的位置信息,实现空间交互。像AR眼镜、机器人,很多交互都是基于位置信息的,比如AR眼镜要想做到虚实结合,一定要知道我们观察的主体在空间中的位置,并和虚像在空间中的位置结合,这就是一个分支。机器人分为基于不同传感器、激光雷达和不同视觉方面这几类,我们是基于不同视觉的领域分支。这个分支的挑战主要在算法和算力层面,近几年算法和算力发展迅速,在一些领域里已经被证明了是唯一可行的技术方案。目前的挑战,一个是算法本身,算法要面向应用做定制化,最大的挑战来自于应用层面对算力要求很大。近几年,得益于半导体技术的发展,有了行业里面所谓的暴力计算能力,使得该技术得以发展,但到现在,能够承载高速运算的平台仍然非常少。
灵犀微光创始人、CEO郑昱
李薇:现在全球范围内,能提供高算力芯片的供应商主要有哪些?林瓊:高通、英特尔等世界顶级公司可以提供基本计算平台。我们把AR眼镜看作是IoT的前端,所以出发时做了一个选择,我们选择了IoT路线,选择了英特尔的芯片。也有算力最强的视觉平台,基于这样的视觉平台,我们解决的是这几个痛点,一是算法问题,二是算力问题,三是要基于这两方的结合面向行业做应用。我们在AR、VR里投入了大量精力,以智能传感器的思路来解决传统产业上的挑战。李薇:林总这边做的算法和模块可以用在AR眼镜上,同时刚才讲了关于他们如何从2D变3D的关键——用了3D的摄像头和3D的传感器。葛老师可以结合你们的情况讲一讲,现在3D的传感器既包括了结构光,还有像飞行时间(ToF)、双目摄像头,那结构光最适合用在哪些场景做3D识别呢?葛晨阳:我简单介绍一下目前几种主流的三维感知方法。一种是结构光,还有ToF(Time of Flight),还有双目的立体视觉。结构光和ToF都属于获取深度信息的主动视觉的方法,而双目属于被动视觉,是通过两个摄像头获取的。从获取深度信息的稳定性和可靠性来说,肯定是主动的方式好。结构光和ToF获得深度信息的方式在本质上又有区别,ToF是计算一束光打回去和返回来的飞行时间,结构光本质上是激光数据,两者本质上的区别导致了这两项技术所适合应用的场合也有区别。比如说ToF,即使距离远,它的精度下降也很少,所以在中远距离的应用上,ToF比较适合;而结构光在近距离上精度可以做得很高,目前3D人脸识别,无论是支付、智能锁,要考虑跟人脸识别的安全相关,都要采用一定的结构光技术。比如我们目前在大学里做的一个项目,是做口腔里的微距三维成像的,要求达到微米级别,这就需要结构光的技术,ToF就很难达到。
3D支付,新的应用场景
李薇:谢谢您。我们已经把3D技术讲得比较深入了,接下来回到更炫酷一点的产品。AR眼镜大家可能看过一些视频,但真正体验过的朋友还不是很多;除了AR眼镜外,现在有3D显示的方法,有全息投影,还有一种听起来很有未来科技感的光场显示,这些3D显示方案跟我们做的AR有什么不一样,或者技术上有什么差异?郑昱:大家在科幻电影里见过很多全息投影,如《星球大战》中,手指一点就出现了整个银河系,但实际上这种技术现在还只存在于实验室里,真正的市场应用至少还得15年以上的时间。郑昱:对。如果我们只是戴一副眼镜,手指一点银河系就来了的话,做得最接近的是一家国外的公司,但实际上他们的技术离真正落地至少需要5年时间。李薇:这的确是未来感很强的黑科技。而我们身边接触比较多的是像最近人脸支付这样的新形态。我也想听听赵总讲一讲,你们的人脸识别在打卡、门禁等应用得比较多,现在3D支付在市场上呈现出什么样的要求和趋势?赵弘毅:我觉得人脸支付兴起是受到移动支付市场影响的。支付宝和微信的差距,可能远远超过大家的想象,支付宝和微信实际的市场占有率,无论是交易笔数还是交易的体量,据我了解应该是在2:8,有些地方是1:9,甚至更少,所以可以看到市场上的玩家都在用补贴的方式做这个事情。我自己分析支付宝在做这样一个事情的原因是:微信是一个国民APP,这个习惯很难改变。既然在手机移动支付市场我已经PK不过微信,那不如换个打法,刷脸支付。支付宝希望通过补贴便利店等日常生活中的移动支付,慢慢拉回交易笔数。我自己尝试过蹲点便利店观察这个情况,这个打法对支付宝的占比是有用的。但说实话,我不太看好这个市场,我觉得这个市场造成巨大的浪费,这个成本对商家来讲是非常浪费的,因为二维码在现有的场景下已经足够好用。
宇泛智能创始人、CEO赵弘毅
李薇:背后的动机来讲,会有像三维人脸数据的获取或者是其他的一些背后的原因吗?赵弘毅:支付的问题有三个方面,一个是活体检测,二是开放场景下人脸识别的精度问题,同时也涉及到部分搜集数据以加强人脸识别算法的精度,这些都有。我个人觉得这场战争打到最后,可能会因为政策导致战局发生变化,可能再过一段时间会有比较大力度的刷脸政策出台。我自己虽然不看好支付这个市场,但由人脸支付切入,带动中国的零售行业以及小微企业的数据化升级,这是一块很大的产业机会。
机器视觉领域的创业机会
李薇:现在想问我一下林总,因为像郑总、赵总的公司都是创业公司,而其它的事情很多都是大厂在做,像BAT都有自己做算法的实验室。创业公司怎样跟这些大厂进行差异化的研发或者产品化呢?林瓊:SLAM的学术历史源远流长,有很多开源的东西。近几年,SLAM在算力可以承载的前提下得到了产品化的发展;但从行业现状而言,即使有丰富学术的资源,在产品化落地层面也会遇到很大挑战。挑战主要来自于三个方面,一个是面向不同的应用形态的算法,即所谓的剪制和裁剪;二是面向相应行业的算力;还有面向相应行业的集成。真正能把这些技术形态应用到AR眼镜中的早期研究非常少。实际上,我们在2018年做了大量工作,我们首先把这些技术硬件化。今天的主题是软硬结合,对于今天算法的公司而言,一个算法很容易形成,但把它产品化很难,就是未来生意中一个project很难形成。我们的出发点是把丰富的链接资源和缺少实际落地的场景打通。在这里面,我们做了传感器,一个传感器只有手指大小,但作为模组形态的传感器承载了面向特定应用的算法并集成了算力,面向应用我们把链条打通。在AR、VR领域里,特别是现在兴起的AR眼镜,它需要一个强有力的边缘计算平台来处理多传感器的融合,包括多功能的融合,如对认知的交互、手势、眼控,把空间交互的平台拓展为人机交互的平台,为中小企业或者创业公司提供一个平台。这是我们跟大企业的区别,我们提供了低门槛的、灵活的商业模式。如果高通来做同样的事情,没有几十万美元是很难上手、搞定的,而且支持上也会有困难。我们打造了这样一个AI平台,面向未来非常有碎片化特征的市场提供技术输出。目前我们把公司定义为一个技术性公司,未来王总提到的10亿规模的市场,我们也希望提供相应的技术支持。李薇:您这边涵盖了很多个10亿。正好再问一下葛老师,作为上游的核心元器件,离终端或客户的距离都比较远,从客户端来看,您觉得从2D到3D的趋势什么时候开始对传感器产生影响?葛晨阳:走向3D的第一把火是微软的Xbox体感交互,是2011年左右推出的。对微软来说,这是为数不多的成功硬件——一款游戏机主机,当时它基本上干掉了索尼的PS2,相当成功。第二把火是2017年苹果推出的iPhoneX,它在前置里嵌入了一个深度摄像头。是用来解决什么的呢?为了下一代的指纹,进行开机和人脸的支付(的功能升级)。但目前确实碰到了一个问题,因为手机有面向全民的趋势,但目前只有苹果和华为X30在坚持前置的摄像头。我相信明年第三把火就要来了,为什么?明年苹果的下一代手机可能在后置里推出基于ToF感知的方案,这会带来更多的创新应用,尤其是AI,结合5G普及后带来的高带宽也会有很多创新。我相信到了这个时候,各种翻天覆地的创新应用才会真正爆发开来。第二把火实际上已经初步点燃了非手机领域的支付,比如现在的支付宝和微信,甚至还有智能锁。头部已经点燃了,第三把火会燃得更厉害。一般的手机里,前后都将具备三维感知能力;在未来的小额支付和零售等领域,人脸可能会取代二维码。
盈芯科技创始人葛晨阳
新市场、新生态的生成
李薇:现在听起来,台上的四位多多少少都有穿插或者合作的可能,问大家最后一个问题,如何看待刚刚起来的这个3D市场,如何把生态搭建起来?或者各位现在在跟哪些公司合作?生产什么样的产品?郑昱:其实从AI、VR/AR以及背后更广阔的的市场来看,有越来越多的传感器公司肯定是一个趋势。我们不仅需要输入——传感器,同时需要输出——显示器。在AI眼镜越来越多、越来越常见的情况下,我们这边跟林总也有合作。创业公司的零部件厂商、算法公司和平台公司,大家都可以合作起来。郑昱:其实我们跟林总这边的SLAM模组合作了一款面向工业级的AR眼镜,稍微透露一下,我们明年1月份会在美国的展会上展出,这只是一个案例。我觉得我们双方在深度SLAM算法、显示模组上都有重合,但只有我们是不够的。比如说AR眼镜需要不同的器件,有常规的,有深度的,有结构光的,这些都需要整合到一起,但到现在为止还没有一个通用的标准:多传感器如何整合?整合成什么样?没有标准。唯一做到这件事情的企业,也就是把这件事全包的企业是微软,下一家可能是苹果。我觉得接下来在市场上除了这几家大公司,还会有安卓智能机公司出来,由不同的各个组件公司一起来做,来对抗苹果、微软这种大公司,我觉得这是未来很大的机会所在。
诠视科技创始人、CEO林瓊
赵弘毅:如果ToF或者结构光的模组能便宜一些,到100块钱以下,像打卡的门禁,赶火车、赶飞机的人脸验证,住酒店的人脸验证,都可以得到更快速更大规模的普及。李薇:100块人民币以下,这真的是来自客户的心声了。您这边还跟哪些不同的产品有技术上的合作?林瓊:我们作为一家核心技术的提供商,实际上跟AR领域的一些ODM厂商(原始设计制造商)有合作。像郑总这边,AR眼镜设计商有独自设计的能力,那么我们会把某种核心模组技术提供给他们;像一些厂商没有独立设计能力,需要我们提供的,我们也会打包相应的设备给他们;对于终端的应用集成商来讲,不管怎么做,他只需要一个能够解决问题的终端产品。我们会跟ODM厂商合作,打造生态链,以我们的核心技术赋能产业,从行业的生态链底层对接到上层。作为一家落地于本土的企业,我们的价值在于可以提供进口替代产品,很多敏感行业不能用微软也不能用高通,这个时候就显示出我们独特的优势。我们还会面向行业优化我们的算法,比如刚才提到的,在无人机、机器人、AI、VR里都有SLAM,但是SLAM标准不一样,比如VR眼镜要求毫米级的精度,0.02毫度的稳定度,就对人的视觉很有影响。林瓊:机器人行业里,我们的产品进入了日本非常有名的一家家用机器人厂商,因为我们的产品小巧、低功耗的特点非常适合这种产品形态,和眼镜形态很接近。在竞争中,即使竞争对手都是行业巨人,我们也可以以独特的产品定位、定制化的服务和专业化面向应用的算法赢得客户。在机器人行业中,目前我们进入了量产环节。我的职业生涯经历了传感器从QVGA(320 x 240像素)到4000万像素的演变。也参与了第一代、第二代产品全程的支持,对3D视觉的演变有一定的理解。作为一个初创公司,我们核心的价值定位是希望在这样一个产业链当中,在特殊的时点,提供一些没有被完全关注的行业的支持,这恰恰是我们能做好的。李薇:看来您这边虽然是做SLAM,但远不止SLAM。对于刚才提到的,“如果做到100块钱以下我们会广泛用”,这个100块的条件高吗?葛晨阳:我觉得未来完全有可能。它有可能无处不在,应用得越多,成本会下降得越快。另外,我个人感觉回归本质的话,3D生态链的核心是3D到底能够给客户带来什么样的价值。就像刚才赵总说得,我原来觉得2D就够用了,无论是个人还是行业客户,3D真正能给我带来什么更好的价值?对于我们来说,盈芯科技使命就是给客户提供最精确的服务,比如说3D数据和解决方案,为客户创造3D能够做到而2D实现不了的一些价值。李薇:这么短的时间,几位嘉宾把3D视觉的方方面面都给我们做了很全面的呈现,最后我想说,其实第四代的视觉技术的革新才刚刚开始,技术上还有非常广阔的上升空间,3D视觉真的是一个非常好的投资领域。希望无论是产业界,还是投资界,不仅仅是帮助3D视觉里企业进行视觉信息上的升维,更重要的是帮助他们在全球竞争格局里进行竞争力的升维。谢谢大家,这是我们前沿科技专场论坛最后一个环节。也非常感谢到最后还能留下这么多人,真得太感谢了,今天的活动到此结束,希望大家能有所收获。
END.