商汤科技联合创始人、副总裁杨帆:视觉 AI 技术落地挑战不断,五个维度判断一个行业是否具有做 AI 场景的价值
杨帆,商汤科技联合创始人、副总裁,EGO 北京分会会员。毕业于清华大学电子工程系,拥有本科及硕士学位。作为商汤科技工程中心总负责人,杨帆带领逾 200 人的工程开发团队,在泛安防智能视频、移动互联网、金融等行业开发和提供人工智能解决方案,推动商汤科技在技术应用落地方面取得重大进展。
本文由 EGONetworks根据杨帆在易观 A10 大数据应用峰会发表的主题演讲《视觉 AI落地的技术挑战与解决思路》整理,有删节。
商汤科技联合创始人、副总裁 杨帆
很荣幸在这儿跟大家聊一聊商汤做的事情,今天的分享主要涉及三个部分:
回顾这几年 AI 大的发展;
AI 技术落地时各种各样的问题;
从商汤的角度,对于过去的一些挑战,分享我们的思考。
我们去看整个互联网过去 30 多年的发展,整个行业大的风口变迁,回归到本质的时候,其实是很简单的。整个信息产业做的事情是什么?就是对于信息的五个关键环节(采集、传输、存储、分析计算和反馈)的利用、整合和技术的进步。
我们查百度百科,对信息这五个环节的闭环处理,定义为计算机科学。过去十几年,所有 IT 行业的技术进步都可以被其中某一个环节所容纳,几乎所有的商业成功和进展其实都来自于某一个环节的关键性技术突破。
举个例子。这两年直播非常火,直播核心解决的用户诉求是看美女。看美女这个诉求是今天才出现的吗?看了几千年了。那这两年直播为什么火起来了?就是信息传输技术的进步。在三四线城市,用 4G 高速去看视频,这是直播大范围应用的基础。
还有一个维度就是信息形态,最开始计算机处理的信息是数字,慢慢演化到结构化的信息,比如文本。语音、图像、视频中蕴含着更丰富的信息量,跟人的交互方式是更加自然的。对越来越复杂的信息形态,我们具备了更加强大的采集、传输、分析、计算的能力。
走到今天,AI 技术在过去的两三年集中爆发,其关键原因就在于今天对语音、图像、视频,有了更加信息化的处理技术,在各个环节上具备了更强的技术储备。
在最重要的分析能力上,我们有了一个大的技术进步,催生出整个行业的技术进步。在这个过程中,视频是非常有价值的行业。我们想说,视频是什么?你的视觉其实是电子波信号打到视网膜,电子波是人类与宇宙交互的信息,电子波在未来会有很多的应用。
AI 本身并不是一个单纯的行业,AI 更大的价值在于跟不同的行业结合,辅助行业分析,共同创造出更大的价值。
对于自身的定位,商汤一直以来都认为自己是平台化的能力提供商。我们提供这样的平台化的能力,去帮助不同的行业进行技术的演进和进步。跟各行业从业者共同打造出一个更好的解决方案,去解决这些行业现有的问题。
回到我刚才讲的信息的几个关键环节。从我们的产品形态上来讲,我们在云和端两侧,打造平台化的技术能力,这样的技术能力提供平台型的产品和服务,端上更多新变化,云上提供平台化的能力。把我的分析能力放在上面,去给不同的行业提供行业化的解决方案。
接下来简单讲讲商汤做的一点东西:
对于这两年非常火的“刷脸”,以前只在线上。而现在,是从线上到线下的蔓延。基于人脸验证能力有更多实用化的场景,在互联网信息安全方面,对于账户的盗用能够更好的分析和调查。
从线上到线下完整的一体化身份认证解决方案,包括线上的手机端、桌面端、H5,包括定制的摄像头。操作逻辑非常简单,最开始做刷脸的注册,现在刷脸的支付,手机逐渐去进行刷脸的解锁。在对于个人的认证上,有非常多的价值。
人脸识别的技术,可以判断操作手机的是不是真实的人。有一个活体检测的技术服务,也包括在线下一体机的形态。对身份证的关键信息进行扫描,包括对身份证内部照片的读取和当前采集人之间进行判断。
这几年安防市场其实非常大。我们过去的安防智能信息系统,是采集、传输、存储。今后除了最基本的信息采集之外,能够去进行信息的感知到分析,再到预警、决策。当收集海量的信息之后,能否在中间进行有价值的挖掘?
我们今天对于一些特性化的安防场景,包括城市级的,公安系统目前做的大的试点,一个城市几千和上万的视频如何进行联合的分析,怎样把上万个视频里的视频数据以及抓拍的图片放在一起,并进行海量的数据搜索。其实对我们整个人工智能落地应用来说,提出了更高的挑战。
在真实场景中往往是很多不同的技术综合性的应用,只有综合性的应用在 AI 去做技术落地的时候才有完整的功能。在人脸之外,对机动车、非机动车和人进行场景下的价值提炼,再配合大的城市级别数据分析,其实可以挖掘非常多的二次业务价值。
今天,市面上典型的大约一千多种轿车型号,我们都能做识别。行人包括男女老少,衣服长短,背包长短,包括颜色的属性,几十种属性达成的场景。帮助城市构建大的感知系统,以更低的成本采集去利用更多有价值的数据和信息。把有价值的数据和信息整合起来,在此基础上构建更好的关键问题解决方案并进行有效预测。
手机智能化的相册,相机各种各样的特效以及美颜等等。现在摄像头的厂商提供从摄像头端开始的各种各样的图像分析以及智能相册分析。人人都有智能手机,每天拍非常多的照片和视频,真正转化成价值的其实非常少。在拍摄的时候分享一下,改一改,基本仅此而已。
我们有多少时候会把三个月前的一些照片找出来,把半年前充满回忆的东西找出来?其实很少。不是没有需求,是我们技术水平很难达到。
2015 年我们跟小米合作了一个功能相册,自动换手机的屏保,保证每次换屏保都能换成小孩的照片。小孩在不同的年龄,不同的状态,不同的季节,不同的表情。
这个应用蛮酷的,底层依托的技术有人脸的识别,有人像基础属性的识别和简单场景的识别。但是技术要求很高,没有人工干预,很难准确识别和提炼。而且小孩拍照时经常一直在动,我闺女的照片有一半是虚的,如果是这样的照片换在屏幕上,体验非常差。
还有我闺女在幼儿园有她的小闺蜜或小男朋友,我手机里拍我女儿的照片可能有 10% 会带着其他的小伙伴,假如手机换屏保,换了一个不认识的小朋友,想一想是个很尴尬的事情。
我们今天对于图像视频信息的挖掘非常有限,基础分析能力还不够好。
我相信在未来,或者这几年就会有很大进步。苹果刚推出智能相册时效果非常差,通过快速、大量的数据积累和应用之后,在非常短的时间之内得到非常高的提升。像我们提供的图片去雾技术在北京非常实用,还有图像风格化。
直播行业也提供了一些精确特效的应用实践。最开始从一些关键点技术进行手势的识别,前背景的分割,包括特效的识别,包括给短视频行业提供 AR 特效解决方案,同时会把这样一些解决方案平台化。
绝大多数的直播厂商,给他提供特效 SDK 装在手机上。所有的特效分发从我的平台去分发,直播厂商可以做特效,分发一定从这里走。从分发过程中,我们获得更多有价值的信息和数据,去进行更多的尝试和探索,比如说广告投放。
对场景中的车辆和机动车有一个简单识别的分析。在恶劣的天气和场景下,对最基本的车道线和物体的分析,对整个路面到底哪些东西是路面,哪些地方是车辆,可以进行自动化的分析。
我个人认为一些大公司做无人驾驶,看重的并不单是无人驾驶卖摄像头,给车厂卖模组这样一个价值。当无人驾驶得到更好的解决之后,当司机可以从驾驶中解放出来之后,所释放出来的这一段时间。我们是否能够对这段时间有更好的利用和二次价值挖掘,这是未来自动驾驶一个非常大的应用点。
最终,我们有这么多的行业,商汤说要去做 AI 平台化的能力。到底怎么去做?有很多的挑战和问题。商汤去做 AI 的平台,这个行业做什么?到底能不能做好?能不能挣钱等问题要逐次去思考。
那么,怎样判断一个行业是否具有做 AI 场景的价值?通过 AI 化的场景,怎样在获得价值的过程中建立自己的壁垒?主要是五件事:
首先得是真实的需求。我之前见过一个家电厂商,想通过人脸识别功能,实现“我进去之后这个房间自动调节成 16 度,我母亲进这个房间自动调节成 26 度”。我问他:“如果你和你母亲一块进去怎么办,如果你背着身进去怎么办?”我说你这个需求,其实最好的解决办法就是摇控器。
还得是刚性需求。真正的甲方,也就是用户,他愿意不愿意买单,愿意花多少钱买单?前两天看到一个报道,某地推出了人脸识别的厕纸机。抛开商业属性,我觉得理念非常好,减少公共厕所用纸,人脸识别刷一下,只能取这么多纸,作为一个社会公益项目是非常好的。
但在我算了一下,抽多少年的厕纸才能把厕纸机的智能化成本收回来?还有人脸识别的自动存包机,存包本身不要钱,把这个智能化谁买单?后来去了解的时候我发现我错了,认知不够深刻。你刷脸的时候一定有一个屏幕,那个屏幕在刷脸前后拼命的放广告,最后靠广告就可以挣钱。
在这个过程中人脸识别还有一个价值,存包的是一个男的,是一个女的,是一个 20 岁的年轻人,还是 40 岁的中年人?通过这个投定向的广告,甚至投商场相关的定向广告。往后更深层次的逻辑链,需要对场景的更深的了解。
今天完成一套解决方案成本很高。人脸识别这样的技术,在不同的场景中技术差异很大。我今天做金融,1:1 的认证,错误率做到百万分之一,千万分之一,准确性非常高,在金融场景中非常好用。
如果放在安防的场景下,安防要求百万人的黑名单库。而且黑名单库还要有误报,每一次误报有一个出警。同样是人脸识别,不同场景下关注的技术指标和任务是完全不同的。所以同样一个技术概念,在不同场景下的差异性非常明显。
还有一个例子是短视频。一分钟以内,一分半以内的短视频有挖掘的价值。但是对长视频我们能做的仍然有限。
有些技术看起来遥不可及,我不知道对长视频的分析是明年成熟还是三年成熟。关键在于满足需求的核心技术,以及市场成熟点在哪里。做任何商业化的场景,横向比较很关键。60 分很重要,做不到及格都是零,如果做到及格,60 分、65 分差异没有多大。
找到非常好的时间点,去太晚了里面都是人,去得太早还没有到收获的季节。技术什么时候成熟需要在特定的需求场景下,离成熟多远要有一个预判力,这个很重要。
做 AI 技术,数据闭环是非常重要的环节。为什么?我们做视频的会发现,当你技术不成熟的时候你的业务不能用,业务没有落地的时候就没有数据。做不好,就形成死循环。
这样的死循环如何去打破?原动力的突破来自于技术,当你的技术有小的突破,把其他场景迁移过来。技术的突破可以带来业务的落地,业务的落地带来数据的累积,数据的累计可以带来技术的进步。
当然在这个过程中需要根据合适的业务特征选择。
这样的数据闭环,帮助整体业务拓展并能带来非常大的价值。今天,数据面临隐私性和安全性的质问和考验。业内很多的专家都在探索新的方法。
我们如何在 AI 时代更加有效的去利用数据,而不需要攫取数据的所有权。包括区块链在内的很多技术,还有一些非技术的方式方法,可以带来更深层次的探索。
光做出好产品是不够的,要在市场上真的有价值,并且持续保有竞争力,是我们更多思考的问题。任何新技术都会随着时间的推移而扩散,一般所拥有的时间窗口最多也就是一年多的时间。
在这一段时间内,如何看待当前所面临的场景?在这个场景中技术到底占据多大的地位?是非关键性的应用还是关键性的应用?技术上的突破和分配,是否产生根本性的问题?在技术的壁垒期,我们能否利用这一段时间构建起技术以外的壁垒?
只有壁垒构建出来,利用时间窗口期把技术优势转化成其他的竞争性壁垒,这样的行业才值得去做。
早在一两年前,我们就搜集到大量用假照片和视频去攻击刷脸识别的行为,各种各样的案例。
当我们拥有大量来自真实业务的攻击数据时,就能够针对图像视频各种各样的攻击方式进行非常好的防范,这来自于大量线上攻击的业务数据的累积,以及对这些数据的二次挖掘和利用。
这个给我们什么样的启示?做刷脸一开始是做人脸识别,但后来我们发现人脸识别不是最重要的,最重要的活体识别,分清到底是一个真人还是仿冒攻击。
我们深入场景,会发现你所面临的技术挑战跟你之前想象的不同。当行业落地的时候所面临的技术挑战,实际上需要重新定义、分解和解决。
其实从这五个闭环能够帮助我们去判断,把一个 AI 技术应用在某一个场景是否真的有价值,是否真的有意义,是否带来更大的用户价值。从这几个角度大家去进行分析判断,会有一个相对比较好的结论。
以上是我今天的分享,谢谢大家。
End