语音、人脸调用中国最大,百度大脑如何炼成AI第一?
百度一直很笃定,踏踏实实地做AI。
人们容易高估新技术短期的爆发力,却低估其长期的影响力,比如语音交互。2012年,伴随着iPhone 4S的发布,苹果将语音助理服务Siri推向世人,一时之间,出现了许多类似“中国版Siri”的创业公司,然而几年后,语音交互依然只是一个配角,一些人开始认为,语音可能只是小众交互方式,特别是在罗永浩推出“坚果TNT”这样的奇葩语音交互产品后。
到了2019年,语音是不是未来的主流交互方式,似乎已经没有争议。百度最近公布的一组数据足以说明语音交互的普及。11月28日在百度大脑语音能力引擎论坛上,百度宣布百度大脑语音能力日均调用量已超过100亿次,应用规模处于业界第一,百度大脑面向各行各业开发者提供覆盖云、端、芯的全栈全场景语音开放能力,这一数据基本体现出各行各业智能语音调用的热度。
01
日均百亿次,语音迎来新奇点
日均100亿次是什么概念?截止到今年11月14日,小米小爱同学累积被语音唤醒341亿次,百度大脑语音每日被调用的次数,跟小米小爱同学多年来积累的唤醒次数,在一个量级。当然,小米小爱同学以及百度小度、天猫精灵诸多智能音箱的强劲增长,也是语音交互爆发的侧影。
只不过,智能音箱只是语音应用的冰山一角,语音搜索、语音助理、智能翻译机、声纹识别、虚拟偶像和智能硬件等C端软硬件产品,互联网教育、呼叫中心、智能客服等行业应用,都在大规模应用语音能力,语音成为跟触摸一样普及的交互方式,不同的是语音交互依赖底层AI技术,因此,才有了百度大脑这样的第三方语音能力平台的发展空间,才有了日均100亿次的语音能力调用数据。
这样的增长已经有了很长一段时间,2016年,KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔在她一年一度的互联网趋势报告中预测:
“语音已成为人机交互的新范式,在过去75年里,每10年就有一次人机交互的重大革新,人类对机器的操作,从物理手柄按键,到物理键盘鼠标,再到触摸屏,而现在语音成了重要的交互方式。”
在其看来,语音交互相对于传统交互而言具有以下特点:输入更快速,人类每分钟可说出150个单词,打字却只能完成40个单词;使用更简单,不需要用手和眼,时间更及时,不需要任何学习;更加个性化,机器可基于上下文、环境、位置、语调等大环境更好地理解人类的需求。从技术角度来看,语音计算具有成本低、尺寸小的特点,特别适合物联网。
当时互联网女王认为,如果语音识别准确率从95%提升到99%将从量变引发质变,即“爆发点”到来。当年百度、搜狗和讯飞均宣布语音识别准确率达到97%,距离“爆发点”已很近,这几年,语音识别准确率不断提升。百度大脑语音能力引擎,采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率已达98%。同时,针对户外嘈杂环境和讲话者特性的语音识别,远场交互,可支持自然对话的全双工语音交互,诸多语音技术取得突破性进展,语音交互变得更加智能、自然和友好。
语音应用场景增加,各行各业都在用。2016年前语音只是科技公司以及少部分先知先觉企业的专属,近两年特别是2018年在AI产业化趋势下,各行各业都在应用AI技术,语音是头部AI能力,百度大脑这样的平台提供覆盖云、端、芯的全栈全场景语音开放能力,让各行各业低门槛应用语音。
百度语音开放平台2013年10月上线,最初只有语音识别以及文本转语音(TTS)功能,上线后每日使用量急速攀升,2016年11月22日百度语音开放平台上线三周年之际,每日在线语音识别调用1亿4千万。最近几年百度大脑语音引擎从基础技术向全栈技术演进,拥有语音识别、语音合成、语音硬件等技术栈,覆盖智能设备、互联网应用、呼叫中心等核心场景,可满足各行各业的语音需求,这一次引擎大会上,百度大脑语音引擎就全新发布和升级了14大产品内容,包括基于百度鸿鹄语音芯片的4款硬件模组、开发板及3大场景解决方案,升级了语音自训练平台、呼叫中心语音解决方案等。
从0到1亿次用了三年,从1亿次到100亿次也只用了三年,加速度增长表明语音应用已经迎来新奇点。2019年是5G商用元年,AIoT爆发前夜,语音在万物互联时代,将迎来更大的爆发。美国投资机构Mangrove Capital Partners发布的2019年《语音技术报告》显示,语音经济规模将超移动应用,这一报告甚至认为:键盘将在未来5到10年内基本上消亡;无屏幕智能手机会出现;“声音”识别将彻底改变搜索;虚拟伴侣将变成现实;苹果将于2020年推出Siri操作系统。现在看来,或许很多预测都是天荒夜谈,但是,今天发生的一切,在多年前不同样不可思议吗?我想,百度大脑语音平台从100亿到10000亿,或许已为时不远。
02
百度大脑“AI大佬”越坐越实
语音是头部AI技术,却只是百度大脑众多AI能力的一部分。
作为百度AI的核心基础,百度大脑2013年就已面世,比百度语音开放平台上线更早一些。关于百度大脑是什么,百度CTO王海峰曾表示:百度人工智能的集大成就是“百度大脑”。今年7月,百度AI开发者大会上,百度大脑5.0发布,王海峰给百度大脑的定位是:基于AI算法、计算架构和应用场景融合创新,软硬一体的 AI大生产平台,目前包括228项开放的AI技术能力,覆盖语音、视觉、知识图谱、自然语言处理等,平台开发者数量已超过150万。
9月26日,在深圳召开的百度大脑人脸识别新产品及伙伴计划发布会上,百度大脑宣布人脸识别公有云服务日均调用量超过1亿,居业界第一;人脸技术开发者已有13万,合作伙伴超过1000个,实际落地应用超过10万个,收入年同比增长高达300%。
人脸识别只是机器视觉技术的一部分,百度不只是在人脸识别上进展迅速,而是整个机器视觉。11月14日,Forrester发布的《The Forrester New Wave:Computer Vision Public Cloud Platforms In China, Q4 2019》研究报告显示,在百度大脑的AI视觉技术的支持下,百度智能云处于中国市场“领导者(Leaders)”领域最上方,在数据、解决方案、应用场景、管理能力等多维度显著领先于友商。
不论是语音还是视觉,底层都是深度学习技术。11月27日,IDC 发布的《中国人工智能软件及应用市场半年度研究报告(2019H1)》报告显示,百度是国内较早推出自动化机器学习产品的厂商,其EasyDL产品已拥有较高的市场认知度。在商业化方面,依托百度云的客户积累及市场拓展能力,百度能够将机器学习能力快速输出并不断迭代,百度是最具潜力的深度学习开放平台玩家。
AI最底层的技术平台是深度学习框架。2016年,百度在国内最早推出深度学习开源平台飞桨PaddlePaddle,推出后下载量以及活跃用户量都保持高速增长,今年7月IDC发布的《中国深度学习平台市场份额调研》则显示,百度深度学习平台飞桨成为中国企业使用度最高、市场份额最大的中国深度学习平台,与谷歌、Facebook名列前三,领衔中国深度学习平台市场。
算法、算力、数据、场景是AI的要素,AI产业化解决后两个问题,百度大脑作为AI基础设施核心在解决前两个问题,算法上有飞桨、EasyDL等产品以及视觉、语音等垂直应用能力。近年来AI算法对算力需求增长近300,000倍,而芯片的计算性能仅提升30倍,两者之间存在巨大鸿沟,百度基于自身的AI战略布局构建了新一代AI计算架构,可以满足AI训练功能方面IO密集、计算密集、通信密集的需求和AI推理功能方面大吞吐和低延迟的需求,这一架构可以填补AI算法与算力的鸿沟。
从算力到算法,百度大脑拥有极具竞争力的基础AI技术,这一点行业有共识,基于基础AI技术,百度大脑采取“应用场景融合创新”的模式,软硬一体,深耕语音、视觉、语义等垂直场景,也在不断进化,刷脸项目应用10万+,语音调用日均100亿+,就是百度大脑应用场景融合创新的成果。
不只是底层AI技术能力,《中国人工智能软件及应用市场半年度研究报告(2019H1)》报告还展示出,百度大脑在多个垂直领域拥有领先或者头部市场地位。
比如在语音语义开放平台上,百度在消费产品(如智能音箱)、金融、政务、法庭审理等头部行业,都是主流供应商;
再比如百度是AI+云服务的头部玩家,百度智能云是唯一一家主打“AI”的公有云平台,11月28日发布的《IDC MarketScape:2019中国AI云服务市场厂商评估》则显示,百度智能云凭借着在AI技术、市场和商业上的优异表现,在能力和战略两个维度都处于领先地位,位居领导者象限最上方,在中国排名第一。11月22日,Canalys发布的报告则显示,2019年三季度,百度智能云收入同比增速70.3%,高于中国基础云服务行业60.8%的增速水平,排名第四,与阿里云、腾讯云一起稳居行业第一阵营,这一点正是得益于AI+云的差异化战略。
5G普及在即,AIoT时代到来,AI产业化正在加速,各行各业都正在被AI重构。百度大脑刷脸项目应用10万+,语音调用日均100亿+这样的数据,体现出AI爆发的“奇点”已到,AI正在从量变到质变,而百度大脑也已在事实上成为AI产业化的基础设施,是各行各业拥抱AI的得力助手。“百度大脑Inside”正在成为现实。
03
百度大脑凭什么屡创新高?
AI产业化时代来临,大多数企业都不具备AI技术,正是因为此,AI公司特别是帮助企业AI化的AI服务公司成为近年来科技创业的黄金赛道。11月28日,搜狐科技联合天眼查发布了《2019 中国AI创新报告》,截止当前,中国AI企业总量近82万家,约占全国企业总量的0.43%,其业务范围主要包括机器人、数据处理、云计算、语言识别、图像识别、自然语言处理。其中,约84%的AI企业成立时间不超过5年。AI公司很多,头部AI平台不少,仅仅是做“送水人”的,就有AI芯片、计算机视觉、语音语义、机器学习开发平台等基础技术平台,以及面向各行各业、各种场景的AI解决方案商。
百度大脑在众多AI平台中脱颖而出,原因不只是因为百度AI技术强大,我试着找到原因:
1、先发优势。
百度2012年布局深度学习技术,将DNN(深度神经网络)技术用于中文语音搜索,成为全世界最早把深度学习技术落地工业化产品的企业之一。2013年百度就成立了IDL,2014年在全世界高调挖人让人印象深刻。当2016年Google AlphaGo战胜李世石让AI被各行各业关注时,百度在AI上已布局三年。经过几年战略投入,2018年百度正式对外宣称已是一家AI公司。
从时间点来看, 百度做AI是最早的,百度大脑早在2013年就正式对外公布,2014年李彦宏对外表示:“百度内部有个‘百度大脑’的项目,用技术模拟人脑思维,现在大约已经相当于2~3岁孩子的智力水平。随着计算成本的飞速下降和计算能力的飞速提升,未来十几二十年,这样的大脑或许比人脑还要聪明。”让“百度大脑”给人留下深刻印象。
先发优势对于尖端技术的价值不言而喻:后来者或许可以战略投入,但是技术绝对不是砸钱就可以得到的,技术是要靠时间养的,很难像市场或者产品一样,“花钱换时间”。
2、技术优势。
百度大脑不只是做得早,而且做得好。一方面,百度有技术基因,而搜索引擎本身就是AI的核心应用场景,因此百度本身就有AI人才基础,同时百度对AI人才很贪婪,广揽世界级科学家,这样的人才战略是很有效果的。另一方面,百度做技术不站在巨人肩上,而且强调自主研发,深入底层,突破技术边界和极限,比如自主研发深度学习平台飞桨就是一个例子。因此尽管很多公司都在做AI技术,但百度在一些技术上依然有壁垒,特别是底层AI技术。
体现出百度AI技术实力的还有专利,乌镇智库显示,百度拥有935件AI专利,在中国企业中位列第一;世界知识产权组织报告则显示,百度深度学习领域专利申请量位居全球第二;有世界级论文体现出理论水平,国际AI顶级会议收录论文110+篇,其中ACL收录10篇,百度CTO王海峰曾出任ACL五十年来首位华人主席也能说明百度的技术实力;还有各种AI大赛获奖,公开资料显示,在诸如CVPR、ICCV、NeurIPS国际赛事及大会上,百度AI已斩获至少23次冠军。
在AI技术上,百度不只是进入早,而且大投入、深积累、底层化,进而有大产出,形成了高壁垒。就跟芯片一样,尖端技术最重要的是底子,而不是上层应用技术,百度的AI技术实力,已在语音、视觉、语义、知识图谱、智能云服务等上层应用技术上,体现出优势。2017年,由国家发改委批复,百度牵头筹建了国内唯一的深度学习技术及应用国家工程实验室,成为深度学习国家队,百度的AI技术实力可见一斑。
3、策略优势。
很重要的一点是,百度AI技术不是“吃独食”,在将AI技术深度应用到全场景核心业务的同时,将AI技术开放。百度AI技术大投入有了大产出,大量的AI技术堆叠,一定会有“溢出效应”,只给自己用很可惜,就像华为的5G、阿里的商业能力、腾讯的流量,都会溢出一样。溢出了给谁?传统的做法是专利转让或者技术转化为产品销售,就像三星卖屏幕、内存、电池等元器件一样,互联网科技公司的普遍做法是开放,做生态。
百度AI同样选择了开放,百度大脑底层的飞桨,百度大脑上的语音、视觉、语义、算力,小度、Apollo、百度地图、“云智未来城市”……则面向不同行业或者场景开放。开发者、软件开发商、ICT集成商、企业级客户以及组织,都能在百度大脑得到AI能力。当然,百度不只是提供技术能力,而是做生态建设,比如通过编写教材、培训师资来支持AI教育培育更多AI人才,再比如通过种种策略扶持飞桨开发者等等。
建开放生态的做法,不只是让AI技术溢出得到回报,同时可以反哺AI技术生态,让百度AI技术更强大。早在2011年王兴在接受凤凰科技采访时直言:开放是为了更大更持久的垄断,而“开放”的好处在于,好的游戏规则可以通过使外界受益而使自己最大受益。从百度AI的开放来看,王兴说得非常有道理了。
4、节奏优势。
任何新技术,都有技术成熟周期,我在很多篇文章中都谈到高德纳(Gartner)的“技术成熟度曲线”模型(Gartner Hype Cycle),非常有说服力。这个模型认为,一门技术的发展要经历五个阶段:启动期、泡沫期、低谷期、爬升期、高原期。高原期意味着该技术经过不断发展,慢慢成为主流,技术标准得到了清晰定义,使用起来越发方便好用,市场占有率越来越高,进入稳定应用阶段。现在,AI技术曲线已进入高原期,各种基础设施已经具备,AI应用在各行各业都在出现,不论是政府还是企业都有强烈的应用AI技术的主动意愿,AI大规模应用的时间节点已经到了。
百度AI技术布局步伐跟AI技术周期曲线是完全一致的。从2012年到现在,百度做AI确实坚持了很多年,中间甚至到现在都被唱衰,伴随着外界的不解,自身的孤独,资本的压力,百度一直很笃定,踏踏实实地做AI,在对的时间做对的事情,对人才贪婪,对技术贪婪,对生态贪婪,将技术做深、应用做实、生态做强、壁垒做高。我相信,只要AI产业化时代来临,百度AI就会爆发,百度大脑也会创造更多10万+,100亿+。
END
▼