搜狗做AI:围绕语言,力出一孔
数千万年前,猿猴为了生存,学会使用石器,跳下大树直立行走,从而为人;人类为了更好地交流,发展出语言;为了记住过去,又发明了文字,从此人类有了有记载的历史。
人类跑得不够快,所以发明了汽车;人类的声音传播得不够远,所以发明了电话;人类不会飞,所以发明了飞机。
六十多年前,人类发明了人工智能(AI),一种能帮助人类,却也可能“替代”人类的新物种。
六十多年后,借助“深度学习”的东风,人工智能再次站在了产业界的风口。一时间,百花齐放,企业言必谈AI。
在亚洲最大的科技峰会——香港RISE大会上,有演讲者给参会者展示了虚拟人,有演讲者发动所有参会者进入“AI能否像人类一样具有创造力”的思考当中去。搜狗的王小川,竟然带来了能够像真人一样播报新闻的“虚拟主播”。
AI能力进化史,搜狗浓墨重彩的一笔
2018年7月11日,央视主播“姚雪松”播报香港RISE科技峰会相关新闻的视频出现在主演讲台上方的大屏幕上。其实,他并没有出现在会场。
王小川介绍说,搜狗使用姚雪松1.5小时的音视频数据,结合语音,图像等多模态信息进行联合建模训练,输入一段RISE大会的文字稿,就实现了这次与真人无异的播报效果。
虚拟主播在技术上的实现意味着AI具有了更丰富的表达方式,从文字表达走向音视频的富媒体表达。
虚拟主播技术的应用场景可以非常广泛。首先,作为具备视频内容生产能力的技术,该技术可以运用在诸如新闻,娱乐等场景中,自动实时快捷地生成富媒体内容。
其次,虚拟主播技术还能根据用户上传的单张人物图片(明星、朋友、家人等)实时生成该人物的虚拟主播形象,用户可以与其面对面交流。还可以应用于各种智能软硬件,如果用于带屏幕的智能音箱,用户就可以从单纯与声音的交互变成与一个逼真的虚拟人物的交互。
未来,虚拟主播如果具备更完善的交互能力,就能用于教育、医疗、客服等多个行业,节约大量的人力成本。
AI产业,谁会赢?
搜狗因“国民输入法”而为中国人所熟知,从不烧钱,在追风口的互联网圈坚持自己的道路,何以突然之间,就能够在人工智能这个选手密集的赛道祭出此等大杀器呢?
从王小川在大会上的主题演讲《人工智能下一个应用突破》可一窥端倪。
在演讲中他提到,语言是人类与动物最大的不同,掌握语言就掌握了灵魂;技术层面,语言是人工智能皇冠上的明珠。
无论是百箱大战中Amazon Echo、Google Home等多款围绕着语音交互打造的智能音箱,还是会打电话订餐的GoogleDuplex、会辩论的IBM Projector Debater,都聚焦于让机器拥有“语言”这颗明珠。
搜狗因其对输入法,对搜索持续不断地更新升级,而在语言领域积累颇深。搜狗输入法是中国最大的语音输入法,目前语音识别准确率已超98%;日均语音输入调用次数峰值达4亿次;支持外文多语种和中文方言识别;智能断句、标点预测、识别结果顺滑等功能也领先于业界。语音合成支持多种音色选择,通过少量数据即可生成说话者自己的合成音色,还可实现说话人风格的迁移。
AI当下最需要的也是“力出一孔”,即“利出一孔”。利出一孔,最早出于春秋时期的《管子》。管仲在《管子· 国蓄第七十三》中提到“利出于一孔者,其国无敌;出二孔者,其兵不诎;出三孔者,不可以举兵;出四孔者,其国必亡”。
AI是个火爆的大世界,它涉及的技术五花八门,深度学习、大数据、语音、视觉、知识图谱等等;它的应用场景包罗万象,娱乐、媒体、营销、零售、交通、工业、机器人等等,可以说无边无际,有资源进行广撒网的玩家是少数。随着BAT等公司开启AI布局,他们似乎更喜欢“跑马圈地”,占领尽可能多的AI应用场景,百度提出All in AI(集中一切力量做AI),腾讯提出“Make AI Everywhere”(让AI无处不在),阿里强调“产业AI”。 搜狗的AI战略不做大而全,而是围绕一个战略制高点做精做细,聚焦到语言相关的人工智能,从单点打入整个AI行业,这让它的AI战略与众不同。
整个AI产业也需要这样的理念。AI技术五花八门,但首要问题,还是要帮助机器建立感知与认知能力,真正理解这个世界并自由交流。如何做到?两个事情缺一不可,交互和知识,当机器同时拥有自然交互能力和知识计算能力,才能感知、认知这个世界,与人类智能交流,并帮助解决问题。
让机器融入人类世界很重要的一步,就是需要机器理解人们通过自然语言的发号施令,理解大量的文本,理解大量的语音,理解大量的图像,这就像解决触摸屏对于智能手机的意义一样,是不可绕过的关键一步。而语言又承载了人类的知识与思考。当机器进入到知识计算层次后,就能通过语言集合人类智慧,超越人的认知,回答、解决人类在知识世界的各种问题。
搜狗聚焦到语言,而不是五花八门的AI场景,也是希望将语言当成一个抓手,来撬动整个AI产业,实现力出一孔。它一方面在交互上布局,从语音识别、语音合成、图像识别、图像合成衍生研发出极具特色的情感迁移、唇语识别、虚拟主播等技术,都在解决交互问题;另一方面在知识计算上布局,比如做问答、对话、翻译。
搜狗的AI战略,让我想起了智能家居的发展。最一开始,智能家居涉及到智能电视、智能家电、智能门锁、智能路由器等等,不过在智能家居市场最先取得突破的却是智能音箱这个小玩意儿,根源是选择了从音箱上搭载更智能的语音交互助理来进行突破。同样的,AI赛道中什么都做,往往很难突破,如果有所聚焦,则能单点突破,将自己的AI牢牢嵌入用户的心智,成功夺取入口,以点带面。语言对于AI市场而言,就有点像智能音箱对于智能家居的价值。
聚焦语言给搜狗带来什么?
不论是输入法、搜索引擎、翻译,搜狗的核心业务都与语言密不可分。如果说搜索和输入法是搜狗的起家业务,为搜狗积累了大量的语言数据,语言AI技术则是搜狗未来的基石,承担为搜狗开疆拓土的使命。
聚焦语言相关AI技术的发展,搜狗在自然交互和知识计算两个领域上不断强化优势,将长板不断筑高,再在语言强相关的核心应用领域投入所有精力。集中优势兵力、各个击破,也是更适合搜狗这个体量玩家的策略。
尤其是在翻译领域的技术突破与实用化进展,不仅让搜狗领跑行业,也带给了搜狗更多的信心。早在2016年的乌镇世界互联网大会上,搜狗发布了全球第一个商用神经网络机器翻译系统,让机器同传成为重大峰会活动标配。跨语言搜索引擎和输入法翻译功能更是让用户得以打破语言壁垒,实现跨语言表达与获取信息。今年上半年,搜狗发布的旅行翻译宝和录音翻译笔则以行业黑马的姿态杀入市场。搜狗相关负责人提到未来也将考虑以翻译为入口,扎入旅游场景做深度服务。
相信看到这里,你对搜狗为什么聚焦到语言这个独特的领域,有了清晰的答案。AI已成为互联网巨头的必争之地,像BAT这样的广撒网是一条路,像搜狗这样聚焦到一个细分领域,实现单点突破,同样是一条路。谁会走得更快,谁会走得更远?时间会给出答案,我们乐见其成。
热点事件追踪:
淘宝造富计划掌门1对1美团无人车算法看门狗金融科技井喷中国版米其林社交之王Uber撞人新世相新氧融资金蝶第二春刘强东的平台经济学互联网上市潮教育科技耐克拿下跳一跳盒马外卖阿里收购饿了么相机争夺战头条瞄准爱奇艺陌陌收购探探