中科院女博士为全球程序猿解决数据难题,实现AI语音交互,获投数千万

大家以为AI专家主要精力是构建算法模型,创造高大上的系统,但事实上绝大多数时间都是在跟数据做挣扎。因此对全球程序猿来说,数据收集和处理方面低效的痛点亟待解决。

▌作者 柴容

▌编辑 王艳

当年玩YY语音的那波人肯定没想到,几年过后,一个“雷同”的语音社交软件Clubhouse猝不及防地从美国火到了中国。

究其原因,疫情是一大助推剂,在此期间被压抑的社交情绪需要找到一个交流更畅快的渠道。

而诸如此类的语音交互需求会越来越旺盛。爱数智慧创始人&CEO张晴晴通过服务的客户需求变化中就能体会到,“疫情过后,很多企业对于提升语音交互底层能力的诉求达到了近年来的高峰”。

典型的场景就有,高精度的语音文字快速互转、视频一键配字幕,智能家居中的人机对话,智能客服中的AI服务等。

但在提升语音交互技术的过程中,如何更高效地识别并分析好大量的语音数据,成为了企业一大痛点。张晴晴提到,“AI专家们超过60%的工作时间浪费在数据处理上,AI公司超过30%研发费用也都用在了基础数据采集处理上。”

正是看中这个痛点,张晴晴2016年创办爱数智慧,致力于做一家交互式AI数据服务商,为进行语音交互智能化的企业提供数据集以及数据采集和标注服务,帮其快速搭建好语音交互系统,让数据处理摆脱原本低效的纯靠手工模式,而是依赖于更高效的“SaaS系统+人力众包”的人机互助模式。

目前爱数智慧已经为客户提供了超过13万小时的语音训练数据集,覆盖全球50种不同的语言,还包括多地方言。目前爱数智慧服务了全球上百家合作伙伴,覆盖智能家居、智能客服、智能助手、智能车载、智能金融、智慧教育、机器翻译等场景。

融资方面,2017年3月爱数智慧获得明势资本的Pre-A轮投资,2018年3月获得策源创投、梅花创投的A轮投资,2019年获得策源资本和杭州复琢A+轮投资;2021年获得凡创资本B轮投资。

解放AI语音专家生产力

在语音识别领域,张晴晴已经深扎了17年。从北京邮电大学通信专业毕业后,她被保研到中科院声学所研究语音识别,一路读到博士,成为中科院声学所副研究员,之后还在法国国家实验室LIMSI-CNRS任职博士后。

博士毕业期间,张晴晴的博士论文研究如何用机器更好地理解中国人说英语的发音特征。当时需要收集200个不同人的声音样本,于是她把实验室的同事、同学、亲戚、朋友,以及路上不认识的陌生人的声音录了个遍,最终花了300天的时间才完成数据的收集、清洗和分类。“而将数据送到系统模型里分析,只花了一天就得到了实验结果。”

一共为期301天的研究时间里,有300天消耗在数据处理上。张晴晴意识到,大多数的人工智能研究者们都会遇到此类困境,“大家以为AI专家在构建算法模型,创造高大上的系统,但事实上绝大多数时间都是在跟数据做挣扎。”

那如何解决数据处理的低效?张晴晴在斯坦福教授、图像专家李飞飞处理图像训练数据的经验中得到启发。

为了解决这个问题,李飞飞尝试使用众包的方式,发动印度人、中国人、菲律宾人、美国人来帮助标注数据,创造了当时全球最大的图像数据集ImageNet,将图像识别从70%的正确率提到了90%。

“既然图像领域可以做到,语音一样有机会”,2016年张晴晴便决定辞职创办语音领域的数据服务公司爱数智慧。

与众多老牌的语音数据服务商不同的是,爱数智慧提供朗读式语音数据服务同时,更聚焦在对话式语音数据上;此外,在数据采集、标注等数据处理过程中,不是依赖于传统的人力线下采集,而是打造了SaaS系统,利用众包模式,让人在机器的辅助下快速处理数据。

图:爱数智慧海量训练数据集语种类型和占比

相比于朗读文本中做语音转文字,多人对话中,自发性的交互式语音,采集标注难度会更大,但是在张晴晴看来,这种语音才是未来人机交互的终极形态,潜力要大很多。

张晴晴的想法也在逐步得到验证。智慧金融、智能家居、智慧车载、智能社交、智能终端等兴起的需求,让对话式AI数据的处理需求也日益高涨。

比如智能客服场景下,机器人客服需要先识别咨询者的声音,再去理解语意,再以一个语音合成的方式播报给咨询者。这些环节都需要相应的数据处理能力,才可以建立起分析能力和反馈能力。

开发者需要结构化的数据训练AI,一般来说先对数据进行采集、标注,再加以分析理解、提取关键信息、审核内容。数据采集和标注工作量极大,爱数智慧不会完全用人工来完成这一系列的步骤,而是会用SaaS系统去辅助人工更快地完成。

比如数据采集环节,需要所有人在声音采集人在安静的环境下录音,传统的做法是陆续把成百上千人安排到一个安静房间里录音。

而爱数智慧采用众包模式,让一拨人在SaaS平台上去录音,只需要一个督导来提前审核录音环境的噪音情况是否达标、说话是否重复、设备是否统一等等,能大幅度降低固定的人力成本。

张晴晴提到,要做好类似于“Hey siri”这样的手机语音唤醒功能,通过爱数智慧的平台去辅助筛选数据,机器的精度已经很高,“基本85%以上都不需要人工介入”。而做随机聊天内容的标签化,机器相比于人工标注,效率能做到40%-50%的提升。

综合来看,爱数智慧能让客户处理数据的工作效率提高50-80% ,精准度翻倍,而数据处理成本减半。

目前爱数智慧服务聚焦在互联网、移动通信、金融、科技制造、教育、交通出行、智能家居、公共安全和 AI公司等领域。

在收费模式上,爱数智慧有标准化产品和定制化服务两种方式,前者是客户可以直接在爱数智慧已有的13万小时的语音数据集中找到所需的数据,按照数据量、小时数来进行付费;而对现有数据集不满足的客户,其会提出个性化的数据需求,爱数智慧则按照客户所需的数据小时量外加服务费来收费。

在众包模式下,爱数智慧的固定成本也得到很好的控制。目前其团队有150多人,主要分为技术研发和项目交付两大部分,核心成员是一支有中科院、清华、Intel、微软、IBM、毕马威等综合背景的团队。

拿下国际权威数据安全认证

在刚过去的315期间,诸如“偷脸”、“简历贩卖”、“偷取老人手机个人信息”等数据安全问题,让很多知名厂商上榜。数据合规、隐私安全是很多厂商必须去完善的重地。

张晴晴提到,客户筛选供应商过程中,数据安全就是第一要义。因此爱数智慧在数据合规上投入了很大的精力,数据提供者要经过合规授权,清楚数据的使用领域,以确保数据来源合规。在隐私安全上,系统会将个人信息和非个人信息分开存储,语音语言中存在的潜在个人信息都也将脱敏处理。

目前爱数智慧通过了ISO9001、ISO27001、CMMI3的认证,并且是国内数据服务商中,唯一拿到ISO/IEC 27701:2019标准认证的企业。ISO/IEC 27701:2019标准是目前国际上最新也几乎是最权威的隐私风险评估,是欧盟一般数据保护法案(GDPR)合规的重要参考。

爱数智慧获得ISO/IEC 27701:2019标准认证

除了数据安全外,对于客户而言,交付周期几乎和数据的质量价格一样重要。由于当下数据更新越来越快,爱数智慧采集的数据内容注重实效性,交付周期上基本上维持在一个月左右。

为了让更多的AI专家和追求智能化的企业,可以基于大量优质的数据去做相应的AI研究、实验来推进AI的发展。4月15日,爱数智慧上线AI语音数据开源社区“MagicHub.io”,将大量安全合规、经过标注的高质量数据开源,供开发者进行AI测试或训练。

爱数智慧4月15日发布MagicHub.io开源社区

张晴晴表示,“真正优质的AI存量数据是非常稀缺的,但也是这样的数据才能真正帮助到AI的迭代。爱数智慧目前拥有全球领先的对话式AI语音数据集。这次在业界首次通过自主开发的开源平台 MagicHub.io ,将多品类的优质数据与第三方的各产业伙伴进行共享,让大家在数据上实现开箱即用。AI需要更快更好的数据,MagicHub.io 让AI变得更简单!”

(0)

相关推荐