微软语音识别词错字率低至5.9%,已达到人类专业速记员水平

今天微软在官方博客撰文表示在语音识别方面已经取得了重大突破,在对话交流中微软的语音识别技术已经可以像人类的耳朵一样识别对话。根据本周一美国康奈尔大学的一篇论文显示,一支由微软人工智能研究部门的研究者和工程师组成的团队开发的语音识别系统的识别正确率相当高,甚至可以和专业速记员相提并论:错字率(WER,Word error rate)仅有5.9%,而在短短的一个月之前,这个数字还是同样由微软写下的6.3%。

前排左起第一位为黄学东

按照行业标准Switchboard的语音识别任务测试,目前由专业速记员组成的人类对照组将语言转录成文字目前的记录就是前文中的5.9%。微软首席语言科学家黄学东表示这样的一个成绩已经达到了人类的同等水平,称之为历史性的成就也毫不为过。这也是历史上首次计算机可以和人类一样识别对话的词组的构成和含义。

一直领导微软人工智能研究集团的Harry Shum表示这项智能识别上的成就将帮助小娜(Cortana)更强大、更智能。和很多人想象的不一样的是,即使是人类在错字率实验中也无法完美地通过测试,当然机器也不能,就像微软在日志中举例的那样,“A”和“The”听起来的偏差是难以避免的。

根据微软的介绍,他们使用大量的数据来指导计算机识别输入样本,比如声音和图片,而这之中的工具被称为Computational Network Toolkot(CNTK),这套本地化深度学习系统可以知晓词与词之间的语义关系而使得每一个词被充分概念化。具体的原理相当复杂生硬,感兴趣的网友可以前往微软亚洲研究院的微博查看。

目前研究人员正在努力将语音识别的效果带到更生活化、更真实的环境,比如有更多环境噪音的聚会,或者是驾驶中的车厢内(虽然这很危险)。事实上现在的小娜(Cortana)对于我们命令的措词的辨析精度已经很高,除了直接的命令,我们在Windows 10下调用小冰聊天呢。

关注微信号expkf01,第一时间获知精彩活动和原创科技资讯。

(0)

相关推荐