同传或被机器取代 搜狗实时机器翻译进入实用阶段
懂懂笔记
搜狗知音引擎再发重量级产品 实时语音翻译迎来质变时代
随着语音翻译的正确率大幅度提高,或许不久的将来,同传翻译将会加入被机器人替代掉的失业大军。
在乌镇的互联网大会上,搜狗CEO王小川发表了以《人工智能的未来之路》为主题的演讲。这是一场在中国举行的国际性会议,为了方便来自全球的听众,王小川亮出了搜狗的秘密武器:机器同传,即实时语音翻译。
王小川用中文演讲,他的讲话内容被语音识别为中文显示在大屏幕上,在中文的下面,还有一排同步翻译出来的英文。从语音识别到完成机器翻译,整个翻译的过程只需要两秒。据悉,语音实时翻译技术是搜狗语音交互引擎“知音”最新推出的重要功能,也是知音引擎取得的又一重大技术突破。
搜狗语音交互中心技术负责人陈伟11月21日接受了懂懂的采访,在谈到这一重大突破的研发过程时,用了这样一句话:“what is possible in principle is not always what is simple in practice。”(译为“看起来容易做起来很难”)
准确率可以提升30%-40%,神经网络给机器翻译带来质变
以输入法起家的搜狗,近几年一直在AI方面做了大量的研究和探索工作。今年8月份,搜狗知音引擎发布。时隔三个月,语音实时翻译技术发布,这是知音引擎的一项新能力:基于大数据和神经网络的深度学习,将语音识别和机器翻译两项技术打通,在2秒钟内完成端到端的翻译过程。
对于用户而言,看上去极其简单:对着机器说出中文,2秒钟后翻译好的英文就出来了,几乎没有延迟感。但实现这个过程,对于后台却是极大的挑战,用传统的机器翻译的方法,已经不能保证翻译的速度和正确率。
据陈伟介绍,搜狗机器翻译融合了业界领先的端到端神经机器翻译技术以及基于实例的翻译技术,使用的端到端神经网络翻译模型通过编码端获取源端句子的分布式表示,利用注意力模型聚焦源端,使用循环神经网络生成翻译结果,翻译的结果比传统机器翻译更加流畅,效果更好。
到底什么是端到端?什么是神经网络?比传统的机器翻译有什么本质的不同?
搜狗语音交互中心负责人王砚峰告诉懂懂:传统的机器翻译都是通过规则去做,比如用人脑想一些特征、规则,机器会根据这些特征和规则得出翻译的结果。翻译结果的好不好,在取决于人制定的规则好不好。而端到端神经网络翻译模型,是完全通过模型,放多个参数进去,通过机器学习,把这些参数进行组合。“把参数和模型构建好,机器自己去跑就可以了。机器越跑越聪明,这可以更优雅、更精准地完在翻译的工作。”
机器翻译已经是存在多年的技术,但是翻译的正确率始终无法得到关键性的突破,根本在于“不智能”,不会自我学习。最近机器翻译逐渐迁移到了基于神经网络的技术上。前一段时间GOOGLE基于神经网络的翻译引起业界的广泛关注。实事上搜狗在这领域也已经取得一定成绩。
搜狗此次发布的实时语音翻译,是把多个模型融合成一个统一的模型,直接把影射文本变成输出文本。相对于传统的模式,准确率可以提升30%-40%。
王砚峰认为,“机器翻译这个行业正在被神经网络重新带来一个质变。”
搜狗知音引擎解决刚需,场景化应用进入实用阶段
人工智能的话题越来越热,但真正转化为应用的还不多。陈伟告诉懂懂,搜狗知音引擎正在努力将技术推向实用。
搜狗知音引擎在8月份发布的语音识别应用,从目前看有三大场景存在较强的使用需求:
第一类是智能汽车的车载场景,搜狗已经有成熟的产品发布。
第二类是智能家居,搜狗与魅族联合开发了机顶盒,遥控器上使用搜狗的语音识别就可以用语音控制电视。此外,搜狗还跟多有电视厂商联合开发的电视解决方案,很快会陆续面市。电视是搜狗进入智能家居的第一步,接下来还将与更多的智能家居厂商合作开发。
第三类就是户外的智能可穿戴设备。比如手表,那么小的屏幕上很难通过触控完成操作,语音则是最方便的方式。搜狗与腾讯在手表上合作开发的超系统,把语音识别、语音合成集成在手表解决方案中,不仅可以语音操作,还可以通过语音完成人机交互。这个解决方案不仅可以应用到手表中,将来可以覆盖一切户外的可穿戴设备。
以上三种刚需,主要是人与机器交互的场景。知音引擎还可以实现人与人的交互,就是这次重点要说的实时语音翻译功能。在神经网络技术的推动下,人与人之间跨语音交互的障碍在渐渐抹平。语言一直是国际性会议的最大障碍,一场会议往往要配不同国家语种的翻译。王小川这次在国际性会议上展示的语音翻译,将来的国际性会议上将来成为常态,语音翻译将替代同传的一部分工作,所有的演讲内容可以同步翻译。
我们都知道,同声传译是翻译工作中挑战最大的一个形式,同传翻译的收入非常高,但他们工作也非常辛苦,同传需要高强度脑力动转,20分钟就会感到疲劳。或许,不久的将来,这个高强度、高收入的职业或许也将逐步被机器翻译慢慢替代。
“近期人工评测中,搜狗机器翻译在演讲、旅游、闲聊、日常口语等领域,采用五分制人工评分能达到4.4分,开始走向实用化。”陈伟告诉懂懂,随着机器学习,这个评分的提升速度也很快。
大数据+深度学习,拉开与竞争对手的距离
搜狗今年频频发布人工智能领域突破性的产品,但所有这些都是积累了很长时间才慢慢获得的成果。
据王砚峰介绍,“搜狗是从2012年开始研究深度机器学习,这几年来的技术和数据积累,让我们现在可以在几个月内做出类似实时语音翻译这样的应用。如果换一家以前没做过深度神经网络的公司,他们的周期会很长。”
说到深度学习,除了技术以外,无法回避的就是大数据。时间越长,积累的数据越多;跑的数据量越多,机器就越“聪明”。所以,在业内有一个共识:拥有大数据越丰富的公司,将来在人工智能领域越有机会胜出。
搜狗输入法和搜狗搜索是海量数据的来源。陈伟告诉懂懂,在知音引擎发布后,过去三个月中,搜狗语音识别请求规模增加到了1.9亿次左右,每天搜集用户的语音语料从以前的12万小时快速增加到16万小时。“从数据规模来看,我们在国内单个语音APP上的数据优势、规模优势是最大的。”
这些数据量的增加,也进一步提升了知音引擎的智能化,“我们在深入学习技术上面,进一步优化以及性能提升,在线的错误率进一步降低了10%左右。”
据搜狗方面的测算,目前搜狗语音识别的准确率在97%,这与科大讯飞、百度、阿里公布的数据相当。
搜狗知音引擎能再一次在技术上取得重要突破,主要得益于搜狗长期深耕技术和产品所积累的海量数据以及在人工智能技术上的沉淀为其奠定了坚实的基础,这些积累已经与竞争对手拉开距离。随着实际应用的增加、数据量的增长,搜狗的AI会给用户带来更完善、实用的语音产品。