讯飞实时语音翻译,离「巴别鱼」​梦想更近一步!

40多年前科幻经典《银河系漫游指南》中,只要将一条黄色的「巴别鱼」塞到耳朵里,就可以立刻听懂任意一种语言,人们追求实时语音翻译的梦想雏形初现。

现实中,随着全球化的深入发展,不同语言仍是人们交流的一大障碍。据维基百科介绍,世界目前大概有7000多种语言。实现全人类无障碍交流,是人工智能的宏伟目标之一。

2018年《麻省理工科技评论》一项面向未来的十大前沿技术榜单认为,有「巴别鱼耳塞」之称的实时语音翻译技术,离人们的日常生活最近。

▲图片来源于网络

AI时代,智能语音识别技术结合神经网络的发展,让优质高效的机器翻译不再遥遥无期,实时语音转文字及翻译能力也越来越广泛地应用于各式各样的数字化生活场景:

应用场景

直播字幕应用场景下,为直播或录播视频,提供实时的语音转文字及翻译功能,实现多语种字幕上屏的惊艳效果,广泛应用于行业会议、赛事直播、电商直播等平台。2020年讯飞为服贸会线上直播提供了实时翻译字幕的功能,来自全球的演讲嘉宾可使用母语进行演讲,观众可通过实时双语字幕进行观看。

跨国会议上,承担翻译官的角色,将每个人的话实时翻译成指定语言文本,并输出准确的会议内容记录;智慧教育领域内,适用于外教授课或视频课程,可将老师说的话转录成文字并翻译;在跨国交流中,适用于出国旅游、行业交流等场景,让跨国沟通变得轻松简单……

秉承着“技术顶天,应用立地”的坚定理念,过去10年中,科大讯飞面向消费市场推出的翻译机、学习机、录音笔、办公本、听见会议系统等一系列产品,也是讯飞先进智能语音、翻译的深度融合与技术创新的有效落地。

面向广大开发者与生态伙伴企业,讯飞开放平台推出实时语音翻译解决方案基于神经网络翻译以及流式语音识别技术,通过WebSocket协议支持全双工网络通信,对长音频流实时输出翻译后的文字内容,支持智能断句。广泛应用于会议同传、多语种直播字幕、视频字幕翻译等场景,打破语言交流障碍。

方案优势

多语种方言互译:目前已支持全球10种语种及方言,中、英、日、韩、法、俄、广东话、越南语、阿拉伯语、西班牙语的实时互译转写。

边说边上屏:流式传输接口,多分片并行请求,实现边说话边返回翻译的惊艳效果。

不限时长随心说:支持实时音频流和录音文件,不限制输入音频时长。

中英审核,动态纠错:基于大数据分析,通过上下文语义,对内容实时动态纠错。对涉黄涉政等敏感内容,自动进行审核过滤。

标点预测,智能断句:根据上下文对话语境,智能断句并匹配合适的标点,输出带格式的文本内容。

核心技术,快速返回:基于深度学习神经网络技术和流式传输等技术,实现高效的跨语言沟通。

我们相信,每次人工智能技术的突破,都让人类离「巴别鱼」梦想更近一步。

虽然在实际应用系统中,语音和语言的复杂性给翻译性能带来了不同程度上的挑战,但随着科大讯飞在语音翻译端对端模型技术上的不断突破,未来,我们将不断提升智能翻译对于口语化文本处理能力与语境理解能力,拓展实时语音翻译在多场景多领域内的深入落地,助力世界打破语言交流障碍!

(0)

相关推荐