你是否会被人工智能哭泣的声音所打动?| Mixlab 技术前沿

#音频工程#、#AI语音技术#、#AI Deepfake#
 AI 语音
—— 语音识别技术,与语音合成
语音识别技术是指机器自动将人的语音,转成文字的技术,即ASR技术:Automatic Speech Recognition。
语音合成是计算机将机器内部的文字信息转变为,可听懂且流利的语言输出的技术:Text-To-Speech。
简单来说,
语音识别技术是:人对机器的输入;
而语音合成则是:机器的输出过程。
先来感受下AI赋予情感的声音
AI 语音初创Sonantic AI
—— 将文本转化成拟人化的声音:AI 配音
Sonantic(英国)实际研发的产品是一个音频编辑器,该编辑器内含有不同的语音模型,基于实际的配音演员声音开发
该语音技术,能够根据性别、个性、口音、音调和情绪状态,快度、准确地塑造角色类型。
Sonantic 核心
“ 捕捉人类声音的细微差距 ”
—— 创始人库雷希 Zeena Qureshi
Zeena Qureshi
Sonantic 的联合创始人弗林说:“以前的技术并没有捕捉到声音的高低,我通过寻找声音的高位和低谷改变了它,并试图让算法更多地关注音调起伏。我们延伸了这些自然的点、细微差别和变化。我们知道讽刺和真诚之间的区别,以及声音中细微的线索。”
“去年我们的人工智能哭泣时就被赋予了真实情感,真正的关键是关注语言上的细微差别,悲伤时声音的颤抖,愤怒时的用力。我们尝试了深入建模,添加了细节并将它们叠加起来,声音就开始获得能量听起来非常现实。”
图自百度
商业化机会
在于帮助游戏公司缩短制作时间、减少生产成本,更重要的是,增强了在游戏中讲好故事的能力。
开发方式
训练机器人去人声的标准机器声音,与听起来极像人声的机器人声音。
通过 API 和一个用户界面工具,Sonantic 可以让机器合成语音,像人类一样发声,完成从文本到语音,并且可以把声音进行编辑、修饰和导演
声音资产
如同 “抠脸” 电视剧一般,Sonantic 还可以模拟某位演员的声音,用机器来帮助演员配音,还可以突出演员们极具个人特色的表演技巧,捕捉 “全谱的深层情感” ,从微妙到夸张的情感都可以从语音表现出来,而这通常只有资深演员才能做到。
这能为演员们提供一项新的工作方式,将演员们的声音变成一项和他们外在形象一样的资产形式,以增加收入。
与专业的演员 / 配音工作者合作
团队联合创始人之一,库雷希说,这么做的目的并不是要让配音演员失业,相反它在创作早期就为创作者提供了一个可读、可审查的脚本
这有助于从一开始就在游戏中加入高度现实的声音,帮助制作人感受故事的弧线、填补节奏、理解真正需要改变的地方。这样他们的迭代周期才能继续快速发展。

*
业界人士看法:对于任何想要用 AI 重新塑造配音演员的声音的制作人来说,这都是一个法律雷区。
—— 宾夕法尼亚大学法学教授詹妮弗·罗斯曼 Jennifer Rothman
参考素材:
https://www.wired.co.uk/article/simpsons-deepfake-voice-actors-ai
Sonantic 官网:
https://www.sonantic.io/
(0)

相关推荐