百度运用情感语音合成技术还原张国荣声音视频 / 开普饭

雷帝网乐天 9月1日报道

百度CEO李彦宏今日在百度世界大会上展示了百度大脑的另一种语音能力——语音合成。

李彦宏说，基于大数据与深度学习技术优势，百度的新型情感语音合成系统能够让机器摆脱平铺直叙发声，为用户带来更自然、更接近真人朗读听觉体验。

李彦宏介绍说，目前，百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后，用语音听小说的百度用户从过去平均每天听0.69小时，增长到现在2.21小时。语音合成的能力对用户的App使用黏性的提升非常显著。

今天的语音合成可以根据个人需求进行定制，形成自然发声的能力，模拟任何一个你喜欢的人的说话方式。李彦宏透露，百度地图中有一个李彦宏导航语音包，其实就是根据他日常的语音合成的。

李彦宏现场还展示了运用情感语音合成技术还原张国荣声音的视频。以张国荣在影视、电台等留存下来的原声进行建模，通过情感语音合成技术实现与粉丝的“隔空对话”。

实际上，任何一个人只要用30分钟按照要求录制50句话，就可以用百度大脑的语音合成技术模拟出来这个人的声音。人人都可以拥有自己的声音模型。

根据介绍，百度大脑包括三个部分：

1，计算方法。包括超大规模的神经网络、万亿级的参数、千亿样本和千亿特征训练；

2，计算能力。包括数十万台服务器构成了“百度大脑”的实体，几年前百度便开始自建中国最大的GPU集群；

3，数据。全网的网页数据、十多年来累积的搜索数据，以及百亿级的图像、视频、定位数据。

在今日的百度世界大会上，百度深度学习技术还现场识别了到场的百度高管，比如，百度总裁张亚勤、百度高级副总裁朱光等。

人脸识别是如何实现的？从技术的角度讲，它是通过对人脸特征的关键点的提取，找到了其中最不一样的地方，构成了一个面部的表情。当一个人表情发生变化的时候，他的表情特征并不会发生改变。

李彦宏说，除人脸识别之外，百度在其他场景中也经常会遇到图像识别需求。

例如，百度的图像智能识别技术就帮助百度地图打破传统数据采集模式，实现了外业单人全景图像采集，使生产效率大幅提升。

利用深度学习技术，采集设备可自动识别道路特征、提取建筑轮廓并绘制形状、识别道路图形标牌、电子眼、警示牌。

图像智能识别技术能精准识别店铺名称、门牌号、停车场标识，甚至营业时间。

当前，百度地图的全流程数据生产自动化程度已超过80%，全景图像的自动化识别提取准确率高达95%。

李彦宏透露，百度地图与图像智能识别技术的结合，让数据无限逼近现实世界。过去一年，百度花了不少精力，来提升百度无人车在城市道路的运行水平。

在演讲中，李彦宏播放了一段无人车行驶过程的视频。百度无人车在行驶过程中，通过感知，可以探测到路面上车、路标以及各种各样的障碍物。

每个物体有一个独特的编号，便于车对它进行识别。这个车的识别是通过百度大脑来识别的。

—————————————————

雷帝触网由资深媒体人雷建平创办，其为头条签约作者，若转载请写明来源。

百度运用情感语音合成技术还原张国荣声音视频