一帮不懂手语的工程师研发出了会比手语的AI主播

2024-06-13 02:45:11

汉语是门“有声语言”，手语是门“视觉语言”。

”

作者 | 王金旺

出品 | 雷锋网产业组

雷锋网消息，5月17日，搜狗CEO王小川在搜狐科技5G&AI峰会对外发布了新一代搜狗AI合成主播——手语AI合成主播“小聪”。

作为搜狗AI合成主播经过两年多时间迭代后的新品，手语AI合成主播集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动技术。据搜狗官方信息显示，在组织的聋人可懂度测评中，搜狗手语AI合成主播可懂度达到了85%以上。

搜狗这款手语AI合成主播研发初衷是什么？

为什么有了语音识别生成字幕技术后，还要做搜狗手语AI合成主播？

搜狗手语AI合成主播与一脉相承的语音识别、AI分身在技术研发过程中又有何异同？

……

这些问题都在5月19日的媒体沟通会上由搜狗AI交互技术部总经理陈伟及他的团队进行了一一解答。

研发初衷：听障人士看字幕

如学外语般艰辛

2018年11月，搜狗与新华社合作研发的AI合成主播正式问世，几经迭代后，在2020年5月，又与新华社联合推出了3D AI合成主播。

当时陈伟和他的团队在为搜狗为3D AI合成主播规划未来发展方向时，着重考虑了三个方面：

第一，要把3D能力做好；

第二，我们希望搜狗在“数字人”这个方向上有自己更高的技术壁垒；

第三，我们要找到有强烈需求的场景。

综合考虑场景、渠道和技术迭代中的创新后，2020年5月，手语AI合成主播在搜狗内部正式立项。

既然有字幕了，还要手语干什么？

这也是搜狗手语AI合成主播立项之初，陈伟当时需要考虑的问题。

对此，陈伟总结了三方面原因：

第一，并非所有听障人士能看懂字幕。

在我国2700万听障人士中，整体受教育程度参差不齐，有高中、大学学历的听障人士在这一群体中仍然只占非常小的比例，现在大家对字幕获取的能力还在逐渐培养中，要想让绝大部分听障人士看懂字幕还有很长的路要走。

第二，「有字幕」这件事儿和「做手语」不是必须二选一的。

我们在了解信息、获取信息过程中必然会通过多种方式，我们自己在看电影的时候，有时候尽管中文的电影我们可能也会看字幕，大家本能的想法是我怎么能更快更高效的获取信息，他能看懂字幕更好，如果看不懂，还有手语可以提供信息。

第三，手语语言和有声语言之间是完全不同的语言体系，听障人士对有声语言的接受程度类似健听人对第二外语的接受程度。

听障人士即便学习了汉语，对他来说也是第二语言，就像我们在学习英语过程中，尽管我们学习了很长时间，但还是很难产生熟悉的感觉。

与此同时，听障人士在学习汉语的过程中其实天生是有障碍的，因为汉语或者普通话更多的是表音文字，每个字都有发音，我们之所以能够快速学习语音，是因为有语境。我们跟别人沟通的时候，沟通的前提是眼睛看着大家，看到了唇形，同时听到了声音，结合在一起是多模态的，但是听障人士在听力上天生有障碍，就少了一个因素让他更快地学习有声语言。他们之所以学手语学得快，是因为手语是视觉语言，不需要辅以声音进行理解。从这个角度来看，手语短期内不可能完全被字幕替换掉，它仍然是听障人士的主要学习方式，手语表达也更符合听障人士的习惯。

就在搜狗手语AI合成主播发布的同时，搜狗还对外发布了柳岩同款明星“数字人”。

据陈伟透露，柳岩同款明星“数字人”从录制到上线用了有一个月的时间，其中录制仅用了两个半天（合计一天），数据标注花了30%-40%的时间，剩下的则是技术研发和迭代用的时间。

而手语AI合成主播“小聪”的技术难度要远远大于明星“数字人”。

研发历路：手语是门“视觉语言”

搜狗研发了多代AI合成主播，在语音识别技术上也积累颇丰。然而，手语AI合成主播对于搜狗而言，仍是一个全新的领域。

据陈伟介绍，搜狗在做手语AI合成主播“小聪”时，主要做了三方面工作：

「语言侧手语的研究」、「语言体系的翻译」和「表征表达」。

首先，在研发“小聪”过程中，搜狗最先遇到的就是手语数据库建立的问题。

搜狗开始接触手语发现了一个问题：手语语言和所有其他（有声）语言都不一样，它是一个视觉语言。

随之而来的一个问题是：“小聪”的训练数据从何而来？

陈伟解释称，手语语言如何转换成计算机语言，之前行业在做手语语言体系时并没有特别明确的做法，要么是纯语言学，要么是计算机相关背景的人根据自己的想象做手语。

在搜狗团队的认知中，手语本身是没有可记录的文字信息的，因为它本身就是视觉信息。

《国家通用手语词典》一共8000多个词，“小聪”基于《国家通用手语词典》进行健听人语言与听障者手语语言的机器翻译，在这个过程中，为了构建用于模型训练的数据库，搜狗做了三方面工作：

第一，从语序到选词，我们会考虑把健听人的语言和听障人士的语言做一个平行的翻译，这样就可以积累大量的资源，用这样的资源作为翻译系统的数据；

第一，将手语词汇转化成用文字方式或用技术方式标注出来；
第二，构建健听人和听障人士之间语序的平行翻译语料，这需要大量的机器翻译库；
第三，通过预先捕捉大量真人动作和表情数据，对构建起的3D模型进行模型训练，因为搜狗走的是超写实模型，这件事情每个环节都有很大的资源和研发投入。

据陈伟透露，从翻译角度来讲，现在初步建立起来的精标数据达到几万。

其次，搜狗要考虑的第二个问题是——语言体系如何构建。

手语和汉语本质上不是一个语言体系，存在着诸多结构、表达上的差异。在这之中，“小聪”研发团队特别提到三个难点：

第一，手语表达与汉语表达语序的不同。例如，汉语中的“开车不许喝酒”，手语表达出的则是“开车、喝酒、不准”，包括像“北京常常堵车”会被翻译成“北京、堵车、常常”。

为此，搜狗建立了相应的语言规则尝试做相应的语序转化，通过搜狗构建数据库给算法进行训练。

第二，在词汇上，手语中没有虚词和量词。“我买两只铅笔、一本书”，手语表达出来的会是“我买铅笔、二、书、一”；包括“在、的、了”等程度词都会省略，“大雪纷飞”用手语表达也不会有一个词表达“大”、一个词表达“雪”，而是在“雪”的基础上加大身体的摆动来体现程度副词。

为此，搜狗建立了手语到汉语之间的映射辞典，尝试去解决手语和汉语之间词汇上的差异问题。

第三，手语里特有的非手控的信息，例如表情、口动、身体的朝向，这部分是在汉语语言中所没有的。例如同一个手势表达“我做的好不好”，如果没有表情的话，大家很难明白手语表达出来的意思，但是如果有皱眉，就是能表达出疑问的语气。

表情、身体姿态、口动等非手控信息是搜狗在做“小聪时”遇到最大的难题，目前也在尝试通过一些建立一些表情库或存在表情标记的数据库驱动算法的设计等规则的方式来解决这一问题。

最后，搜狗还需要用这样的语言体系驱动“数字人”“小聪”完成自然连贯的手语动作、面部表情表达。

“手语翻译是一个新的话题”

这个事情的难点是我们一帮不懂手语的工程师在做事情，特别容易陷入到自己的烟囱里面。

陈伟一语道破研发团队立项初期的窘境。

在进行过深入研究后，陈伟发现，手语翻译是一个新的话题。

我们同传上线了这么多年，原来做的中英翻译、中日翻译等结构都是一样的，但是放在手语上又不一样了，它有一些新的话题。

为此，陈伟请来了制定手语标准的残联及相关协会专家、教手语的手语老师、做手语推广的专业人士，由这些人组成了搜狗手语AI合成主播语言体系、产品体系、研发体系之外的智囊团作为顾问团队。

从立项之初，搜狗就一直与这一顾问团队保持着紧密联系，这也成为搜狗手语AI合成主播在技术迭代过程中不至于偏离最终用户的一个保障。

“数字人”的一个终极目标是手、嘴、表情、姿态的实时联动，完美复刻真人表达能力，这也正是手语对表达能力的需求。

据搜狗官方信息显示，“小聪”在测评中可懂度已经可以达到85%以上，能够进行有效信息传递。

对此，陈伟也向雷锋网解释：

可懂度85%，跟（语音）识别准确率98%是两个概念。识别率是客观指标，这个字到底对还是错的问题；可懂度更强调听障人士的体验，我在表达的时候，翻译得准，“数字人”表达得准，这个链条太长了，在这件事上每个环节都得做好，串联起来才会得到一个比较满意的效果。

与此同时，陈伟也指出：

数据量足够的话，提升读懂度在技术上不是特别大的问题，不过，数据资源的积累需要比较长的时间成本，我们在快速推进，但还是需要有时间积累。

本文由雷锋网原创，作者：王金旺。申请授权请回复“转载”，未经授权不得转载。

日均调用量超13亿次，阿里达摩院研发全球首个实时翻译直播

近几年来,直播电商到处开花,但绝大多数都是国内的中文直播.如果想买外国电商主播推荐的商品,语言不通怎么办? 这一难题已被阿里巴巴(下称 "阿里")攻克,阿里速卖通是面向全球海外消费 ...
搜狗做AI：围绕语言，力出一孔

数千万年前,猿猴为了生存,学会使用石器,跳下大树直立行走,从而为人:人类为了更好地交流,发展出语言:为了记住过去,又发明了文字,从此人类有了有记载的历史. 人类跑得不够快,所以发明了汽车:人类的声音传 ...
王小川，做AI不容易

新小萌很漂亮,端坐在直播台前播报两会新闻,她代表新华社.如果你看到她,会过目不忘. 她读起新闻声情并茂--除了"声"还有一点生硬和人工智能的感觉,其她看起来并无疏漏. 她其实是个A ...
早报：新 MacBook Pro 或今夏发布 / 拼多多百亿补贴开始抽佣 / 华莱士获评外卖品牌第一

早报 12小时前早报导读苹果或于今夏发布全新设计 MacBook Pro 拼多多「百亿补贴」开始抽佣「2021 外卖餐饮品牌 TOP50」发布:华莱士位列第一骁龙 778G 正式发布苹果更新 ...
搜狗输入法联合米物科技打造智能语音键盘，输入效率超级加倍 | 第2周新闻

搜狗AI合成主播雅妮为你带来 [2021年第2周]搜狗新闻联播关注搜狗官方视频号↑ 解锁更多精彩内容全文 01 搜狗输入法联合米物科技打造智能语音键盘,开启智能输入新时代近日,搜狗输入法赋能米 ...
【远方·夜听】青海《从黑暗里走出的黎明》作者：陌上花开主播：听月儿

欢迎关注远方诗歌文化传媒作者:陌上花开主播:听月儿编辑:张小璇从黑夜里走出的黎明当夜幕降临鸟儿乖乖待在幽林关闭了白天唱响的清音楼上楼下的窗户里透着明亮和 ...
辛巴辛有志成功培养出10位单场破亿主播，秘诀是什么？

2019年成交额150亿,2020年双十一成交额88亿,其中辛有志个人单场最高销带货成交额18.8亿,10位主播个人总销售额超亿元.放眼整个行业,辛选的带货成绩一直站在金字塔的顶端.现如今,辛巴的辛选 ...
雪泉《七律•赞华为“鸿蒙”研发成功》（外三首）| 主播李莉 | 心香文艺

心香文艺心香文艺点击上方绿标收听主播诵读电台音频:喜马拉雅:心香文艺雪泉作品,主编黄幼中手机系统创鸿蒙一举夺魁举世惊打破独裁除垄断三足鼎立始形成感天动地华 ...
【远方】青海《夜里写出美丽风景》作者：陌上花开主播：凝香

作者:陌上花开主播:凝香编辑:小鹿夜里写出美丽风景一天的繁华终于安静楼上推窗眺望天空一颗颗闪烁的星星眨着眼睛流星划破夜空瞬间无影无踪一阵阵凉风偷偷钻入怀中一个寒颤让我清醒静坐下 ...
诗歌：走出你的记忆 | 杭国垌主播 | 雪影儿

长风文艺欢迎关注:changfeng1710 走出你的记忆杭国垌很久,很久没能听到你的声音而我,时常想起你的声音是否还是那般温柔而动听我只能在记忆中寻找你的呼唤很久,很久没能看到 ...
王金启‖二十四才女之秀出丛林管道升忠贞曲（主播：鹿鸣）

管道升(1262年-1319年5月29日),字仲姬,是湖州吴兴(今浙江吴兴)人,她自幼聪颖慧敏,性情开朗,仪雅多姿,有"翰墨词章,不学而能"(<魏国夫人管氏墓志>其夫赵 ...
梦幻西游：2.8万的成本刷出了第一四伤害灵饰，主播不敢估价！

hello大家好,我是梦幻小九.梦幻西游里面价值最贵的就是武器装备,有幸鉴定出一件极品无级别或者超级简易,就可以让你一夜暴富,走上人生巅峰.每天砸钱鉴定军火的人不计其数,但是真正能刷出高价值装备的寥寥 ...
梦幻西游：超级千伤武器出炉，附加极限属性，主播估价仅5万？

伤害属性破千是目前梦幻西游武器中的极品,虽然千伤武器的价值可能比不上无级别,但它却是一把武器的灵魂,只有在达到千伤的基础上附加无级别特效,才能让武器的价值达到百万乃至数百万元.然而对于160级武器来说 ...
梦幻西游：59级鉴定出千伤武器，听完主播估价后，号主不想升级了

千伤属性的武器在梦幻西游中固然重要,能够有幸鉴定出千伤武器的没有几个人.但并不是每个人鉴定出千伤武器之后就一定会兴奋激动,有个别玩家反而开心不起来.为什么这么说呢?因为绝大多数千伤武器都专用的,满级满 ...

一帮不懂手语的工程师研发出了会比手语的AI主播

相关推荐