“公式相声”来了，人工智能说相声还会远吗？ / 开普饭

前不久在一档相声相关的综艺节目上，一对自称来自上海交大的博士夫妇推出了自己的新创意：公式相声。据说，通过自创的相声公式，他们可以计算观众的笑点，甚至笑声能持续多久都能尽在掌握之中，从而可以写出笑果更佳的段子。

结果他们硬生生把自己给整成了段子。

这也从另一个角度表明，虽然相声也讲究推陈出新，但作为语言艺术的一种，想要对其进行数理化改造，恐怕难度极高。博士夫妇的错误在于，其太固执而自我地试图将影响相声本身的一切因素都数据化。但无论是相声内容还是观众反应，数据化本身就是很难的；更何况他给出的公式纯粹出于自己的臆想。

虽然“公式相声”在目前看来是失败的尝试，但也并不意味着相声就真的就不能换换形式了。比如风头正盛的人工智能：如果让人工智能来段相声，效果会不会要比博士夫妇好得多？

其实让人工智能说相声也并不是多么新奇的想法，它已经有过类似的舞台经验，并且效果还挺好。但据笔者猜测，那只机器人的所有台词应该是提前设定好的，与其说它是在“说相声”，倒不如说是披个人工智能的外衣播放台词。

那么有人就说了：就是演员说相声不也是背的台词吗？这话不错，但除了背台词之外，相声演员还必须要有灵活的现场反应能力，同一个段子不同的人说出来效果就不一样，同样的现场不同的人互动也不一样。

那么，我们今天就来看看，人工智能学相声到底有哪些可能。

背一段话容易，想说好听难

先从“说”说起。

“说”的内容有很多，包括说、批、念、讲等。比如说个绕口令，或者说个贯口。要说相声字都咬不清楚，观众就什么也甭听了；说个贯口的时候卡壳了，那观众得闹退票，自己也下不来台。

我们就从贯口的角度来说说“说”。

说贯口的第一步，就是得会背。相声演员背是基本功，上台表演的时候一口气把报菜名给说完，功底就显出来了。虽然很多贯口是老段子，但对观众而言百听百新，而且还过瘾。

人要背个百十个甚至上千个段子，那可真是要了命了。人工智能表示：哈？这能难得倒我？找个U盘，把古往今来所有的“说”的内容全给我装进去，你要什么，我张嘴就来。

要这么简单，估计机器人早就打遍天下无敌手了。因为贯口还有第二个要求：情绪。

贯口一般说得很快，比如报菜名，要的就是个吐字清晰、连贯，速度再快点儿，带给观众一种酣畅淋漓之感。但并不是所有的贯口只要快就够了。八扇屏有故事、有情节、有感情，虽然内容简单，但你要像倒豆子一样给说完了，效果反而不好；将自己的特点融入其中，也是贯口常演常新的秘诀所在。同样的贯口，北京二赵名扬四方，就是这个道理。

这对人工智能来说就不那么容易了。这涉及人工智能的声音合成技术在帮助其摆脱典型机器音的前提下，能否带有一定的艺术韵味，比如二赵的京剧腔；同时，如何以速度控制情绪，体现出机器人对贯口内容的个性化理解，也是其基本功打造的难点。

如果在“说”上人工智能仍然是典型死板的机器音，把活泼的贯口给硬生生说得毫无生趣，那人工智能进入相声界的第一步还没迈出去，估计就夭折了。

从学习方言开始

人工智能面临的第二个基础问题，就是“学”。

学什么？说相声的什么都得能学，街头巷尾小贩挑着担子吆喝、市井之中男女老少的音容笑貌、各种专业人士表演的戏曲歌曲等，简单来说就是得口技了得。这其中有一项重要的内容就是学方言。

在相声里，模仿方言被称为“倒口”或者“怯口”，哪儿的话都能说。从一开始模仿北方话，到后来扩展到南方的吴语和粤语，乃至还模仿说英语、到后来开始模仿外国人说普通话。

那么，人工智能在学方言这块能有什么神通？

语音识别是人工智能语言学习的一个重要分支，而且已经在现实场景中实现了广泛的应用。手机智能语音助手、智能音箱、语音翻译机等，都离不开语音识别。可以说，语音识别技术将带来一种全新的人机交流形式，对解放人的双手具有重要意义。

目前的语音识别对各国“官话”的识别还是非常到位的。比如如今随便一个语音助手，可以轻松识别出讲的普通话内容。但人工智能学习方言的任务显然要繁重得多。国内做语音识别输入的公司在这方面提出了一些解决方案，比如在原有普通话库的基础上，对方言进行音标标注，然后辅以方言词典。这其中的重点任务，就是要有足够的方言词库或者句子来作对比标注，在大量数据积累的情况下才可能实现对每个字词的精准识别。

简单说的话，既然普通话能够识别，那么只要有足够的词库、足够的时间时间进行训练，人工智能的方言学习也不会是什么大问题。

那么至少在学方言这块儿，人工智能应付起来还是没有太大的问题的。在本身特有属性的加持下，人工智能在台上说方言想必也是一件非常有趣的事情。

但方言仅仅是一方面。有的人把“唱”也列为“学”的一部分，比如唱京剧、梆子、评戏或者流行歌曲等，或许也就是涉及语音合成的问题。本文就不再单独把“唱”单列。但除了发音、动作之外，我们上文提到“音容笑貌”，这个“貌”可怎么学？

要解决这个问题，也许只能从人造皮肤的角度入手。辅以各种传感器，在做指定表情的时候调动脸部指定的肌肉。目前有触觉的人造皮肤已经被初步研发出来，日后机器人能做出像人一样的表情或许并不遥远。

当然有人可能会说：搞那么复杂干嘛？装个屏幕不就行了？

我只想说：你开心就好。

段子要讲好，现场气氛也要搞起来

如果说“说”和“学”还只是个皮毛而已的话，“逗”恐怕将是人工智能在学相声的过程中遇到的最大挑战。

“逗”就是抖一些包袱给观众，说白了就是讲段子。我们日常所见的，大多为对口相声，一个逗哏，一个捧哏。在这一逗一捧之中，把段子给有条不紊地撂出来，可以说既逗了捧哏者，又逗了观众。

如我们上文所说，很多相声就是在老段子的基础上讲出新效果，所以很多演出都是按照既定的台词和流程进行的。但只会背台词的演员最终也混不出来个一二三，要想把“逗”给学透了，就必须要具备极强的现场反应能力，俗称现挂。

其实仔细想想，我们为什么会经常认为人工智能是智障？很大的原因在于跟它交流的时候实在太令人心烦了。答非所问的情况比比皆是，再就是撒娇卖萌，其实很难得到自己真正想要的对话结果。那么对于相声这一对语言表达要求极高的艺术形式来说，这自然是需要直面的致命伤。

要解决人工智能在相声表演的临场反应问题，背后自然离不开自然语言处理技术的提高。比如要能理解特定场景下观众喊话蕴藏的意思。岳云鹏的演出现场曾出现过各种设施意外，或者被观众“骂”，这个时候观众会一起喊“退票”。当然这就是大家图个乐。但对机器人来说，就不能仅仅从“退票”的字面来理解了，它要能结合现场气氛、观众表情来读懂“退票”背后的真正含义，并且给出幽默、巧妙而不失尴尬的回应。

简单来说就是，在表演节目的过程中，人工智能要能做到不拘泥于剧本，形成自然、流畅而又不至于打乱既定的表演剧本的能力。也就是说，人工智能不仅得会背段子，还得能开玩笑。要不然你逗谁呢？

当然，要想说好相声，人工智能需要学习的还有很多。目前人工智能也只能靠得上其每一个方面的一个分支而已。背几个段子不在话下，学几个方言也不是问题，甚至一切需要学的东西都可以直接以数据的形式存储在人工智能的大脑里。但这些东西说白了都是死的，要想表演出有生命感的相声，关键在于演员怎么把它们给盘活了。

也许，这才是人工智能成为相声表演艺术家的关键所在。当人工智能连相声都能说了，也就意味着人类在自然语言处理方面获得了高度成功。

“公式相声”来了，人工智能说相声还会远吗？

相关推荐