虽然语言,言语和口语通常被认为是人类独有的,然而在过去的几十年里,动物研究的兴起,使我们更加了解人类的语言。本文作者通过行为层面到分子层面的分析,介绍了言语的进化模型。本文的一个关键的概念是认为,口语的成分(这里说的成分其实不是指人类的口语的语音、语义或者句法等层面的成分,而是说在口语进化过程中不同阶段的产物。之所以这么说主要是本文作者认为语言是从动物水平进化而来的(显然这不是语言学的主流认知))在物种之间是连续的,其中鸣唱学习是最特殊,最罕见的。它是对大脑中产生已久的运动学习环路的复制进化而来的(这里的复制并不是真的“复制”,作者这里使用的duplicate是从遗传复制的角度来说明的)。明确本文中提到的这些概念对于理解言语学习的脑机制和口语障碍的治疗有重要意义。本文发表在Science杂志。(可添加微信号siyingyxf或18983979082获取原文)。口语系统是由多种成分特征构成的,其中一些成分普遍存在于各个物种,而另一些仅存在于少数物种或者仅仅是人类当中(图1)。思影曾做过一些语言相关的文章解读,欢迎浏览以下链接(直接点击即可浏览):
语音韵律及其神经基础
语前婴儿与成人相似的语音统计学习模式:来自神经夹带的证据
Nature子刊:脑卒中后失语症语言恢复的神经计算基础
BRAIN:失语症词汇产出的白质结构连通性:DSI研究
Science advances:新生儿的言语知觉
布洛卡区域的功能复杂性及功能分离
近红外超扫描研究:人与人之间口头交流的跨脑神经机制
幻听中语言网络、听觉网络和记忆网络的交互障碍
Science:从个人口语到社交世界:人类口语的神经处理
Current Biology:手语和口语共享部分概念表征
Science:句法和语义组合的神经基础
Nature子刊:语言、心智和脑
Science:语言在单字层面以上的神经处理
PNAS:与语言相关的脑网络中特定频率的有向连接
音位:不仅仅是词汇获取
10Hz tACS对词语语音决策中前额叶皮层的影响
Psychological Science:自上而下的词汇加工影响着早期言语
PLOS Biology:语言控制的功能连接组
BRAIN:遗传性言语障碍中的背侧语言通路异常
PNAS:双语习得对大脑结构及功能可塑性的影响
ERP研究:在语言理解过程中追踪听众的知识状态
对前语言期婴儿心理理论相关的颞顶联合区的近红外研究
ERP研究:婴儿已具有人类特有的编码语音嵌套关系的能力
PPI研究:颞叶癫痫的左颞叶语言网络功能连接
ERP研究:母语促进视觉意识的理解
PNAS:两个一起学更好:婴儿看视频同样可以学语言的ERP证据
HBM:阅读中语音产生期间的脑功能近红外光谱研究
PNAS脑电研究:说话人的注视增加婴儿和成人大脑之间的信息偶联
Science: 位于人类听觉皮层的语调编码
语言网络的短期迅速重组
听觉学习是一种普遍存在于不同物种的成分,是指记忆和理解新奇声音的能力。例如狗和非人类灵长类动物可以理解单词或者词组的含义(最新的对狗的研究已经解释清楚,狗和猫以及多种宠物对我们所说的指令根本不是理解,并没有区分词汇的能力,详情请看:Event-related potentials reveal limited readiness to access phonetic details during word processing in dogs),例如:“坐”,“来这里”,“吹长笛”等。鸣唱学习相对于听觉学习,是一个更少见的口语进化过程中的成分,它是一种模仿、运用声音的能力。目前为止,只在人类,鲸类,蝙蝠,大象以及鸣禽,鹦鹉和蜂鸟中发现。但与上述物种具有近亲缘关系的物种并没有鸣唱学习能力,这可能意味着这种特征是独立演化的。对于其他的成分,如句法,语义,也同样存在于动物中(这一点也存在极大的争议,一般极少的语言学家会认为动物拥有语义或者句法能力),但人类对语言运用更加高级。比如,黑头山雀会用句法简单的歌曲进行交配,见到捕食者的时候会发出警报,也可以用声音描绘捕食者体型的大小,但它们不会将简单的声音信号组合成更复杂的序列,使之具有不同的含义或者层级句法。本文的作者基于前脑的感觉运动皮层活动,提出了一种综合性的口语模型,这个理论由几种成分组成,某几个成分在大多数不同进化水平的脊椎动物中都有发现,而其中与物种特异性高度相关的鸣唱学习的因素只在少数物种中存在,最具代表性的就是人类(人类在所有成分能力都非常优越,并将其整合为了一种特质)。文中把口语(spoken language)和言语(speech)看作是等同的。离散性假设是指口语中的一些成分,有时候会表现出全有或全无的特质。但连续性假设认为差异往往体现在不同成分的发展程度的上,而不是成分的有或无。例如,在一些被认为没有声音学习能力的物种中发现了基本的声音可塑性和学习能力,包括老鼠和非人类灵长类动物。再比如,一些类人猿在教学后可以产生基本的手语:到30年代,美国的大猩猩Kaka可以学会超过1000种美国手语手势,并且能识别2000个左右的词汇。尽管对这些物种的研究被证明它们没有人类相当的语音,语法或语义学习能力,但它们并不是完全缺乏(即不是全无)。连续性假说可以很好的体现口语学习和鸣唱学习的多样性和复杂性。这种多样性的差异在解剖层面也有所体现。高级物种在口语/鸣唱学习中不仅可以自主控制口面部的发声器官(唇,舌,下颚),还可以控制喉部(人的器官),鸣管(鸣禽的器官)的运动。不同成分的连续性可以很好地解释为什么在很多物种里,听觉学习比口语/鸣唱学习更先习得,为什么在学习外语时接收声音比运用产生声音更容易。究竟什么样的解剖结构让鸣唱学习和口语学习如此特殊呢?生物学家和语言学家对此提出六种假设理论模型(图2)。该假设认为更大的脑子可以容纳更多言语以及发声/鸣唱学习的神经元。然而,大脑的大小和鸣唱学习没什么关联。蜂鸟用它小巧的脑子可以模仿出非常复杂的声音,黑猩猩却不能做到。人类的大脑是灵长类动物中最大的,但也只是等比例放大了体积。其他拥有发声学习能力的哺乳动物,如鲸类和大象,大脑更大,但身体也很大。 相比之下,两种可以鸣唱学习的鸟类,鸣禽和鹦鹉,前脑神经元密度是无法鸣唱学习鸟类的两倍。更高密度神经元的鸣唱学习鸟类和人脑可以为口语的通路和额外神经元提供了所需的空间,却又不会失去旧的回路,同时又保持了脑与人体的比例。该假设提出,人的气囊退化消失和喉头永久下降,鸣禽中固有的鸣管肌肉赋予他们有更多声音变化的能力(图2B)。但是,随后的研究发现,当没有鸣唱学习的动物抬起头并发声时,它们会降低其喉部。制作非人类的灵长类(狒狒)喉,可以产生人类喉部发出的大部分声音(图S3,A和B)。其他非人类哺乳动物(狮子,考拉等)已经独立进化出永久下降的喉头。气囊和下降的喉部更有可能促进较低的共振峰频率,从而使动物在声学上可以放大它的强度。在鸟类中,鸣管肌肉的复杂性与鸣唱学习无关(图S3C),但是复杂的声音肌肉组织可能会产生更多种固有声音,代偿前发声不足的问题。因此,发声器官的差异也不能解释鸟类和人类口语和鸣唱学习的多样性。
颜色表示大脑分区和发声器官。箭头指示神经解剖学连接;红色箭头:连续假设。(A)较大的脑容量和较高的神经元密度会影响鸣唱学习的脑回路。(D)直接或增强运动皮层-脑干发声运动神经元连接。(F)模块化(或者说分化)的语言模型。 A2,次级听觉皮层;Br,布洛卡区域;LM,语言模块;LMC,喉部运动皮层;RA,弓状皮质栎核; non-VL,非鸣唱学习者;VL,鸣唱学习者。该假设提出,只有人类和其他具备鸣唱学习能力的物种才具有控制歌曲和发声的前脑环路(图2C)。这三种学习歌曲的鸟类谱系共有七个核团,它们构成了用于学会鸣唱的后部鸣唱环路(图3A,黄色)和用于模仿声音的前发生环路(图3A,红色),这些环路在不具备鸣唱能力的物种中并没有发现(图3C)。人类具有类似功能的脑区,包括负责言语产生的背侧和腹侧喉部运动皮层(dLMC和vLMC),以及负责言语习得和高级语言功能的腹侧喉部前运动皮层和布洛卡区。(图3B)。不同的鸣禽核团可能和人类口语环路的不同皮层以及纹状体和丘脑的细胞类型相对应(图4)。歌曲和语音的特定环路的输入来自听觉、躯体感觉和其他环路,但迄今为止,在不具备鸣唱能力的物种中都发现了这些其他环路(图3),这可以解释为什么听觉学习在各物种间普遍存在。所以可以假设在人类脑区进行细致分化前,威尔尼克区及其涉及语音感知的网络普遍存在于脊椎动物谱系中。
在之前的连续假设中,有人提出非人类灵长类动物具有vLMC作为人类腹侧喉部皮层的起源(图3D)。但是,非人类灵长类动物产生鸣唱并不需要vLMC,它们可能已经存在于初级前运动皮层的初级腹侧喉部控制区(图3D)。在小鼠中,发现了初级腹侧喉部运动皮层,其连接性类似于人vLMC和鸣禽的弓状皮质栎核,(简称RA)(图3,A和B,以及图S4)。但是,与人类和鸣禽不同的是,小鼠喉部运动神经元嵌入控制和发声无关的运动区,不与鸣唱学习者共享特定的基因调控,这对于产生正常的发声不是必需的,但对于调节音高是似乎是必要的。鸟类中,在亚鸣禽(鸣禽的近亲)中发现了一种弓状皮质栎核,而在鹌鹑(鸣禽的远亲)中却未发现。这些现象支持鸣唱学习的连续性假设。
(D)非人类灵长类动物的人声环路。可比较的大脑区域和跨物种的连接使用相同的颜色,并投射在平滑的大脑表面图像上。
橙色区域和黑色实心箭头,后部发声运动环路。红色区域和白色箭头,前发声同路。虚线箭头,表示两个子路径之间的连接。红色箭头是鸣唱学习者从运动皮层到脑干发声运动神经元的专门直接投射。灰色区域,先天性声环路。蓝色区域,听觉区域。蓝色箭头,听觉输入至特异性言语学习和口语区域。皮层下的发声区域用虚线勾勒出轮廓。非人类灵长类动物(D)中的橙色和红色区域不那么透明,以表示基本的前脑发声的连续假设。
4.直接vs间接运动皮层-脑干发声运动神经元连接
该假设提出,鸣唱学习和口语发展的一个根本转变是从人LMC的第5层神经元和禽类RA神经元到脑干发声运动神经元的投射方式的转变,由间接投射到直接投射(图2D和图3中的红色箭头),这可以对人类发声和鸣禽的鸣唱进行精细的运动控制。在连续性假设中,与人类和学习歌曲的鸟类的密集投射(每个声音运动神经元最多可达上百个轴突)相比(图2D和图S4),小鼠喉部运动皮层的第5层神经元和亚鸣禽亚目有类似RA的区域是一种稀疏的直接投射(每个发声运动神经元有一到三个轴突)。这表明直接投射的神经元密度可能会影响鸣唱学习的程度。通过实验使小鼠在第5层神经元中表达更少的排斥轴突导向受体PlexinA1会导致小鼠的前肢运动神经元的直接投射更密集,前肢的灵活性更高。根据物种的不同,禽类RA核团也直接或间接投射到关节(例如喙,下巴,舌头)和呼吸运动神经元。 dLMC和vLMC之间的人类口面运动皮层(OMC)也被认为如此。舌部运动神经元的直接投射也存在于非人类灵长类动物中。这可以解释为什么有限的声音学习者拥有更多的自主控制权,因为产生和模仿声音更多使用舌头和嘴唇这样的发音器官而不是喉咙。该假设表明,次级听觉皮层(A2和威尔尼克区)和前运动皮层(preLMC和布洛卡区)之间的直接连接可以赋予人类学习,产生和感知语言所必需的听觉-声音运动整合能力(图2E和3,蓝色箭头)。一系列背侧环路可以控制言语的听觉-运动学习(到运动前皮层)和控制语言的层级语法(到布洛卡区),而腹侧环路可以控制词汇和语义方面的语言(图S5A)。但是,关于人类与非人类灵长类动物之间的连通性差异,一直存在着不同的观点。研究者发现小鼠在其LMC-M1 / M2区和A2相连,且连接密度很高(。在鸣禽中,类似于听觉发声运动整合的环路是将前脑听觉区域与前脑鸣唱学习的核团进行连接(图3A,蓝色箭头)。可能不同的鸣唱学习谱系可以发展出不同的听觉-发声运动融合的解决方法,或者听觉和前脑运动区之间的直接联系并不是仅仅存在于人类或其他可以习得鸣唱的物种里。如果对更大范围的物种进行分析应该能带来更为清晰的信息。该假设提出,只有人类拥有“内化”的语言脑回路,即一直被认作是语言模块化的脑区,主要为布洛卡区域,它用来处理诸如层级语法和单词合并之类的复杂算法。“外部化”大脑环路则是指通过听觉、言语或肢体在各个物种之间共享的成分,这些成分使人类能够使用口头,手语和书面语言(图2F)。主要的外化区域是LMC。据说鸣禽只有外化回路,没有层级语法、以及布洛卡区,但其他人却提出了,鸣禽的HVC结构或鼻前区前脑(MAN)的前庭神经外侧核团类似于布洛卡区。fMRI成像的研究结果表明,布洛卡区在语言任务中很活跃,而与形式无关,随着语法负载的增加,其活动也随之增加。在清醒的接受外科手术的患者中,对布洛卡区以及dLMC和vLMC中进行电刺激可抑制正在进行的言语和/或手部运动。但相同的LMC区域(布洛卡区还未被测试)的活动主要是在与言语相关的任务中增加。应该注意的是,大多数此类研究并未控制无声言语的产生。当我们默读时,即使没有声音产生,大部分用于言语产生和感知的脑区(包括布洛卡区)也表现出活动性增强,喉部肌肉活动也增强了。当我们听、读或写单词时,产生言语的脑区活动会增加,这与喉和其他发音器官的肌肉活动有关。在鸣禽中,电生理学和与活动有关的基因表达研究表明,相同的脑环路用于鸣曲(图3A,红色和橙色)。当鸟类鸣曲时(例如内在歌声),这些脑区和鸣管肌肉就会表现出正常鸣曲的神经放电模式。用于歌曲句法的“内化”环路没有从歌曲产生的“外部化”环路分离。歌曲学习的相关核团与非声音的运动区相邻。类比于人类就是:内化-外化框架的替代方法是:包括布洛卡在内的脑区可用于学习和产生言语。不涉及言语和听觉的环路,例如肢体和视觉,可以作为相邻的言语和听觉环路加工层级句法的算法。这可以解释为什么非人类灵长类动物具有更好的肢体表达能力却几乎没有任何口头表达能力。按照这种观点,口语和肢体语言分别与言语和手语相同。在言语和其他任务中,布洛卡区和其他脑区的神经生理记录吻合上述假设。综上所述,在具有模仿鸣曲和言语能力的物种中,最充足的证据包括:高密度的前脑神经元,可以容纳更多的言语大脑环路(假设1); 人类和其他鸣唱学习的物种具有增强的前脑鸣唱运动学习环路(假设3); 人类具有增强的前脑-脑干发声运动连接(假设4)。 如果找到其他假设的有力证据,他们将是假设1,3,4的补充,并不会替代他们。仍然存在的问题是,口语和鸣唱学习的趋同进化如何为复杂的行为建立相似的脑环路。鸟类和人类的口语学习和语音环路嵌入或相似的运动学习环路的发现,引出了鸣唱学习起源的运动理论。该理论认为,鸣唱学习和言语的脑环路是从所有物种的周围运动学习环路中独立发展出来的,因此具有很深的同源性。提出的机制是通过脑环路复制进行脑进化(图5)。在胚胎发育成支配各种肌肉群的脑干和脊髓运动神经元过程中,接受听觉输入的运动学习环路可以重复多次(图5B)。在鸣唱学习者中,外源重复环路(图5C)可以支配脑干发声运动神经元,然后作为鸣唱学习表型选择(图5D)。验证环路重复性假设可能需要用到神经干细胞发育谱系追踪的实验工具。
(A)在所有鸣唱的脊椎动物中发现的先天性脑干环路,此处显示为鸟类。(C)前脑运动学习外部的双重通路支配先天性脑干发声环路。(D)鸣禽中表征的声音学习环路,与(B)中的周围运动学习环路连接至(A)中的固有声音环路相似。对鸣唱学习起源的运动理论的一个预测是:鸣唱学习环路应与相邻的运动学习环路具有分子和功能上的相似性,但在某些神经连接的基因上却存在差异,例如那些控制向脑干运动神经元密集投射的基因。Jarvis通过对禽类和灵长类动物大脑中数千个基因的表达分析,从而验证了这一预测。基因表达结果支持禽类和哺乳动物皮层关系的核团-层数假说,其中RA具有类似于哺乳动物运动皮层第5层神经元的细胞类型,而HVC具有类似于第2层或第3层的细胞类型(图4)。比起听皮层,禽类鸣曲和人类口语脑区的基因表达更像运动区,并从周围区域转化,变得高度专一化。每个禽类和人类口语相关脑区约有50至70个基因(许多是神经连接的关键基因)显示出融合的特异性表达。
每个椭圆形是鸣禽鸣曲/声音或呼吸核。白色圆圈,兴奋性神经元;黑色圆圈,抑制性神经元;加号,兴奋性神经递质释放;减号,抑制性递质释放。 HVC-RA投射神经元在10ms的共火链中触发,其中RA转换这些序列以控制发声运动神经元和呼吸前运动神经元,以通过鸣管每10毫秒产生声音。下调的基因中有SLIT1轴突导向配体。 SLIT1与其受体ROBO1的相互作用阻止了轴突连接的形成。鸣禽RA和人类LMC第5层神经元中SLIT1的下调可能为其轴突产生宽松的环境,从而形成高水平ROBO1的脑干发声运动神经元的直接投射。第5皮层中PlexinA1的下调及其与前面提到的与前肢运动神经元连接的增强支持了这一理念。 ROBO1基因座中的突变与读写障碍和言语障碍有关。 FOXP2(直接调节SLIT1的转录因子)中的突变导致人类的音素序列语音缺陷,以及小鼠中类似但更基本的音节序列缺陷,这与局部LMC 5层神经元较少相关。在人类中,SLIT-ROBO鸟苷三磷酸酶2(SRGAP2)基因的部分基因重复序列编码充当全长SRGAP2竞争性抑制剂的蛋白,从而使突触保持较高的密度,并在成年后具有更大的可塑性(图S2C)。所有这些发现表明,不仅物种之间相同基因存在趋同变化,而且物种内同一遗传环路中不同基因的趋同变化都与鸣唱学习和口头语言的发展有关。脊椎动物的共同祖先利用脑干环路来产生先天性鸣唱,但鸣唱能力有限,例如伦巴第效应,伦巴第效应使动物在嘈杂的环境中提高鸣唱量或音高。在某些物种中,前脑运动学习环路复制并形成了对脑干鸣唱运动神经元具有较弱的直接投射的鸣唱运动学习环路。此后,该前脑鸣唱运动学习环路的神经元数量增加,导致前脑中神经元的密度增大,移出了运动学习环路,并获得了对脑干发声运动神经元的密集的直接投射。 最后,鸣唱学习环路复制了一次或多次,并进行了专门的基因调控和连接,从而形成了我们在鹦鹉和人类中发现的先进的鸣唱学习环路。基于进化的发现使我们能够在物种之间进行预测性转换。例如,鸣禽的HVC_RA神经元在共火链中(共火链的理解见:https://zhuanlan.zhihu.com/p/21360831)稀疏放电,时间分辨率为10毫秒,可以对音节内和音节之间的声音进行排序(图4)。 RA反过来将前脑信号转换为脑干的发声和呼吸神经元,以决定音节的声学结构。 HVC_X投射神经元将序列的预测连接至前脑环路的纹状体Area_X(图4)。如果人类的口语环路以类似的方式起作用,那么可以预测:人类LMC2-3层的神经元在共火链(如HVC)中发射到LMC5层的神经元(如RA),从而控制已定义的毫秒时间分辨率产生学习的音素和单词序列。在唱歌过程中,鸣禽的MAN神经元将可变的神经活动放入发声运动环路(至RA和HVC),纹状体中的Area_X调节或限制了这种变异性(图4)。同样,可以预测,运动前LMC或布洛卡区的2-3层运动神经元可能会同时影响dLMC和vLMC,从而在言语产生中增加声学上的变异性,而纹状体会调节该变异性(图3B和4)。鸣禽的预测可被扩展到人类分子和神经生理机制中。在鸣禽中,鸣唱学习环路的细胞在鸣曲后表现出不同的活动依赖性模式,上调或下调成千上百个基因,从而定义了不同细胞类型的功能。一些基因专门用于鸣唱学习通路。因此可以预测人类也可能会以细胞类型特定的方式在口语环路中受到歌曲和言语驱动的基因的调控(图3B和4)。神经生理学实验表明,当鸣禽鸣曲时,声音学习环路中的听觉反应会受到抑制。在人类和非人类的灵长类动物中,口语也会抑制听觉皮层。在小鼠中,听觉信息进入运动皮层(图S5,D至F),并且像在鸣禽鸣唱学习通路中一样,当小鼠移动时,其运动区域中的听觉信息也受到控制。这表明在鸣唱学习者鸣唱期间抑制听觉输入到鸣唱环路是从相邻运动环路继承的祖先特征。由于禽类和哺乳动物皮层组织,细胞类型和周围肌肉组织的差异,某些机制将不会共享。尽管存在这些差异,但此处概述的基本原理可以跨不同的系统进行转换。尽管歌声和发声通路在鸣唱学习的鸟类和人类中是具有特异性的,但大多数基因、神经联系和生理学与其相邻的大脑环路相似。本文主要对鸣唱学习和口语产生的机制从行为水平到分子水平进行了分析和梳理。作者认为,口语成分的性质是连续的,根据六种生物假说的合理性和局限性,部分验证了连续性假设。接着作者通过对基因分析,验证了鸣唱学习环路和周边运动学习皮层与相邻的运动学习通路具有分子和功能上的相似性,但鸣唱学习通路已经存在高度特异性表达。此外,鸣禽和人类两种细胞类型的相似性以及鸣唱和言语大脑区域有多个基因用于关键的神经连接,显示了基因的趋同进化。所以鸣禽鸣唱通路可以和人类口语学习环路建立联系,从进化角度可以预测人类口语学习环路。