• 精选
  • 会员

第8章 用舌头交谈

2020年7月21日  来源:语言的诞生:人类最伟大发明的故事 作者:[美]丹尼尔·L.埃弗里特 提供人:chenpo21......

……如果这部戏剧能让公众意识到存在语音学家这样一个群体,并且他们属于目前英国最重要的人物,那么它就达到了目的。

乔治·萧伯纳,《卖花女》前言

1964年,我读八年级,我所在学校的军乐队在南加州帝王谷的一次地方比赛中胜出。我吹的是上低音号,并且演奏得很有激情。我知道,赢得这场比赛后,我们就可以去洛杉矶参加更高级别的地区性比赛了。新比赛地点位于我们的霍尔特维尔(Holtville)小镇西北约210千米,靠近墨西哥边境。

我们的指挥想让乐队在洛杉矶地区接触一些更高级的文化,所以向学校董事会请求让我们观看莫扎特的歌剧《唐·乔万尼》。学校董事会拒绝了,因为这个歌剧对初中生来说太过淫秽了。不过,学校允许我们观看乐队指挥的第二选择——在好莱坞埃及剧院上演的《窈窕淑女》,由雷克斯·哈里森和奥黛丽·赫本主演。观看前,乐队指导老师向我们介绍了萧伯纳的戏剧《卖花女》,《窈窕淑女》就是由这部戏改编而来的。

这部电影最终对我决定成为一名语言学家起了推动作用。通过亨利·希金斯(Henry Higgins)和本来无意于训练自己谈吐的学生伊莉莎·杜利特尔(Eliza Doolittle)的故事,这部电影告诉人们,人类的言语具有变革性力量。这个叫作言语的东西,这个所有人都拥有,被萧伯纳看作人生成功关键的东西,到底是什么?汤姆·沃尔夫(Tom Wolfe)在《言语的王国》(The Kingdom of Speech)中声称,言语是世界历史上最重要的发明。它不仅能使我们相互交谈,而且能让我们以此为根据立即分辨出人们的经济阶层、年龄和受教育程度。如果直立人生活在今天,人们会因为它们说话的方式而认为它们是野蛮人吗,即使有人把它们打扮得像个古怪的现代人?

虽然交流自古就有,但人类言语是不久前才进化出来的。认知科学家、语言学家菲利普·利伯曼声称,现代智人的发音器官只有大约5万年的历史,这个时间距离我们非常近,甚至早期智人也无法像我们今天这样说话。不过,不要把这与其他作者提出的语言于5万年前出现的观点相混淆。言语产生于语言之后。因此,如果利伯曼的说法是正确的,那么这将会驳倒语言于5万年前突然出现的观点。如果直立人确实发明了象征符号,并开启了由象征符号发展到语言的演化进程,那么晚些时候就会出现更高级的形式——言语。人们认为最早的语言逊于我们现在的语言。没有哪个发明一开始就是完美的。随着时间的推移,人类所有的发明都被改进得越来越好。然而,这并不意味着直立人讲的是一种低等的语言,而是说,由于生理原因,它们缺乏完全现代化的言语,而且它们的信息流动速度较慢——它们谈话不像我们一样频繁,似乎也没有足够智力像现代人一样迅速地处理和产生信息。直立人的生理缺陷为逐步的生物进化所克服。文化进步导致了信息处理的发展和语法能力的提高。6万多代人类的生物上和文化上的演变极大地提高了我们的语言能力。

在2016年美国科学促进会(American Association for the Advancement of Science)发表的一篇论文中,特库姆塞·费奇和其同事们认为利伯曼关于人类声道进化的观点是错误的。他们表示发音器官的历史要长于利伯曼提出的5万年——事实上,人们甚至在猕猴身上发现了发音器官。尽管费奇和其同事们的研究很有趣,但是有两个原因可以解释为什么它在理解语言进化方面不是特别有用。首先,猕猴产生和人类相似的极端舌头位置的大部分情况,都出现于猕猴打哈欠的时候。费奇和其合著者的假设似乎是,如果他们能让猕猴把舌头放在合适的位置,在打哈欠的同时发出特定的人类元音,如果猕猴会说话的话,就能重复这个发音。然而,这个假设令人生疑,因为打哈欠并不像发一个后元音(与打哈欠时的舌头形状类似)那么容易,舌头会以一种费力的方式缩回。而且令人怀疑的是,语音是否会从打哈欠时特定形状的声道中产生。这项研究的另一个问题是作者将猕猴的语音与档案中的人类语音进行比较。但是作者应该用他们在猕猴身上使用的相同方法重新测试人类语音属性,以便更加公平地比较二者。最后也是最重要的一点是,语言并不一定像我们想象中的那样,十分需要言语。语言可以是口哨、哼唱,或只用一个元音,附带一个辅音甚至不用辅音。文化和人脑的融合,馈赠了人类语言。我们的现代言语是一种不错的功能附加品。

从表面上看,人类的言语很简单。元音和辅音的发音原理类似于用单簧管吹出音符。两者的根源都是基础物理学。空气从肺部向上流入口腔,当它通过单簧管或人类发音器官的管道时会发生变化。在单簧管中,气流通过音键和簧片来改变,这样它就能发出本尼·古德曼(Benny Goodman)发出的美妙声音,或初学者发出的吱吱嘎嘎的声音。在到达口腔之前,气流通过喉部、舌头、牙齿,经过位于喉部上方的咽部、鼻子和嘴中各种各样的形状和不同形式的运动,转化为语音。

但言语比单纯的风管效应更为复杂。这是因为人类的言语管道是由复杂的呼吸系统控制的,而这个系统又是由更为复杂的人脑所控制的。言语的产生需要精确控制一百多块肌肉,包括喉部肌肉、呼吸肌肉、横膈膜和肋骨之间的肌肉(肋间肌肉)以及嘴部和脸部的肌肉(口面肌肉)。在发出言语的过程中,所有这些部位的肌肉运动达到了令人难以置信的复杂程度。做出这些动作的能力需要进化来改变大脑的结构和人类呼吸器官的生理机能。不过这些后续的顺应都不需要语言。它们都只是将言语表达为我们今天所知的语言传输的高效形式。尽管如此,女性直立人不可能扮演伊莉莎,其外表永远欺骗不了任何人。

进化需要为人类的言语能力提供三个基本部分,以使我们能够像现代人一样说话和唱歌。其一是下呼吸道,包括肺、心脏、隔肌和肋间肌;其二是上呼吸道,包括喉部、喉咽部、鼻咽部、口咽部、舌头、硬腭、上颌、嘴唇、牙齿;最后还有目前为止提到的最重要的人脑。

普通人每分钟可以说出135~185个单词。其中有两方面让人印象深刻。首先,令人惊讶的是,人类可以这么快地说话,并将其视作正常情况。第二,几乎不可思议的是,人们能听懂如此快速的言语。但是,当然,人类健康的时候,可以毫不费力地快速产生和感知言语。言语产生(讲话或打手势)和言语感知(听到并理解)是言语的两个方面。要想掌握言语的产生和感知是如何进化的,一个人不仅要知道上呼吸道和下呼吸道是如何进化的,还要知道人脑是如何又好又快地控制言语的物理成分的。

要讲述言语的故事,我们需要审视一下发音器官和各种各样的人属物种的言语能力的证据。很重要的一点是要清楚地了解声音是如何发出的,声音是如何被感知的,以及人脑是如何处理这些事情的。但在此之前,了解当今人类言语的状态至关重要。现代人如何使用言语?知道了这种问题的答案,就有可能判断出其他人属物种的言语相对于智人的言语来说效果如何,以及它们是否真的有发出言语的能力。

言语是从嘴巴里发出来的,通过空气传播,进入听者的耳朵,并由人脑来解释。在言语的发出、传播和理解的三个步骤中,每一个步骤都拥有一个语音学(声音科学)的完整子领域:声音的发出属于“发音语音学”,声音通过空气传播属于“声学语音学”,对声音的接受和解释属于“听觉语音学”。但是我们也会遇到按照其他功能分类的子领域名称。关于言语感知和言语产生的物理学和力学方面的研究也有一些,这些不同的研究通常被统一归类为“实验语音学”。要理解言语的演变并不需要了解所有这些,但稍微了解一下就会有所帮助。

喉部对于理解人属物种的语言至关重要,因为它不仅使人类能够发出言语的声音,而且还能够用语调和音高来表示言语的哪一方面是新内容,哪一部分是提到过的内容,特别重要的是,帮助人们理解对方是在问问题还是在做陈述。喉部是控制来自肺部的气流以产生发音,汇合能量、肌肉和气流以产生人类言语的地方。

喉是一个位于气管顶部的小变换器(transducer),其顶部被称为会厌,可以闭合,防止食物或液体通过喉部进入肺部(这种情况可能会造成巨大的伤害)。图8-1显示了其复杂性。

所有言语进化的研究者都同意一个观点,那就是我们的言语产生是随着我们的言语感知一起进化的。或者,正如克雷林在其开创性著作中所说,“广播带宽和知觉敏锐度调谐之间往往存在精确匹配”,以及“拥有清晰的言语意味着言语产生和言语感知是相互协调的,因此携带大量言语信息的参数在产生和感知中都得到了优化”。换句话说,耳朵和嘴巴在一起配合得很好,因为它们已经一起进化了几百万年。

图8-1:喉部

言语始于气流,气流从嘴里进入或呼出时,就能发出人类的声音。前者被称为“内吸音”(ingressive),而后者则是“外挤音”(egressive)。在正常言语中,英语和其他欧洲语言只使用外挤音。在这些比较常用的语言中,“内吸音”是很少见的,通常只在感叹词中出现,比如在发出“huh”时,空气被吸入。发音时,气流开始运动的地方被称为“引发器”(initiator)。在所有英语语音中,肺部都是引发器。所以有人说所有英语语音都是肺音。但是,世界上许多语言还使用另外两种主要的气流引发器:声门(喉部的开口处,用于声门音)和舌头(用于舌音)。英语中没有此类语音。

引用我《语言:文化工具》一书中的话:

在泽塔语(Tzeltal)、乔尔语(Ch’ol)和其他语言中,所谓的“声门”音——内爆音(implosives)和挤喉音(ejectives)——很常见。

我在20世纪70年代中期开始语言学生涯时,在墨西哥恰帕斯州的泽塔群岛生活了几个月。我最喜欢的一个短语是c’uxc’ajc’al(外面很热),它包含了三个声门辅音(在泽塔语拼字法中以撇号表示)。为了发出这些声音,声门,也就是喉部两条声带之间的空隙,必须关闭,切断来自肺部的空气。如果在肺部或舌头切断从口腔流出的空气时,整个喉部也被迫向上移动,则会产生压力。当舌头或嘴唇将空气从口中释放出来时,就会发出类似爆炸的声音。泽塔语中这种类型的声音被称为“挤喉音”。我们也可以产生与“挤喉音”相反的声音,也就是所谓的“内爆音”。要发出“内爆音”,喉部要向下而不是向上移动,但是其他的步骤都和“挤喉音”相同。喉部向下运动将产生内爆音——由空气突然冲进口腔造成。在英语中没有类似的发音。

我记得有好几天我不断练习“外爆音”和“挤喉音”,因为和我一起共事的泽塔人经常使用这两种语音。这些语音很有趣——不仅有趣,而且将人类语音的范围扩展到了欧洲语言中严格由肺发出的语音之外。

声门可以用来以其他方式修饰声音。再次引用我的书《语言:文化工具》中的话:

另一种值得一提的声门音几乎会关闭但不完全关闭声门,并使肺中的气流几乎不流出。语言学家称之为“紧喉嗓音”(creaky voice)。早晨起床后,人们经常不由自主地发出紧喉嗓音,尤其是当他们的声带因喊叫、饮酒或吸烟而拉紧时。但在某些语言中,紧喉嗓音起到了普通元音的功能。

还有一些被称为搭嘴音(clicks)的声门音。它们是用舌头阻止空气流入或流出口腔,使得压力在声门后积聚而产生的。与肺音和声门音一样,舌音也可能是外挤音或内吸音,其产生方式是用舌尖关闭气流,同时用舌头后部向内或向外施加压力。我们可以在一小部分语言中找到搭嘴音,它们都在非洲,而且几乎都是班图语支(Bantu)的语言。我记得第一次听到搭嘴音是在米丽娅姆·马凯巴(Miriam Makeba)的“搭嘴歌”(click song)中。马凯巴的母语是科萨语(Xhosa)——班图语的一种。

图8-2所示的国际音标表(IPA)给出了所有使用肺部气流发出的辅音列表。

辅音与元音有几个方面的不同。与元音不同的是,辅音会阻碍(而不仅仅是塑造)从口中流出的气流。国际音标表被所有科学家公认为表示人类语音的方法。图表的各列是发音“方式”。这些方式包括使空气从鼻子流出,产生像[m]、[n]和[?]这样的鼻音。另一些方式是“塞音”或“爆破音”(气流通过口腔时被完全阻断),如[d]、[t]、[k]或[g]。还有“擦音”,即气流没有完全被阻断,但它受到的阻碍足以引起摩擦音、搅扰音或嘶音,如[s]、[f]和[h]。

国际音标表中的各行表示发音部位。从左至右,发音部位从嘴的前部渐渐过渡到从喉咙的后部发出的声音。[m]和[b]是“双唇音”。它们是通过在唇部阻止气流而发出的,上唇和下唇碰在一起完全阻挡了气流。声音[f]的发音位置稍微靠后一点。它是由下唇接触上颌牙齿产生的,只是部分阻碍而不是完全阻碍气流。接下来是[n]、[t]和[d]的发音,在这些发音中,舌头要么挡住了牙齿后面的气流(如西班牙语),要么堵住了牙齿后面不远的硬腭(口的顶部)上的牙槽嵴(如英语)。

我们最终到达了口腔的后部,舌头的后部抬起,以阻断来自软腭的空气,发出[k]和[g]的声音。在有些语言中,更后面的地方也可以是发音部位。阿拉伯语就以其咽音闻名,这种声音通过收缩会厌或将舌头缩回咽部而发出。会厌是一块有弹性的软骨,向下可覆盖喉部顶部的小孔,以防食物或液体进入。嘴里塞满食物的人不应该说话,因为如果会厌没有准备好,这可能是致命的。人类(除了婴儿)是唯一不能同时进食和发音的生物。

图8-2:国际音标图

国际音标表中至关重要的是,其中列出的音段几乎完全覆盖了世界上所有地方人类语言的所有语音。其中的语音元素对于人类来说都很容易发出(至少经过一点练习后都可以发出)。但是基底神经节十分依赖于习惯,所以一旦我们掌握了我们的母语音素,就很难让神经节跳出其窠臼去学习其他语言的发音习惯。

但是辅音无法构成言语。人类还需要元音。举个例子,我的英语方言,南加州的元音,如图8-3所示。

就像辅音表一样,图8-3中的元音表是“象似性的”。元音表中的列代表了发音部位,由嘴巴前部逐渐过渡到后部。元音表中的行表示舌头在发出元音时的相对高度。梯形形状再次以一种象似性方式表明,随着舌头的下降,元音的口腔空间会渐渐缩小。

加州元音,就像所有元音一样,发自舌头上升或下降到口腔特定区域的目标区域。与此同时,当舌头移动到目标区域以升高或降低,舌头肌肉也会相应地收紧或放松。嘴唇可以是圆形或扁平的。紧元音[i]是“beet”这个词中的元音,而松元音[?]则是“bit”中的元音。换句话说,“beet”和“bit”的唯一不同之处就是发“beet”音时,舌头肌肉紧张,而发“bit”音时,舌头肌肉是放松的。许多语言学家喜欢用另一种方式称呼松元音与紧元音,即“舌根前伸”(舌头因在口中前伸和弯曲而绷紧)和“非舌根前伸”(舌头放松,舌根回到口的后部),通常在语言学文献中被写为[+ATR]或[-ATR]。

图8-3:南加州英语元音

样子很有趣的元音字符[]是我的方言“cat”中的元音。它是低前元音和非圆唇元音。但是按照图表最上方、最靠后的位置发音,就会听到[u]的声音,也就是单词“boot”中的元音。这是一个后元音,圆唇元音。“后”意味着舌头的后部被抬起,而不是像发出元音[i]时那样前部(前舌或舌尖)被抬起。发[u]音时,嘴唇呈“O”形。任何元音都可以用圆唇发出。因此,要发法语元音[y],就要发英语元音[i],同时嘴唇要成圆形。

问题的关键在于,所有人类语言可用的各种语音在概念上都很容易理解。难的不是如何分类甚至分析它们,而是如何发出它们。人类可以在年轻时学会他们想发出的所有声音,因为他们的基底神经节并不是一成不变的。但随着年龄的增长,神经节要建立新联系就有挑战性了。

1976年,我在俄克拉何马大学修习发音语音学的第一门课程(为了学习如何发出世界上所有语言的所有语音)时,这门课的助教对每个学生进行了单独的面试,以便根据语音“天赋”(或感知能力)将他们分组。我走进教室参加面试,老师让我做的第一件事就是说“Hello”(你好),但方式必须是把空气吸进肺里,而不是把空气排出去。“好奇怪。”我想,但我做到了。然后我被要求用声门挤喉音模仿玛雅语言的一些单词。这是一种“爆裂声”,空气从口腔中出来,但从肺部上方发出,通过将声带合在一起而形成压力,然后让声带后面的空气“喷射”出口腔。我试着模仿非洲搭嘴音。我知道,这门课对我来说很有价值,因为我正准备去亚马孙进行实地研究,研究一门外界仍知之甚少的语言——皮拉罕语。

同样,世界上的每一种语言,从亚美尼亚语(Armenian)到扎波特语(Zapotec),都使用同样的发音动作和语音。原因是人类的听觉系统与人类的发音系统共同进化,也就是说,人类学会了用听觉敏锐地捕捉他们能发出的声音。当然,总会有异常情况,并且还有可能会有意想不到的新发现。事实上,这些年来,我个人在亚马孙地区发现了世界上其他语言中没有的两种语音,一种属于查帕库兰语(Chapakuran),另一种属于皮拉罕语。

田野研究的语言学家需要学习人们可以发出什么样的语音以及在言语中使用什么样的语音,因为她或他必须准备好一到达目的地就马上开始工作。他们必须知道他们所听到的是什么,才能开始分析与其生活在一起的人们的言语和语言。

这个简短的介绍只涵盖了三分之一的语音学,即发音语音学的部分内容。但是一旦从口腔中发出之后,语音会变成什么?人们如何区分它们?听者通常无法总能看到与他们交谈的人的嘴巴,那么他们如何判断对方发出的是[p]还是[t],是[i]还是[a]?

这属于声学语音学的领域。关于声音感知的一个直接问题是,为什么人们说话的时候,如果空气是从嘴里出来的,听话人只会听到辅音和元音,而听不到空气冲出口腔的声音?首先,喉部会通过声带的振动或喉部其他部分的振动来激荡空气。这会将声音的频率改变至人类可察觉的范围内,因为进化已经使这些频率与人类的耳朵相适应。其次,从口中冲出的空气的声音已经被进化调节了,低于人类听觉系统能够轻易探测到的正常频率范围。这是件好事。否则,人们讲话会像是在喘息,而不是在说话。

由喉部发出的气流激荡被称为发音,它为每一个声音产生被称为“基本频率”(简称“基频”)的声音。基本频率是发音过程中声带振动的频率,它取决于喉部的大小、形状和体积(脂肪)。个头小的人通常声音更高,也就是说,比个头大的人有更高的基本频率。与儿童相比,成年人的声音更低,基本频率更低,男性的声音低于女性,高个子的声音通常比矮个子的低沉。

基本频率,通常写成F0,是人们得以识别谁在和他们交谈的方式之一。我们会逐渐习惯别人的频率范围。人们唱歌以及控制声调语言中音节的相对音高,都是通过声带振动频率的变化来进行的。比如在汉语普通话或皮拉罕语中,音节的声调与辅音、元音一样,对于单词的意义至关重要。这种控制频率的能力对于产生和感知整个短语和句子的相对音高(被称为语调)也很重要。某些语言用口哨吹出来也是F0,要么利用音节的相对音高要么利用个别语音的固有频率。

然而,大家都明白,F0并不是全部。除了基本频率之外,每个语音发出时会产生与之唯一相关的谐振频率或共振峰。这些共振峰使我们能够区分母语的不同辅音和元音。例如,人们不是直接听到音节[dad]。我们听到的是共振峰和语音发出时共振峰的变化。

通过敲击产生“E”音的音叉,并将其置于木吉他表面靠近音孔处,我们就可以观察到共振峰。与音叉相同八度的E弦就会振动或与音叉的振动产生共鸣。所有语音不同的谐振或共振峰都会产生共鸣。这些共振峰可以在声谱图中看到,每个共振峰都位于声音基频的特定倍数处(图8-4)。

在四个元音的这张谱图中,图的底部是基本频率,黑色谱带按列排布。每个谱带与谱图左侧的频率相对应,它们是相关元音的谐振或共振峰。从底部左边到右边,测量的是发出一个语音的时长。谱带的暗度表示所产生声音的相对响度。共振峰是所有语音的“指纹”。人类的耳朵已经进化到只听这些声音,挑选出反映我们声带物理结构的共振峰。共振峰由低到高的简称为F1、F2、F3等。它们受诸如舌头的形状、嘴唇的圆平度和发音的其他方面的共振器的影响。

图8-4:元音谱图

元音的共振峰频率见于声谱图中,以赫兹(Hz)为单位。令人惊奇的不仅是我们听到了语音之间的频率差别,而且是我们这么做了而不自知,即使我们如此准确地产生和感知到这些共振峰。正是这种隐性知识常常使语言学家认为这些能力是天生的,而不是后天习得的。当然有些方面是天生的。由于自然选择,人的嘴巴和耳朵是相配的。

关于生理上我们的耳朵和大脑是如何解释语音的,我们知之甚少,因此无法在听觉语音学(听觉的生理学)领域做出详细的讨论。但语音的声学和发音足以引发大家来讨论这些能力是如何进化出来的。

如果说语言先于言语出现是正确的,那么我们就可以认为直立人虽然发明了符号并创造出了G1语言,但它们仍然不具备顶级的人类言语能力。确实如此。它们的喉部更像猿而不那么像人。事实上,尼安德特人有相对现代的喉部,但直立人却远远比不上。

直立人和智人发音器官的主要区别在于舌骨和人属出现以前的退化器官,如喉部中央的气囊。特库姆塞·费奇是第一批指出气囊与人类发音有关的生物学家之一。气囊使直立人发出的许多声音比智人的模糊。直立人有气囊的证据是由于人们幸运地发现了直立人的舌骨化石。舌骨位于喉部上方,通过组织和肌肉连接将喉部固定。通过收缩和放松连接喉部和舌骨的肌肉,人类能够提高和降低喉部,改变F0和言语的其他方面。另一方面,在所有晚于直立人的化石中,都没有固定舌骨的地方。而这些并不是唯一的区别。直立人和智人的发音器官如此不同,以至于克雷林总结道:“我判断直立人的声道基本上是类似猿猴的。”或者,正如另一些人所说:

作者描述了一具没有角的舌骨标本,该化石属于意大利罗马圭多堡(Castel di Guido)的直立人,距今约40万年。该舌骨表现出人属的棒状形态特征,与非洲的猿类和南方古猿的球状形态不同。该舌骨的测量数据不同于其他灭绝的人类物种和早期人科动物(凯巴拉尼安德特人和阿法南方古猿)的唯一完整标本,也不同于从现代人身上观测到的平均值。直立人的舌骨腹侧表面几乎完全没有肌肉印痕,这表明抬高舌骨和调节声道长度的能力较差。盾状外形、可能较小的大角尺寸和放射图像似乎表明该舌骨非常古老,也揭示了一些与非人类和前人属的相似之处。这些都表明人类语言的形态学基础并没有在直立人中出现。

因此,直立人不可能像现代人一样,在言语感知或产生中,能够清楚地辨别出相同范围的语音,从而产生出同样种类或质量的言语。但这并不意味着直立人无法使用语言。直立人有足够的记忆来记住大量的象征符号,至少可以记住上千个——毕竟,狗都可以记住数百个——并且能够在利用环境和文化知识的情况下,消除因直立人发音能力较弱而产生的共振峰不够导致的明显符号歧义。然而,可以预料的是,对语言的新依赖将会产生鲍德温效应,自然选择将会偏爱那些拥有更强的言语产生能力和感知能力的人属后代,无论这些能力来自发音器官还是来自人脑的各个控制中心。最终,人类言语从直立人的低质量言语变成了现在的高保真言语。

一种语言需要多少辅音、元音、语调和手势,才能确保它有足够的“载运量”以表达它想要表达的所有意思?语言可以从很多方面来思考。看待语言的一种方式,是以能让听者理解说话人的办法将意义和形式及知识相匹配。

如果可以肯定地知道直立人和尼安德特人不能发出解剖学意义上的现代人的所有语音,这是否意味着它们不可能拥有像现代人那样丰富的语言?这很难说。几乎可以肯定的是,与智人之前的人族物种和直立人相比,智人更擅长说话。作为现代言语装备的自豪拥有者,我们有无数的好处和优势,可以使言语更易于理解。但是,对于言语或语言来说,智人的增强版声道是没有必要的。拥有它只是锦上添花而已,就像拥有一辆漂亮的旅行拖车和一辆马力十足的四驱皮卡车,而不是由两匹骡子拉着的顶篷马车。

事实上,计算机表明一种语言只需要0和1两个象征符号就可以很好地运作。所有的计算机都通过这两个象征符号进行通信,打开电流记为1,关闭电流记为0。世界有史以来所有的小说、专著、博士论文、情书等都可以翻译成0和1的序列,但这有许多不足之处,如缺乏手势、语调和突出句子重点部分的信息。所以,如果直立人能或多或少一致地发出一些声音,它们就能参与到语言游戏中,和智人比肩。这就是为什么语言学家认为语言不同于言语。智人很可能说话更清楚,语音更容易被识别。但再强调一遍,这仅仅意味着直立人开的是老福特T型车,而智人开的是特斯拉。但是福特T型车和特斯拉都是汽车,前者不是“原型车”。

尽管很难从化石记录中重建,但人类的声道就像人脑一样,也是在早期的人科动物演变为现代智人的过程中迅速进化出来的。但是为了讲述这部分故事,我们有必要先做些铺垫,谈谈现代人在其语言中使用的声音。这是进化的终点,也是关于现代人类语音的所有讨论的起点。

隐藏在所有语言学研究表面之下的进化问题是:“人类是如何产生在当今世界语言中发现的各种声音的?”然后是:“这些声音是什么?”

人类发音器官使用的所有语音都是由相同成分组成的。

任何语言的任何语音的技术性描述都会介绍某一语音是如何发音的。辅音[p]被解释为:“清辅音,双唇塞音(也叫‘爆破音’),伴有肺部气流外呼。”这个对语音的描述很长,但很有帮助,意思是说,用一个例子来讲,“spa”这个词里的[p]音,是通过放松声带使其免于振动来发音的。因此这种声音是“清音”。([b]的发音方式和[p]完全一样,只是发[b]时声带是绷紧和振动的,所以[b]是“浊音”。)“肺部气流外呼”这个短语的意思是空气从嘴巴、鼻子或同时从两者流出,且气流起源于肺部。这需要说明一下,是因为并非所有的语音都使用肺部气流。“塞音”或“爆破音”意味着气流完全被阻塞,尽管是暂时的。“双唇音”指的是上下嘴唇碰在一起。“双唇音”与“塞音”连用,意思是气流完全被嘴唇堵塞。如果在发出假想的单词[apa]中的音时,轻轻将食指放在“亚当的苹果”(实际上是你的喉部)上,可以感觉到声带从第一个[a]开始振动到第一个[p]停止,然后在第二个[a]上再次开始振动;但是,如果发出假想词[aba]的音,声带将在发出[a]、[b]和[a]中的每一个音时都保持振动,声带振动会贯穿整个词的发音过程。

虽然世界上7 000多种语言中有数百种声音,但它们都是按照这些程序命名和发出的。更重要的是,这几个简单的程序,利用身体上独立于语言进化的部分——牙齿、舌头、喉部、肺和鼻腔——就足以说出地球上任何语言都能说出的话。这非常刺激。

当然,人类可以完全避开言语,用手语或书面语言进行交流。人类的交流方式,无论是写作、手语还是口语,都会动用“听觉——口头”和“视觉——手头”这两种不同的交流渠道中的一种或两种。在现代人类语言中,这两个渠道自始至终都参与其中。这在人类语言中是必不可少的,人类的每一种表达都是手势、语法和意义的结合体。当然,还有其他方式来表达语言。人类可以使用彩色旗帜、烟雾信号、莫尔斯电码、打字信件、鸡内脏和其他视觉手段进行交流。但是,有趣的是,没有人认为有可能找到一个只用书面语或烟雾信号进行交流的群落,除非他们有某种共同的身体缺陷,或者都与有某些身体缺陷的人一起生活。

有个问题值得一提:人类的言语是有其特殊之处,还是仅仅是由易于制造的噪声组成的?其他噪声是否也适用于人类言语?

正如菲利普·利伯曼所指出的,代替人类语音的一种选择是莫尔斯电码。莫尔斯电码操作员可以达到的最快打字速度大约为每分钟50个单词,也就是大约每分钟250个字母。然而,工作速度如此之快的操作员需要频繁地休息,而且几乎不记得他们转录了什么。但是一个宿醉的大学生很容易就能听懂每分钟150词的演讲!我们能够以大约每秒25个语音的速度发出声音。

言语也通过将我们发出的语音结构化来运作。语流中的主要结构是音节。音节被用来将音素编组,其所遵循的模式对世界各地的语言来说都是高度特定的。最常见的是C(辅音)+V(元音)这种模式,以及C + C + V;C + V + C;C + C + C + V + C + C + C等等(元音两边各有三个辅音,是世界各种语言中可观察到的最大音节上限)。英语给出了一个复杂音节结构的例子,比如单词strength,s-t-r-e-n-g-th,它呈现了C + C + C + V + C + C + C模式(其中“th”代表单个发音)。但我觉得有趣的是,迄今为止,在大多数语言中,C +V要么是仅有的音节,要么是最常见的音节。借助音节的组织和助记手段,以及我们的神经进化加上我们的偶然性判断——基于对母语的大量接触,相比于其他语音,我们能够更快地解析我们母语的语音和单词。

假如你想说,“Piss off,mate!”(滚开,伙计!),你怎样才能把这些声音从你的嘴里传到别人耳朵里去呢?就实际说出的口语单词而不是用英文字母写下的书面单词而言,这三个词中有三个音节、五个辅音和三个元音。从专业角度讲,它们分别是[ph]、[I]、[s]、[?]、[f]、[m]、[ei]和[t]。三个音节分别是[phIs]、[f]和[meit],因此,这串侮辱性字眼的每个单词都是一个音节,这在英语中属于不常见的情况。

从手语中,我们也可以获悉很多关于神经认知——大脑平台的知识。以手语为母语的人可以像说话者使用发音器官一样快速有效地交流。所以我们的大脑并没有与语音联系得过于紧密,以至于无法使用所有其他言语的其他形式和渠道。似乎每个人不太可能通过进化拥有独立的神经元网络,一个用于手语,另一个用于口语。简单的处理方式是做这样一个假设:我们的大脑能够处理不同形式的信号,其中我们的手和嘴发出的是最容易处理的信号。顺便说一下,手语也显示了类似音节的手势组的证据,所以我们知道我们倾向于这样的分组,因为我们的大脑很快就会把音节分组作为更好的处理部分符号的方式。然而,不管其他方式如何,声音言语仍然是绝大多数人的专用渠道。这很有趣,因为在这个事实中,我们确实看到了进化为言语而改变人类生理构造的证据。

人类婴儿最初发出语音的方式和其他灵长类动物一样。儿童喉部上方的声道结构(喉上声道,SVT)与黑猩猩对应的声道结构非常相似。人类新生儿呼吸时,喉部会上升,锁住通向鼻子的通道(鼻咽通道)。这封住了气管,防止了母乳或新生儿口中的其他东西流入其中。这样,人类婴儿就可以像黑猩猩一样一边进食一边呼吸,而不会呛到。

成人失去了这个优势。随着身体发育成熟,其声道会拉长。他们的嘴巴会变短,而咽部(紧靠嘴后,位于喉部、气管和食道上方)会变得更长。因此,成人的喉部相对于嘴的高度没有那么高,所以会有食物或液体落进去。如前所述,如果这些东西进入我们的气管,人就可能会窒息而亡。因此,有必要仔细协调舌头、喉部、一个称为会厌的小片和食道括约肌(我们食道中的圆形肌肉),以避免在进食时窒息。人们会注意避免在嘴里塞满食物时说话。一边交谈一边进食可能会导致死亡或严重不适。人类似乎失去了黑猩猩和新生儿的优势。

但这不全是坏消息。尽管人类发音器官的变化过于庞杂,且涉及较多专业内容,难以在此讨论,但这些发展的最终结果使我们能够比直立人更清晰地讲话。这是因为我们可以发出更多的语音,尤其是元音,比如在世界上所有语言中都存在的超级元音“i”、“a”和“u”。这些是最容易感知的元音。我们是唯一能完美发出这些音的物种。此外,元音“i”特别有趣。它能使听话人判断说话人的声道长度,从而确定说话人的相对身高和性别,进而为听声辨人提供了可能。

这种发音器官的进化发展为发出语音提供了更多的选择,而语音的产生是从肺部开始的。人类的肺对于发音器官,就像一瓶氦气对于狂欢节气球的作用一样。嘴巴就像气球。气流被释放时,可以通过放松气球、扩大或缩小放出空气的孔、间歇性地切断空气,甚至在空气被排出时“抖动”气球来控制空气声音的音调。

但是如果说人类的嘴巴和鼻子像气球一样,那么和气球相比,它们还有更多的活动部件、更多的曲折和空气通过的腔室。所以人们可以发出比气球更多的语音。而且由于人耳及其内部运作机制与人类发音系统是共同演化的,因此它们进化到能够发出并敏锐地感知一小组语音也就不足为奇了。

根据进化研究,所有陆生动物的喉部都是从同一个来源演化而来的——古代鱼类的肺瓣膜,尤其是非洲肺鱼、澳洲肺鱼和美洲肺鱼的肺瓣膜。正如我们所知,鱼可以发出语音。这种古老的鱼的瓣膜上的两条裂缝起到了防止水进入鱼肺的作用。在这个简单的肌肉机制中,进化为其增加了软骨,并进行了一些修补,使其可以进行哺乳动物的呼吸和发音。因此我们最后进化而成的声带实际上是一组复杂的肌肉。法国研究员安托万·费朗(Antoine Ferrein)把发音器官当成了一种乐器,首次将其称为“琴弦”(cordes)。

真正复杂的是这个装置的控制系统。人类不会用手来演奏他们的发音器官。人们用大脑控制着数百块肌肉的每一次运动,从横膈膜到舌头,再到鼻咽通道的开口。几千年来,发音器官的形状发生了变化,产生了更多可识别的言语,更有效地匹配了说话人大脑中语言的细微差别,所以大脑进化出了神经连接来控制发音器官。

人类必须具备有效控制呼吸的能力,才可以发出言语。呼吸包含吸气和呼气,而发音几乎完全是呼气过程。这需要控制气流,调节来自肺部并通过声带的气压。发音能力要求人们即使在“平静呼吸”(空气不是通过正常的肌肉动作以呼气的形式排出肺部,而是被动地从肺中渗出)之后仍能持续发出言语。这种控制使人们能够用长句说话,随之产生的不仅是单个语音(如元音和辅音),而且还包括句段或短语的音调和响度以及持续时间。

很明显,大脑与发音有着紧密的联系,因为对大脑某部分进行电刺激可以产生发音运动和一些发音的情况(尤其是元音)。其他灵长类动物的大脑反应则不同。对其他灵长类动物的与布罗德曼44区相对应的区域进行刺激,会使其面部、舌头和声带产生运动,但不会像人类一样发音。

显而易见,黑猩猩是不会说话的。但这并不像有些人说的那样是因为其声道。黑猩猩的声道肯定能发出足够多、足够清晰的声音来支持某种语言。黑猩猩不会说话,是因为其大脑——它们不够聪明,不会使用人类的那种语法,也不能很好地控制自己的声道,从而控制发音过程。利伯曼将言语的主要控制器锁定在基底神经节,也就是他以及另外有些人所说的爬行类动物大脑。在此再强调一遍,基底神经节也负责其他的习惯行为。连接基底神经节和皮层的神经回路遭到破坏,可能会导致强迫症、精神分裂症和帕金森病等疾病。基底神经节牵涉到运动控制、认知、注意力和人类行为的其他方面。

因此,结合FOXP2基因的进化形态(它能使现代人类语言用到的发音器官和心理过程得到更好的控制),基底神经节和更大的大脑皮层之间的神经连接的进化对于支持人类言语(或手语)至关重要。认识到这些变化有助于我们意识到,人类的语言和言语是其他几个物种当中也可见到的发展过程的一部分。并不是说有任何特定语言基因或不可逾越的鸿沟突然出现,为人类提供了语言和言语。相反,进化记录表明,语言鸿沟是数百万年来慢慢形成的。与此同时,直立人是一个很好的例子,它说明了语言门槛的跨越时间是如何之早,人脑和人类智力的变化是如何一步步使人类获得语言的(即使是与猿类相似的言语能力)。直立人证明,只要大脑足够大,猿类就能够说话。人类就是大脑足够大的猿。

1.菲利普·利伯曼,《旧时语言理论》(Old-Time Linguistic Theories),《皮层》44,2008:218-226。

2.特库姆塞·费奇、巴特·德·布尔、尼尔·马瑟(Neil Mathur)、阿西夫·A. 加赞法(Asif A. Ghazanfar),《猴子声道具备言语条件》(Monkey Vocal Tracts Are Speech-Ready),《科学进展》(Science Advances)2(12),2016;http://advances.sciencemag.org/content/2/12/e1600723;DOI:10.1126/sciadv.1600723。

3.这些批评不是我原创的。我几乎完全是在转述迈阿密大学的语音学专家凯莱布·D. 埃弗里特的一封电子邮件的内容(姓氏不是巧合)。

4.对于那些对人类言语研究历史感兴趣的人来说,这些可以追溯到几个世纪以前。但是,耶鲁大学医学院的埃德蒙·S. 克雷林(Edmund S. Crelin)的《人的声道:解剖、功能、发展和进化》[The Human Vocal Tract: Anatomy, Function, Development, and Evolution,范特基(Vantage)出版社,1987年]一书也许是对人类言语生理学和解剖学的现代研究的最佳典范。书中包含了数百幅图画和照片,不仅探讨了现代人类的发音器官,研究了早期人类化石的相关部分,还对每一部分进行了技术上的讨论。——作者注

5.路易吉·卡帕索(Luigi Capasso)、伊丽莎白·米凯蒂(Elisabetta Michetti)、鲁杰罗·达纳斯塔西奥(Ruggero D’Anastasio),《一块直立人舌骨:对人类语言能力起源的可能影响》(A Homo Erectus Hyoid Bone: Possible Implications for the Origin of the Human Capability for Speech),《人类学学院》(Collegium antropologicum)32(4),2008:1007-1011。

6.要想更全面地了解人科动物语音的进化过程和基本属性,我建议读者参阅菲利普·利伯曼的《语言进化生物学》(Toward an Evolutionary Biology of Language,哈佛大学出版社旗下贝尔纳普出版社,2006年),下文大部分内容摘自该书。

7.要想更全面地了解人科动物语音的进化过程和基本属性,我建议读者参阅菲利普·利伯曼的《语言进化生物学》(Toward an Evolutionary Biology of Language,哈佛大学出版社旗下贝尔纳普出版社,2006年),下文大部分内容摘自该书。

8.以下各段大量引自《语言:文化工具》。

9.转述自利伯曼《语言进化生物学》。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000