我们有喉头、软腭、舌面、舌尖、舌根、双唇六个语音器官,再结合喉头是否振动、软腭张闭、舌根是否紧张以及双唇是否撮起,我们在英语中就可以形成40个音素。不同语言的语音模式也千差万别。语音之所以难以识别,是因为人类的大脑和口头之间存在许多不相配的地方。
当我还是学生的时候,曾经在加拿大麦吉尔大学一个专门研究听觉的实验室工作。我通过一台计算机,将一串串相互重叠的声波进行合成,以确定它们听起来是像一组频率丰富的声音,还是像两组单一频率的纯音。某个星期一早晨,我体验到一种奇特的现象:这些声音突然变得像是一群小孩子在齐声合唱,听起来就像:“(哔砰砰、哔砰砰、哔砰砰),汉普蒂·邓普蒂[1]、汉普蒂·邓普蒂、汉普蒂·邓普蒂,(哔砰砰、哔砰砰),汉普蒂·邓普蒂、汉普蒂·邓普蒂、汉普蒂·汉普蒂、邓普蒂·邓普蒂,(哔砰砰、哔砰砰、哔砰砰),汉普蒂·邓普蒂,(哔砰砰),汉普蒂·汉普蒂、汉普蒂·邓普蒂,(哔砰砰)。”我检查了示波器,它的确是我事先设定的两段音流。因此,这种合唱效果一定是由我的听觉感知到的。经过一番工夫之后,我居然可以有意识地进行心理切换,即我既可以把这段声音听成“哔砰砰”声,也可以把它听成孩子们的合唱声。这时一位同学走了进来,我立刻把这个发现告诉了她,并且说自己迫不及待地想告知实验室主任布雷格曼教授。结果她建议我:不要告诉任何人,除了波塞尔教授——他是精神病理学研究室的主任。
多年之后,我才明白自己当时到底发现了什么。
THE
INSTINCT
LANGUAGE
语言认知实验室
心理学家罗伯特·雷米兹(Robert Remez)、大卫·皮索尼(David Pisoni)和他们的同事是一群比我更有勇气的学者,他们在《科学》上发表了一篇关于“正弦波言语”(sine-wave speech)的文章。他们将三个同时振动的声波进行了合成。从物理上说,这个声音一点儿也不像人类的语音,但这三个声波遵循着与句子“Where were you a year ago?”一样的语音频率和幅值。结果,志愿者表示自己听到了某种“科幻的声音”或者“计算机的哔哔声”。实验人员找来第二组志愿者,并告诉他们这个声音出自一个损坏的语音合成器。结果,这一批志愿者能够从中听出许多单词,其中1/4的志愿者可以完整地写出这个句子。可见,大脑可以从一堆与语音只有些许相似的声音中听出具体内容。
事实上,正弦波言语解释了八哥为什么“能言善道”。八哥的每个支气管中都有一个可以独立控制的阀门,能够同时产生两种声波,听起来就像是在说话。
我们的大脑既可以将某种声音听成毫无意义的“哔哔声”,也可以把它听成某个单词,这是因为我们的语音知觉就像某种第六感。当我们倾听别人说话时,实际的声音只不过像耳旁风一样,边听边忘,我们真正感知的是语言。我们对单词和音节的体验,对[b]音、[ee]音的体验,可以与我们对音调、音量的体验分离开来,就像歌词可以和乐谱分离开来一样。当面对正弦波言语时,我们的听觉和语感就如同展开了一场竞赛,它们抢着解释听到的每个声音,所以我们的感知才会来回切换。有时候,这两种感觉会同时解释某个声音。如果一个人用磁带录下一个[da]音,并通过技术手段删除这个音节的开头部分,也就是将[da]与[ga]、[ka]区别开来的爆破音,然后将这个爆破音放给一只耳朵听,将剩下的音放给另一只耳朵听。结果,他的一只耳朵会听到这个爆破音,而另一只耳朵却会听到[da]音。可见,这一声音同时被感知为爆破音和[d]音。有时,语音知觉能够凌驾于听觉渠道之上。假设你去看一部带有英文字幕的异国电影,虽然你对该国的语言所知甚少,然而几分钟后,你可能会觉得自己能够听懂电影中的对话了。在一项实验中,研究人员给一组做出[va]、[ba]、[tha]、[da]等嘴型的嘴部特写镜头配上了一个[ga]音,结果被试听到的居然是与嘴型相符的音。这一令人惊讶的错觉有一个好听的名字:“麦格克效应”(McGurk effect)——麦格克是这一错觉的发现者之一。
实际上,人们无须借助电子技巧来制造语音错觉。所有语音都是一种错觉。在我们的听觉中,语言由一连串各自独立的单词组合而成。但是,与一棵在森林里倒下、虽无人听见但照样有声的树不同,人们无法听见的词界却是没有任何声音的。在语言的声波中,单词与单词的连接是无缝的。在书面中,单词与单词之间有空格隔开;然而在口语中,单词与单词之间却并没有空白。单词的疆界只不过是我们听到的某个声音与心理词典中的某个条目形成匹配关系时所产生的幻觉。这一点在我们倾听外语的时候表现得尤为明显,我们不可能分辨出一个单词在什么地方结束,下一个单词在什么地方开始。语音的无缝性在“同音词串”(oronyms)中也有表现,这种同音词串可以分割为两组不同的单词:
The good can decay many ways.
The good candy came anyways.
The stuffy nose can lead to problems.
The stuff he knows can lead to problems.
Some others I’ve seen.
Some mothers I’ve seen.
同音词串常常用于歌曲和童谣:
I scream,
You scream,
We all scream
For ice cream.
Mairzey doats and dozey doats
And little lamsey divey,
A kiddley-divey do,
Wouldn’t you?
Fuzzy Wuzzy was a bear,
Fuzzy Wuzzy had no hair.
Fuzzy Wuzzy wasn’t fuzzy,
Was he?
In fir tar is,
In oak none is.
In mud eel is,
In clay none is.
Goats eat ivy.
Mares eat oats.
有一些是老师在批阅学生的论文和作业时无意中发现的:
Jose Can you see by the donzerly light?(与“Oh say can you see by the dawn’s early light?”同音)
It’s a doggy-dog world.(“doggy-dog”与“dog-eat-dog”同音)
Eugene O’Neill won a Pullet Surprise.(“Pullet Surprise”与“Pulitzer Prize”同音)
My mother comes from Pencil Vanea.(“Pencil Vanea”与“Pennsylvania”同音)
He was a notor republic.(“notor republic”与“notary public”同音)
They played the Bohemian Rap City.(“Bohemian Rap City”与“Bohemian Rhapsody”同音)
即使是单词的内部音序也是一种错觉。如果对录有“cat”一音的磁带进行分切,你无法从中分离出[k]、[a]、[t]这三个片段,这三个被称为“音素”(phoneme)的单位与字母表中的字母形成了大致的对应关系。如果你将这三个音素倒着拼接起来,你听到的不会是“tack”,而是一个不知所云的声音。正如我们将要看到的,单词的每个构件所携带的语音信息都混杂于整个单词之内。
语音知觉是构成语言本能的另一个生物学奇迹。将口、耳作为交流工具有着极其明显的优点。我们从没有发现哪个听力正常的社群会选择用手语进行交流,虽然手语同样具有表达功能。用口说话不需要良好的照明,也不需要面对面地直视对方,从而将手和眼睛解放出来。我们既可以远距离地大声喊话,也可以凑在一起低声私语,以防被人听见。不过,在享受以声音为媒介所带来的好处时,口语也必须克服耳朵在接受信息方面存在的瓶颈。在20世纪40年代,工程师试图为盲人开发一种阅读设备,他们设计了一组与字母相对应的声音。但是,即便经过刻苦的训练,人们还是无法迅速辨认出这些声音,最多只能像老道的摩尔斯电码发报员一样,一秒钟辨认三个单位。而真实的语音感知却比这快了不知多少倍:在随意的谈话中,我们每秒可以感知10~15个音素,电视推销节目主持人的感知速度可以达到每秒20~30个音素,而人为的快速说话则可达到每秒40~50个音素。考虑到人类听觉系统的工作原理,这个速度简直不可思议。当一个类似于“滴答”的声音以20次/秒或者更快的速度不断重复时,我们就无法辨别出一个个单独的声音,而是把它们听成一串连续的长音。如果我们每秒能感知45个音素,那么这些音素就不是以声音片段的形式连续出现的,我们必须将好几个音素压缩到同一个声音片段中,然后由我们的大脑来解压。因此到目前为止,口语是通过听觉获取信息的最快方式。
没有任何一个人造系统可以与人类的语音解码相媲美,这并非是因为缺乏发明的必要,也不是因为没有人愿意去发明它。一台语音识别器将是四肢瘫痪者和其他残疾人士的福音,它也将更有助于专业人士将信息输入计算机,从而将他们的眼睛和手解放出来。此外,对于没学过打字的人、电话业务的客户以及越来越多肌腱劳损的打字员来说,这也是好事一桩。因此也就无怪乎工程师们已经花费了40多年的时间来研究这一问题,力图使计算机能够识别口语。但是,工程师总是被一个两难问题所困扰:如果一个系统能够听懂很多人的声音,那么它就只能识别少量的单词。例如,一些电话公司已经开始装备电话查询语音系统,它可以听懂任何人说的“yes”,甚至还有一些更为先进的系统可以识别从0到9这十个英文数字的读音(这对工程师来说已经很不容易,因为这十个数字在读音上完全不同)。但是,如果一个系统可以识别很多单词,那么它只能听懂一个人的声音。当今的语音识别系统还无法复制人类的解码能力,即不但可以听懂许多单词,也可以听懂许多人的声音。目前最为先进的语音识别系统当属“声龙听写”(DragonDictate),它是一款计算机软件,可以识别30 000个单词,不过它仍然存在明显的局限。它必须花费大量时间来适应用户的声音。你……必……须……以……这……样……的……速……度……说……话,每个单词之间必须停顿0.25秒,这只相当于日常语速的1/5。如果你使用的单词不在它的词典内,比如说一个人名,你就必须用“Alpha”“Bravo”“Charlie”这种字母代号拼写出来。此外,这个软件还存在15%的错误率,平均每句话中就会有一个以上的错误。所以,虽然“声龙听写”是一款相当出色的语音识别软件,但它的识别能力甚至不如一个二流的速记员。
语音背后的生理和神经机制解决了人类语言交流系统的两个问题。一个人可能认识60 000个单词,但是,一个人的嘴里不可能发出60 000个不同的音(即便可以发出,人的耳朵也无法完全分辨),因此语言又一次用到了离散组合系统的原则。句子和短语由单词构成,单词由语素构成,语素又由音素构成。然而,与单词和语素不同的是,音素对于单词整体意义的构成毫无帮助。我们无法从“d”“o”“g”的意思及其顺序中推导出“dog”(狗)一词的意思。音素是一种独特的语言单位。它与外在的语音连接,却不与内在的心语连接。每个音素都对应一种发音方式,它们构成离散组合系统中的一个独立成分,将无意义的语音组合成有意义的语素,然后再由其他成分将有意义的语素组合成有意义的单词、短语和句子。这是人类语言的基本结构,语言学家查尔斯·霍盖特(Charles Hockett)将其称为“模式二重性”(duality of patterning)。
不过,语言本能的语素模块并非只用于拼写语素。语言规则是一套离散组合系统:音素组合成语素,语素组合成单词,单词组合成短语。它们不能相互混合或者合并。“Dog bites man”(狗咬人)不同于“Man bites dog”(人咬狗),“believing in God”(信仰上帝)不同于“believing in Dog(信仰狗)。但是,要使这些结构从一个人的脑中传到另一个人的脑中,就必须将它们转化为声音信号。人们所发出的声音信号并非如按键式电话那样发出一串清脆的哔哔声,人们的言语是一条由气息构成的河流,并在口腔和喉头肌肉的制约下形成一个个蜿蜒曲折、清浊高下的弯道。大自然在语音上面临的问题不外乎以下两种:一是将说话者头脑中的一串离散信号编码为一串音流,即数字信号向模拟信号的转换;二是在听者头脑中将一串音流解码为一串离散信号,即模拟信号向数字信号的转换。
因此,语音的诞生取决于几个步骤。首先,形成一组数量有限并可以通过排列组合的方式构成单词的音素列表;其次,对这串音素进行抛光打磨,使它们易于发音,也易于理解;最后,将它们运用到实际的交流场合。我将对这些步骤做详细的解说,并告诉你它们如何塑造我们日常遇到的各种言语现象的:诗歌、耳误、口音、语音识别设备以及不可理喻的英语拼写体系。
元音和辅音
要理解语音的本质,我们有一个简单的方法,即考察一股气流是如何从腹部开始经由声道传播于口外的。
在说话时,我们会改变正常的呼吸频率,更为快速地吸入空气,然后借助肋部肌肉的力量抵消肺部的弹性回缩,将它平缓地释放出来。如果不这样做,我们说的话听起来就会像气球放气时发出的声音,单调而乏味。在这里,语法比二氧化碳更有优先权:我们抑制住调节身体摄氧量的呼吸循环系统,将呼气时间延长到一个短语或者句子的长度。这可能会导致轻微的呼吸过度或者缺氧,从而也解释了为什么发表一场公共演说是如此累人,以及为什么我们很难一边跑步一边和他人交谈的原因。
气流离开肺部,沿气管上行,直达喉头(也就是我们可以看见的咽喉的突起部位喉结)。喉头类似于一个阀门,中间有一道缝隙,即声门,声门两侧分别覆盖着一片可以自由伸缩的肌肉组织,也就是人们所说的声带(不过它更准确的名称是声襞,因为它并非如早期解剖学家所认为的那样是一种带状组织)。声带能够关闭声门,从而将气流密封在肺部。这可以帮助我们鼓起自己的上半身,就像扎紧的气囊一般。如果你试图在不使用双手的情况下从椅子上站起来,你就会感觉到自己的喉头是紧缩的。在出现咳嗽、排便等生理行为时,喉头也会关闭。举重运动员或者网球选手在发力时会发出嘶吼,也说明了我们是使用同一个器官来密封肺部和制造声音的。
声带也可以部分地闭合声门,使得气流在通过声门的时候发出嗡鸣的声音。这是因为高度压缩的气流将声带向外推开,而声带又会迅速反弹,将声门关闭,直到气流压力不断累积,迫使它再度打开,从而开始一个新的循环。因此,一股气流被化整为零,间断性地释放出来,由此发出一种嗡鸣声,我们称之为“浊音”(voicing)。你可以试着分别发出“ssssssss”和“zzzzzzzz”的声音,前者是不带声的清音,后者是带声的浊音。
声带的开合频率决定了声音的音高。通过改变声带的张力和位置,我们可以控制它的开合频率,由此也可以控制音高。这一点最明显地表现在哼歌或唱歌时,但在说话的时候,我们也会在一句话中不断地改变音高,这一过程就是“语调”(intonation)。正常的语调使得人类在语言发音上有别于科幻电影中的机器人以及《周六夜现场》节目中的尖头外星人。语调也可以用来表示讽刺、强调以及说话者的喜怒哀乐等情绪。在所谓的“声调语言”(如汉语)中,人们通过升降调来区分词义。
虽然浊音产生的声波拥有主要的振动频率,但它与音叉或应急警报等只拥有一个频率的纯音不同。浊音是一种频率丰富、拥有多种“谐波”(harmonic)的声音。例如,男声声波的振动频率不仅限定于100Hz,还包括200Hz、300Hz、400Hz、500Hz、600Hz、700Hz直至4 000Hz以上,女声声波的振动频率则包括200Hz、400Hz、600Hz不等。在这里,声源的丰富性就显得至关重要,它为声道的其他部分制造元音和辅音提供了原料。
如果我们由于某种原因不能用喉头发声,则可以借助任何一种频率丰富的声源来实现这一点。在低声耳语时,我们的声带是平展的,这导致气流沿着声带边缘四散开来,从而形成一种紊流或噪声,听起来就像“嘶嘶”的声音或者无线电静态噪声。这种“嘶嘶”声并不是由一系列谐波构成的不断重复的声波,如我们说话时发出的周期性声音,而是一种忽高忽低的锯齿状声波,由时刻变化的频率混合而成。然而,这一混合材料正是声道的其余部分用来制造窃窃私语的原料。一些被切除喉头的患者能够学会用食管发声,或者通过打嗝的方法来制造必要的声音;有些人则在自己的颈部放置振动器。20世纪70年代,吉他手彼得·佛莱普顿(Peter Frampton)就将电吉他的扩声通过管道传入嘴中,好让自己能够在演唱时发出弦音,正是这种弦音效果助其收获了摇滚生涯中的两张热卖唱片。
这股振频丰富的气流在离开身体之前,还要穿过一段狭长的空腔:它包括舌头后面的咽喉、舌头和上颚之间的口腔、双唇的开合部位以及另一条备用通道:鼻腔。每段空腔都具有特定的长度和形状,能够通过“共振”(resonance)的方式对穿过的声音产生影响。不同频率的声音有不同的波长(即声波波峰之间的距离),音调越高,波长就越短。在通过具有一定长度的管道时,声波会在到达管道的另一端时向后反弹。如果管道的长度和声波的波长形成一定的比例,每个反弹的回波都会增强下一个来波。如果长度不同,那么回波和来波就会互相干扰,这就好比荡秋千,如果你能在秋千荡得最高的时候稍加推力,就能收到最好的效果。因此,一个特定长度的管道能够放大某种频率的声音,并过滤掉其他频率的声音。你可以通过给一个瓶子注水来体验这种效果:搅动的水声被水面和瓶子开口之间的空气柱过滤,水越多,空气柱就越短,共振频率也就越高,水声也就越小。
我们听到的各种元音,都是对喉头所发出的声音进行放大或过滤的结果,只不过在组合方式上有所不同。通过移动口腔中的5个发音器官的位置,我们可以改变共振腔的形状和长度,以形成不同的组合共振。例如,[ee]这个音是由两种共振组合而成,一种是以喉腔为主的共振,频率介于200~350Hz之间,另一种则是以口腔为主的共振,频率介于2 100~3 000Hz之间。一个空腔过滤的频率范围与进入该空腔的特定的频率组合并不相干,因此,无论是说话还是耳语、高歌还是低唱、嗝音还是鼻音,所有的[ee]音听起来都是一个音。
舌头是最重要的言语器官,因此语言也的确称得上是一门“舌头的艺术”。实际上,舌头是三个器官的总和:舌尖、舌面和舌根(即与下颚相连的肌肉)。如果你重复地发“bet”和“butt”中的元音:[e-uh]、[e-uh]、[e-uh],就能够感觉到舌面在向前和向后反复移动(你可以通过将手指放在上下牙齿之间来感觉这种移动)。当舌头位于口腔前部时,它可以拉长舌头与喉咙之间的空腔,同时缩短舌头与双唇之间的空腔,从而改变声音的共振方式。在发“bet”的元音时,口腔可以放大振频为600Hz和1 800Hz的声音;而在发“butt”的元音时,口腔放大的是振频为600Hz和1 200Hz的声音。现在请你试着交替发出“beet”和“bat”的元音,你会发现舌面在上下跳动,运动轨迹正好与“bet-butt”的舌部运动相垂直,你甚至可以感觉到自己的下颚也在跟着舌头一起运动,以便形成发音。这种运动同样能够改变喉咙和口腔的形状,从而改变声音的共振。大脑则将不同方式的放大和过滤解读为不同的元音。
舌部运动与元音之间形成的紧密联系导致了一个颇为奇特的现象,这种现象出现在包括英语在内的许多语言之中,即“语音象征主义”(phonetic symbolism)。当舌头较高,且位置靠前时,形成的是一个空间较小的共振腔,它放大的都是高频率的音。由此一来,以这种方式产生的元音(例如[ee]和[i])常常让人们联想到微末之事。与此相对的是,当舌头较低,且位置靠后时,形成的则是一个空间较大的共振腔,它放大的都是低频率的音,由此产生的元音(例如“father”中的[a]以及“core”“cot”中的[o])常常让人们联想到庞然大物。因此在英文中,老鼠被叫作“mice”,它体型很小(teeny),声音尖细(squeak);而大象则被称为“elephant”,它体型庞大(humongous),声音洪亮(roar)。又比如,音箱上的高音扬声器(tweeter)的口径总是比低音扬声器(woofer)的口径小。此外,以英语为母语的人能够准确地猜出汉语里的“轻”(ch’ing)字代表重量小,“重”(ch’ung)字代表重量大(在针对大量外语单词的对照研究中,被试的准确率高于随机猜测,尽管不是特别明显)。我曾经向我身边一位计算机达人请教过“frob”一词的意思,她生动形象地给我上了一堂“黑客英语”辅导课:假设你为自己的立体音响添置了一台新的图示均衡器,首先,你会漫无目的地上下移动控制按钮,以测听这台设备的一般效果,这就是“frobbing”(调着玩)。然后,你会通过适度地移动旋钮,找出自己喜欢的音段,这就是“twiddling”(扭转)。最后,你会做出更为细微的调整,以获得最完美的音质,这就是“tweaking”(微调)。根据这段解释,“ob”“id”和“eak”的发音恰好符合语音象征主义的大小规则。
你是否愿意冒着被娱乐节日《60分钟》(Sixty Minutes)主持人安迪·鲁尼(Andy Rooney)附体的风险,想一想我们为什么不将“fiddle-faddle”(无聊)说成“faddle-fiddle”,不将“ping-pong”(乒乓球)说成“pong-ping”,不将“pitter-patter”(噼啪声)说成“patter-pitter”?为什么我们不能用“span and spic”来形容厨房的整洁,而必须说“spic and span”。同样,为什么我们必须说“riff-raff”“mish-mash”“flim-flam”“chit-chat”“tit for tat”“knick-knack”“zig-zag”“sing-song”“ding-dong”“King Kong”“criss-cross”“shilly-shally”“see-saw”“hee-haw”“flip-flop”“hippity-hop”“tick-tock”“tic-tac-toe”“eeny-meeny-miney-moe”“bric-a-brac”“clickety-clack”“hickory-dickory-dock”“kit and caboodle”“bibbity-bobbity-boo”?答案是:舌位高而前的元音往往居于舌位低而后的元音之前。没有人知道为什么这些单词要按照这样的顺序结合在一起,但它似乎能够以三段论的形式,通过另外两种奇特的现象推导出来。第一,包含“我、此时、此地”之意的单词往往拥有舌位高而前的元音,而远离“我、此时、此地”的单词则拥有舌位低而后的元音,如“me”与“you”、“here”与“there”、“this”与“that”。第二,在排列顺序上,包含“我、此时、此地”之意的单词往往排在前面,而在字面上或意味上远离“我”(或者说话者本人)的单词则排在后面,例如“here and there”(而非“there and here”)、“this and that”“now and then”“father and son”“man and machine”“friend or foe”“the Harvard-Yale game”(哈佛大学的叫法)、“the Yale-Harvard game”(耶鲁大学的叫法)、“Serbo-Croatian”(塞尔维亚人的叫法),“Croat-Serbian”(克罗地亚人的叫法)。因此,这个三段论可以表述为:
前提一:“我”=高前元音,
前提二:“我”通常位于前排,
结论:高前元音通常位于前排。
接下来让我们考察一下其他的言语器官。你可以试着交替发出“boot”和“book”的元音,并注意自己的嘴唇变化。当你发“boot”的音时,你的嘴唇呈圆形并向前突出,这等于在声道前端增加了一个空腔。这个空腔拥有自己的共振值,可以放大和过滤其他振频,使其发出的元音和其他元音形成明显的差别。正是由于唇形变化对声音效果的影响,我们才能在与兴高采烈的人通电话时“听”到他的微笑。
还记得你的小学老师曾经教过的内容吗?“bat”“bet”“bit”“bottle”“butt”中的元音是“短音”,“bait”“beet”“bite”“boat”“boot”中的元音是“长音”。你当时是不是根本不知道她在说什么?很好,请把它们统统忘掉吧,这些知识早已是陈年往事。早期英语往往通过元音发音的快慢来区分单词,这有点儿像现代英语中“bad”(坏)与“baaaad”(好)的区别。但到了15世纪,英语的发音经历了一场大地震,史称“元音大转移”(Great Vowel Shift)。通过舌根的前移,那些原本发音较长的元音变成了“紧元音”,即发音时舌头紧绷,舌面隆起,而不像以前那样松弛扁平。隆起的舌面缩小了口腔上方的空腔,改变了声音的共振。此外,现代英语中的一些紧元音,比如“bite”和“brow”的元音,属于“双元音”(diphthong),即两个元音快速、连续地发音,听起来就像是一个元音,如“bite”读作[ba-eet],“brow”读作[bra-oh]。
如果你尽可能地拉长“Sam”和“sat”的元音,推后词尾的辅音,就能听到第5个言语器官的音响效果。在大多数英语方言中,元音会因为被拉长而发生变化,例如“Sam”中的元音在被拉长后会带有浓重的鼻音,这是因为软腭(位于硬腭之后的肌肉组织)的张开使得空气得以从鼻腔通过。鼻腔也是一个共振室,当振动的空气从中经过时,它会放大和过滤另一组频率。在英语中,人们不会根据元音是否带有鼻音来区分单词,但是像法语、波兰语和葡萄牙语等许多语言却是这么做的。有些以英语为母语的人即便在说“sat”时也会把软腭张开,但我们只会认为这是带有鼻音而已,并不会把它听成另一个单词。当你因为感冒而出现鼻塞的症状时,打不打开软腭就没有什么分别了,此时你的发音显然不带鼻音。
到目前为止,我们探讨的都是元音。在发这些音时,气流从喉头出发直达外界,整个过程畅通无阻。如果气流在途中遇到某种阻碍,就形成了辅音。你可以试着发出“ssssss”的音,为了发这个音,你必须将舌尖(第6个言语器官)抬起,使之与牙床相抵,只留下一道细小的开口。如果你强迫气流穿过这个开口,这股气流就会汹涌地激荡开来,并发出“噪声”。根据开口的大小以及开口之前的谐振腔的长度,噪声中的某些声波会比其他频率的声波听起来更为响亮,这些声波的波峰和频率范围决定了[s]的音色。此外,这个噪声的产生是源自气流的摩擦,因此这类声音也被称为“擦音”(fricative)。如果将急促的气流从舌头和上颚之间挤出来,就可以得到[sh]的音;从舌头和牙齿之间挤出来,就可以得到[th]的音;从下唇和牙齿之间挤出来,就可以得到[f]的音。此外,我们还可以通过舌面或者声带的移动来制造湍流,以发出“ch”在德语、希伯来语、阿拉伯语中的不同读音,例如“Bach”(巴赫)、“Chanukah”(光明节)等。
现在请你发一下[t]的音。你可以感觉到,舌尖同样对气流形成了阻碍,但这一次它没有留下任何缝隙,而是完全阻塞了气流的前进。随着压力的增大,你猛然间放开舌尖,让气流喷涌而出(笛手们正是通过这种方式来分奏不同的音符的)。其他的“塞辅音”(stop consonant)还有:通过闭合双唇发出的[p]音、通过将舌面抵住上颚发出的[k]音以及由喉头发出的喉塞音(如“uh-oh”中的辅音)。当你发出一个塞辅音时,听者往往要经历以下三个阶段:首先,什么声音都没有,因为气流被障碍物完全阻塞,此时的塞辅音就像是“寂静之声”。然后,随着气流的释放,突然爆发出一种急促的噪声,它的振动频率取决于开口的大小和谐振腔的长度。最后,随着舌头滑动到下一个元音的发音位置,浊音逐渐加强,由此过渡为平缓变化的共振。正如我们将要看到的,这种三级跳式的发音方式令语音识别工程师痛苦不堪。
最后请你再发一下[m]的音。你双唇紧闭,就和发[p]音一样,但这一次气流并不是被无声地阻塞在空腔中,你可以持续地发出[mmmmm]的音,直到透不过气来。这是因为你在紧闭双唇的同时张开了软腭,使得所有空气得以通过鼻腔释放出来,这时发出的声音是在鼻腔和前部口腔的共振下被放大的结果。此时如果开启双唇,就会产生一种平缓变化的共振。从形式上看,这个共振与[p]音的共振非常相似,只是它无须经过“寂静-爆发-加强”这三个阶段。[n]的发音原理与[m]类似,只不过阻碍气流通行的是舌尖,同时,舌尖也是[d]和[s]的发音器官。此外,“sing”中的辅音[ng]也如此发音,只是阻碍气流通行的是舌面部分。
那么,我们为什么说“razzle-dazzle”而不说“dazzle-razzle”?为什么是“super-duper”“helter-skelter”“harum-scarum”“hocus-pocus”“willy-nilly”“hully-gully”“roly-poly”“holy moly”“herky-jerky”“walkie-talkie”“namby-pamby”“mumbo-jumbo”“loosey-goosey”“wing-ding”“wham-bam”“hobnob”“razza-matazz”“rub-a-dub-dub”?恐怕你从未想过这些问题。辅音之间的区别源自气流的阻塞程度:仅仅是使它产生共振,还是迫使它以噪声的形式通过障碍,又或者是完全阻止它的通行。以阻塞小的辅音开头的单词通常位于以阻塞大的辅音开头的单词之前,但这又是为什么呢?
发音器官的组合方式
现在,你已经游历了整个声道,明白了人类绝大多数语音的发声机制和听觉效果。其中的奥秘是,语音并不是由某个单独的器官以单一的运动方式制造出来的,每个语音都是一系列运动方式的组合,而每种运动方式都能对声波进行特定的雕琢和塑造,它们差不多以相同的步调通力合作,履行各自的职责。这也是为什么我们能够迅速发音的原因之一。你可能已经注意到,一个语音可以带鼻音,也可以不带鼻音,可以产生于舌面、舌尖,也可以产生于双唇,它一共有以下6种组合方式:

同样,浊音与清音也是由不同的发音器官组合而成的:

因此,我们可以用多维矩阵的方式来描述每一个语音。第一步,确定这个语音的主要发音器官:喉头、软腭、舌面、舌尖、舌根、双唇。第二步,确定这个发音器官的运动方式:摩擦、闭塞、通畅。第三步,确定其他发音器官的配合方式:软腭是否张开(鼻音还是非鼻音)、喉头是否振动(浊音还是清音)、舌根是否紧张(紧音还是松音)、双唇是否撮起(圆音还是非圆音)。每一种方式或配合都是针对发音肌肉所下达的一组指令符号,这一符号被称为“特征”(feature)。只有分秒不差地执行这些指令,我们嘴里才能蹦出一个个音素。我们每个人都必须掌握这套高难度的“体操运动”。
在英语中,这些组合方式一共形成了40个音素,略高于世界平均水平。其他语言有的少到只有11个音素(波利尼西亚语),有的多达141个音素(克瓦桑语或布西曼族语)。人类语言的音素总量达数千个,但它们都可以用上述6个发音器官及其部位形状与运动方式来解释。我们嘴里发出的其他一些声音则不会出现在任何语言中,例如牙齿的摩擦声、舌头剐蹭口腔底部的声音、吐舌头的声音以及唐老鸭般的呱噪声。即便是克瓦桑语和班图语中极其罕见的吸气音,也不是一种随意加入的音素,它类似于“啧啧”的声音,因为科萨族歌手米瑞安·马卡贝(Miriam Makeba)的运用而被人熟知。吸气音与塞音、擦音一样,是一种符合规范的发音特征,它可以和其他所有发音特性结合起来,构成音素表中一个新的行列。吸气音可以由双唇产生,由舌尖产生,也可以由舌面产生;它可以是鼻音,也可以是非鼻音;可以是浊音,也可以是清音。我们一共可以组合出48种吸气音!
语音模式
不同的音素库存给不同的语言带来了独特的语音模式。例如在日语中,[r]音与[l]音是不分的。当我在1992年11月4日抵达日本的时候,日本语言学家山梨正明(Masaaki Yamanashi)见到我的第一句话就是:“我们日本人非常关注克林顿的勃起(erection)。”[2]
即便是面对一段并不包含真实单词的语音流,我们往往也可以辨析出某种语音模式,例如《布偶秀大电影》(The Muppets)中的瑞典厨师所说的“瑞典话”,或者约翰·贝鲁西(John Belushi)扮演的日本武士所说的“日本话”。语言学家萨拉·汤姆森(Sarah G. Thomason)对声称能够与亡灵交流或者“说方言”[3]的人进行过研究,发现他们所说的神秘语言与实际语言有着相似的语音模式。例如一位进入催眠状态的通灵师宣称自己是某个生活于19世纪的保加利亚妇女,正在和自己的母亲谈论乡间遭受的兵燹之灾。这段“伪斯拉夫语”听起来就像这样:
Ovishta reshta rovishta. Vishna beretishti? Ushna barishta dashto. Na darishnoshto. Korapshnoshashit darishtoy. Aobashni bedetpa.
当然,如果用一种语言的语音模式来拼读另一种语言的单词,这就是“外国口音”。以下这段文字摘自鲍勃·贝尔维索(Bob Belviso)编写的童话故事《杰克与魔豆》(Jack and the Beanstalk),它是用意大利语的语音模式来拼读英语单词的:
GIACCHE ENNE BINNESTAUCCHE
Uans appona taim uase disse boi. Neimmese Giacche. Naise boi. Live uite ise mamma. Mainde da cao.
Uane dei, di spaghetti ise olle ronne aute. Dei goine feinte fromme no fudde. Mamma soi orais, “Oreie Giacche, teicche da cao enne traide erra forre bocchese spaghetti enne somme uaine.”
Bai enne bai commese omme Giacche. I garra no fudde, i garra no uaine. Meichese misteicche, enne traidese da cao forre bonce binnese.
Giacchasse!
到底是什么规范了语言的语音模式呢?它显然不只是音素的简单相加,例如下面这些字母组合:

以上出现的所有音素都可以在英语中找到,但任何一个以英语为母语的人都能发现它们的区别:虽然“thale”“plaft”“flutch”不是英语单词,但却可以成为英语单词;而剩下的组合则既不是英语单词,也不可能成为英语单词。可见,说话者一定具备了某种隐性知识,知道本民族语言的音素的连接方式。
音素并不是以直线的形式、从左到右地装配成单词的。与单词、短语一样,它们先是组成一个个单元,然后再组成更大的单元,最终形成一种树形结构。每个音节开头的辅音群(C)被称作“首音”(onset),跟着的元音(V)和所有辅音被称作“韵脚”(rime)。

音节的生成规则规定了单词的合法结构。在英语中,首音可以由一组辅音构成,例如“flit”“thrive”和“spring”,但也必须遵从一定的限制,例如“vlit”“sring”这样的组合就不行。韵脚则可以由一个元音加上一个或一组辅音构成,例如“toast”“lift”和“sixths”。然而在日语中,首音只能由单个辅音构成,韵脚则必须是一个元音。因此,“strawberry ice cream”(草莓冰激凌)用日语口音来读就是“sutoroberi aisukurimo”,“girlfriend”(女朋友)用日语口音来读就是“garufurendo”。在意大利语中,首音可以由辅音群构成,但韵脚尾部不得出现辅音。因此在讲述《杰克与魔豆》的故事时,贝尔维索特意使用了这一规则来模仿意大利语的语音模式,所以“and”变成了“enne”,“from”变成了“fromme”,“beans”变成了“binnese”。
首音和韵脚不仅规定了某种语言中可能出现的语音,同时,它们也是人们最为敏感的语音——词音的构成部件,因此常常被用于各种诗歌或者文字游戏中。押韵的单词拥有相同的韵脚,叠声的单词拥有相同的首音(或者仅仅是起头的辅音)。诸如“Pig Latin”“eggy-peggy”“aygo-paygo”等儿童暗语游戏往往是在首音与韵脚的交界处大做文章,比如英语中的“fancy-shmancy”“Oedipus-Shmoedipus”等意第绪式构词法。在1964年的热门歌曲《名字游戏》(The Name Game)中,如果舍丽·艾丽丝(Shirley Ellis)能够采用首音和韵脚的说法,就可以不必费那么多口舌来解释这些规则了(“Noam Noam Bo-Boam, Bonana Fana Fo-Foam, Fee Fi Mo Moam, Noam”)。
再进一步,音节可以组成更大的节奏单位:“音步”(foot)。

音节和音步可以依据其他规则分为强音(s)和弱音(w),这种强弱分布决定了每个音节发音时的轻重程度。与首音和韵脚一样,音步也是词音中的敏感成分,我们常常在诗歌和双关语中使用到它。“韵律”(meter)是不同音步的排列方式。如果一串连续音步以“由强到弱”的方式排列,就是“扬抑格”(trochaic)韵律,例如“Mary had a little lamb”(玛丽有只小羊羔);如果以“由弱到强”的方式排列,就是“抑扬格”(iambic)韵律,例如“The rain in Spain falls mainly in the plain”(西班牙的雨区多是平原)。在日常对话中,我们通常将咒骂语置于重读的单词之前,例如有人问多罗茜·帕克(Dorothy Parker)[4]为什么最近没有去听交响乐,她回答道:“I’ve been too fucking busy and vice versa.”(我不是忙着做事,就是忙着做爱)。此外,虽然一些年轻人喜欢将咒骂语插入单词中间,但也总是置于重读的音步之前,比如“fan-fuckin-tastic”(太他妈的棒了)、“abso-bloody-lutely”(绝对地)、“Phila-fuckin-delphia”(该死的费城),可见这一规则依然被严格地遵守,如果你硬要说“Philadel-fuckin-phia”,恐怕连街头的不良少年都要嘲笑你了。
语素和单词中的音素组合存储于我们的记忆之中,它们在被实际说出之前还要经历一系列调整,这些调整进一步规范了语言的语音模式。你不妨读一读“pat”和“pad”这两个单词,然后再读一读它们的“-ing”形式:“patting”和“padding”。在英语的许多方言中,这两个单词的读音完全相同,[t]和[d]的差别不复存在,而消弭二者差别的是一种叫作“闪音”的音位规则:如果一个舌尖塞辅音出现在两个元音之间,这个辅音的发音方式不再是舌头静止抵住齿龈,以积累足够的气流,而是改成舌尖轻弹齿龈,旋即离开。这种闪音规则不但适用于两个语素相连的情况下,例如“pat”和“ing”,也同样适用于由一个语素构成的单词。虽然对许多说英语的人来说,“ladder”和“latter”似乎是由不同的音素构成的,并且在心理词典中代表不同的意思,但它们的读音其实是一样的(尤其是在故作庄重的场合下)。因此当谈话内容涉及母牛时,一些诙谐之士就会大谈特谈“udder mystery”(乳房的秘密)、“udder success”(乳房的成功)等谐音词。[5]
有趣的是,音位规则的应用是一种有着固定步骤的有序操作,就如同一条生产流水线,将单词依次装配起来。比如“write”和“ride”,在大多数英语方言中,这两个单词中的元音在发音上是有一定区别的,至少“ride”中的“i”发音比“write”中的“i”要更长一些。在某些方言中,比如新闻评论员彼得·詹宁斯(Peter Jennings)、冰球明星韦恩·格雷茨基(Wayne Gretzky)以及笔者所说的加拿大英语(也就是电视剧《加拿大》中麦肯齐兄弟所操的搞笑口音),这两个元音发音完全不同。“ride”包含的是一个从元音[ɑ]滑向元音[ee]的双元音,而“write”包含的是一个从更高的元音[?]滑向[ee]的双元音。但是,无论这个元音如何改变,它都遵循着一个统一的规则:[t]之前不得出现长/低的“i”音,[d]之前则不得出现短/高的“i”音。在电影《超人》(Superman)中,女主人公露易丝·莱恩(Lois Lane)最终以非常难得的理智推断出克拉克·肯特(Clark Kent)就是超人:他们从来没有在同一时间出现在同一地点。我们也可以同理推断说,心理词典中只有一个“i”,在它被读出来之前,音位规则会根据它是出现在[t]之前还是[d]之前进行发音上的调整。我们甚至可以猜测,储存在记忆中的原始的“i”在发音上近似ride中的“i”,而“write”中的“i”则是音位规则的产物。证据是当“i”音的身后没有[t]和[d]时,比如在“rye”中,它的发音与“ride”中的“i”相同,这显然是没有被规则改造的原始形态。
现在请再读一下“writing”和“riding”。在闪音规则的操作下,[t]和[d]的读音已经完全一致,但两个“i”的读音却仍旧不同。这是怎么回事呢?根据上文所述,“i”音的不同完全是因为[t]和[d]的区别,而[t]和[d]的区别已经被闪音规则消除。这表明在规则的应用上,“i”音的变化规则优先于闪音规则。换句话说,这两个规则在应用上有固定的顺序,元音变化在前,闪音变化在后。之所以如此,可能是因为闪音规则的存在是为了让发音变得更加容易,因此它在由脑到口的加工链条中处于更为下游的位置。
元音变化规则还有另一个重要特征。“i”音不只会在[t]前发生改变,它在许多辅音之前都会发生改变,试比较:

这是否意味着“i”音有5种不同的变化规则,分别用在[z]与[s]、[v]与[f]等5种不同的区别上?显然不是。这些引起变化的辅音[t]、[s]、[f]、[p]、[k]与它们各自的对应辅音[d]、[z]、[v]、[b]、[g]有一个共同的区别:它们都是清音,而它们的对应辅音都是浊音。因此我们只需要一个规则:“i”的读音在清辅音之前发生变化。我们可以通过一个事例来证明它是存在于人们头脑中的真实规则,而不是为了节省笔墨而将5个规则硬凑成一个规则。如果一个以英语为母语的人能够正确地读出德语中的“ch”(如the Third Reich),他就会将德语中的“ei”读成“write”中的“i”,而非“ride”中的“i”。英语中没有辅音[ch],所以以英语为母语的人不可能知道关于它的任何音位规则。但是,由于它是清辅音,因此只要元音变化规则对于任何清辅音都有效,那么以英语为母语的人便会清楚地知道该怎么做。
这种选择性变化不仅出现在英语中,也在所有语言中有所体现。音位规则很少由单个音素触发,它们往往适用于一整类有着某种共同特征的音素,例如同为浊音,同为塞音或擦音,或者有相同的发音器官。这表明,音位规则并不是将音素看成一串符号,而是透过音素的外在形式,把握其内在的发音特征。
因此,音位规则操纵的是发音特征,而不是音素。请读一读下面这些动词过去式:

在“walked”“slapped”和“passed”中,“-ed”读作[t];在“jogged”“sobbed”和“fizzed”中,“-ed”读作[d]。现在你或许已经能够推断出这种差别背后的原因了:读作[t]是因为它跟在[k]、[p]、[s]等清辅音之后,而读作[d]是因为它跟在[g]、[b]、[z]等浊辅音之后。由此可见,我们的头脑中必定存在一个特定的规则,它能够回头查看词干的末尾音素,以确定其是否属于浊音,然后依据检查的结果来调整后缀“-ed”的读音。为了证实这一假设,我们可以要求人们念下面这句话:“Mozart out-Bached Bach”(莫扎特比巴赫还巴赫)。动词“out-Bach”包含了“ch”音,但英语中并没有这个音。然而,每个说英语的人都会将“out-Bached”的后缀“-ed”读作[t],因为“ch”是一个清辅音。我们甚至可以用一些例子来证明后缀“-ed”是以[d]音储存于记忆之中的,而[t]音则是规则变化的结果。例如单词“play”“row”不是以辅音结尾的,而每个人都将它们的过去式读成“plade”和“rode”,而非“plate”和“rote”。在没有辅音触发音位规则的情况下,我们听到的显然是存储于心理词典中的最初读音,也就是[d]。这一现象揭示了现代语言学的一个重要发现:语素能够以与其实际发音不同的形式存储于心理词典之中。
偏好理论的读者恐怕还要忍耐一会儿,等我把下一段内容讲完。请注意,在“[d]→[t]”变化规则的背后存在着一种奇特的模式:首先,[d]本身是个浊音,它也必须跟在浊辅音之后;[t]是一个清音,它则必须跟在清辅音之后。其次,除了清、浊之外,[t]和[d]在发音上是相同的:它们的发音器官都是舌尖,而且发音方法也相同,即用舌尖抵住齿龈,阻塞气流,然后再释放出来。因此,这条变化规则并不是随意地变更音素,比如在高元音之后将[p]变成[l],或者随机挑选其他音素。整个变化过程就像是针对后缀“-ed”实施的一场“外科手术”,将它的发音调整为与其浊音相对应的清音,而保留其他的发音特征。换言之,在将“slap ﹢-ed”的读音转变为“slapt”的过程中,音位规则是将清浊指令连同“slap”的[p]音一起打包,作用于后缀“-ed”之上的,如下所示:

“slapped”中的[t]音与“slapped”中的[p]音形成了匹配关系,是因为它们都是清音。它们在心理词典中被视作同一个特征,从而将两个音段联系起来。这种情形在其他语言中也很常见。例如清浊、元音音质、语调等特征可以为单词中的各个音素提供一种横向联系,仿佛每个特征都住在自己的“音层”(tier)中,而不是与某个单独的音素拴在一起。
可见,音位规则关注的是特征,而不是音素。它们调整的也是特征,而不是音素。前文说过,正是一类类特征的排列组合,才形成了语言中的各种音素。这些事实表明,语音的原子是特征,而不是音素,这些特征存储于大脑之中,成为大脑的操作对象。音素只不过是一组特征的集合。因此,即便是在最小的语言单位——特征的层面上,语言也是以组合系统的方式进行工作的。
所有的语言都有自己的音位规则,可它们又有什么用呢?你或许已经注意到,这些规则可以使发音变得更加容易。对两个元音之间的[t]或[d]进行闪音处理,可以帮助我们更快地发音,而不必让舌尖为了积累足够的气压而长时间地保持不动。将单词词尾的清音特征作用于后缀之上,可以使说话者不必先关闭喉头发词尾的音,再打开喉头发后缀的音。乍看之下,音位规则仅仅是一组偷懒的方法。从这个角度出发,人们很容易注意到其他方言中的语音调整现象,并将这种调整归结为说话者的懒惰。这种心理非常普遍,无论是英国人还是美国人中。例如萧伯纳写道:
英国人不尊重他们的语音,不肯教他们的孩子好好说它。他们无法正确地拼读,因为他们拥有的是一套古老的外来字母系统,其中只有辅音(而且不是所有辅音)有一致的发音规则,因此只要一个英国人开口说话,就注定要遭到其他英国人的鄙视。
莱德勒在《如何听懂美国人的含混口音》(Howta Reckanize American Slurvian)中写道:
一直以来,语言爱好者都在为美国人说话时的拙劣发音而伤神。那些听觉敏锐的人不得不承受极大的痛苦和愤懑,听着人们把“government”念成“guvmint”,把“accessories”念成“assessories”。事实上,无论走到哪里,我们都受到含混不清的口音的围攻。
但是,如果这些悲愤者的耳朵能够再敏锐一些,他们或许就能注意到这样一个事实:没有任何一种方言允许人们在发音上敷衍了事。音位规则一手提供方便,一手又把它拿走。一个乡下人也许会因为将“Nothin’ doin’”中的“g”音省略而遭到嘲笑,但他却很有可能清晰地发出“pólice and accidént”中的元音[?],而那些自以为高人一等的知识分子却会把它弱化为中性元音[uh]。当布鲁克林道奇队的投手韦特·霍伊特(Waite Hoyt)被球击中的时候,一位球迷在看台上大声叫道:“Hurt’s hoit!”(受伤了霍伊特)。喜欢“pahk their cah in Hahvahd Yahd”(即“park their car in Harvard Yard”,把车停在哈佛校园)的波士顿人也喜欢把自己的女儿叫作“Sheiler”(Sheila)和“Linder”(Linda)。1992年,马萨诸塞州韦斯特菲尔德市(Westfield)的居民提交了一份法案,禁止本市学校雇用任何“带有口音”的外来教师——这可是千真万确之事。一位具有怀疑精神的女士曾给《波士顿环球报》(Boston Globe)写信,说自己当年的老师—— 一位土生土长的新英格兰人曾用“orphan”和“often”来解释“同音词”,另一位搞笑的读者也说自己当年因为将“cuh-rée-uh”拼写成“Korea”,将“cuh-rée-ur”拼写念成“career”而让老师气愤不已。不过,很快,这个提议就被撤回了。
我们有充足的理由说明为什么音位规则要对发音上的“懒惰现象”实施严格监管,为什么所有的方言都不允许它的使用者随心所欲地偷工减料。说话者的每一次偷工减料都会让听者付出脑力上的代价。如果一个社会由懒惰的说话者构成,那么它也必然是一个勤奋的听者社会。如果这个社会由说话者说了算,那么所有的音位规则都将被取消;但如果由听者说了算,语音就会走上相反的道路,它会迫使说话者在发音时严格遵守音位规则,以扩大易混音素的听觉差异。事实上,许多音位规则也正是这么做的。例如英语中有这样一条规则:一个人在发[sh]音时必须将双唇撮圆,而在发[s]音时则不必如此。这个额外动作的好处是:撮起的双唇拉长了共振腔的长度,从而加强了将[sh]和[s]区分开的低频噪声,听者也就能够更加容易地识别出[sh]音。虽然每个说话者同时也是一个听者,但人性的伪善使我们不敢贸然依靠说话者的远见和体贴。相反,语言社区的每个成员都宁愿接受一套相对严格、有张有弛的音位规则,并在牙牙学语的孩提时代就已掌握这套规则。
即便音位规则并未扩大易混音素的听觉差异,它也可以给听者带来好处。它使得语音模式具有可预测性,从而增加了语言的“羡余性”(redundancy)。据估 计,就携带的信息量而言,英语文本的实际长度是其所需长度的2~4倍。例如,本书在我的计算机磁盘中占了900 000个字符,但我的压缩软件可以利用字母排列顺序的羡余性,将其压缩到400 000个字符,而不含英语文本的计算机文件则无法压缩到这个程度。逻辑学家奎因解释了为何许多系统都具有羡余性特征:
这是对最低需求的一种明智超越。这是一座设计精良的大桥在承受始料未及的压力时依然屹立不倒的原因所在。这是未雨绸缪的保护之策。这也是为什么我们在填写邮寄地址时尽管已注明邮政编码,却仍要写下城市和州名的原因,否则的话,一旦邮政编码中的某个数字写得不太清楚,就可能搞砸一切……据传说,有个王国曾经因为缺少一个马掌钉而灭亡。羡余性正是我们防范这种不稳定因素的手段。
多亏了语言的羡余性,即便将句子中的元音全部替换成“x”,你也能读懂我所写的内容(yxx cxn xndxrstxnd whxt x xm wrxtxng xvsn xf x rxplxcx xll thx vxwxls wxth xn“x”);而如果把句中的元音都去掉的话,辨别起来就更难一些(t gts lttl hrdr f y dn’t vn kn whr th vwls r)。在倾听别人说话的时候,音位规则所提供的羡余性能够补偿声波上的模棱两可之处。例如,当听者听到“thisrip”这个音时,他知道这一定是“this rip”而不是“the srip”,因为在英语中,[sr]这个辅音连缀是不合法的。
为什么语音识别如此之难
那么,为什么我们已经可以将人送上月球,却制造不出一台具有听读功能的计算机呢?根据我前面的解释,每个音素都拥有一个专有的听觉签名:对元音来说是一组共振,对擦音来说是一段噪声,对塞音来说是一个气流的爆破过程。按部就班的音位规则以可预测的方式对音素的排列次序进行规范调整。假设我们可以循着这些规则原路返回,想必就可以回到最初的起点。
语音识别之所以如此困难,是因为人类的大脑和口头之间存在许多龃龉之处。世界上没有两个人的声音是相同的,无论是声道形状还是发音习惯,都存在个体差异。说话的语气和速度也会影响音素的听觉效果。在快速交谈的时候,许多音素会被直接略过。
但是,为什么我们目前还无法制造出一台电子速记设备?主要原因就是一种肌肉控制现象的存在:“协同发音”(coarticulation)。假设在你面前放一个碟子,在碟子旁边30厘米的地方放一个咖啡杯。现在要求你快速地触碰一下碟子,然后再拿起咖啡杯。显然,你会选择触碰离咖啡杯最近的碟子边缘,而不会触碰碟子的中心。而且,在你的手伸向碟子的同时,你的手指就已经做出了触碰碟子边缘的姿势。这一组平稳、自然的重叠动作是运动控制的一个普遍现象,它缩小了身体移动的必要力量,降低了关节的劳损度。在这一点上,舌头与喉头也不例外。当我们要发一个音素的音时,我们的舌头无法瞬间判断出自己应该抵达的目标位置。舌头是一块分量不轻的肉,它的移动需要一定的时间。因此在舌头移动的过程中,我们的大脑就已经通过轨道的计算,预测出了它的下一个位置,正如触碰碟子、拿起咖啡杯的操作一样。在条件允许的范围内,我们总是将舌头放在离下一个音素的发音位置最近的地方。如果当前的音素并没有要求发音器官必须处于怎样的状态,我们就会预测下一个音素的发音位置,并将发音器官提前摆好。但大多数人根本察觉不到这种调整,除非被有意提醒。请念一下“Cape Cod”(科德角),如果不是本书提醒,你可能永远都不会注意到这一点:在发这两个[k]音时,舌面的位置其实不同。此外,“horseshoe”中的第一个[s]音变成了[sh]音,“NPR”中的[n]音变成了[m]音,“month”和“width”中的[n]音和[d]音的发音位置是齿部,而不是通常的齿龈。
由于声波对共振腔的形状极其敏感,因此这种协同发音会对语音造成严重干扰。每个音素的语音特征都染上了前后音素的色彩,有时在其他音素的组合下甚至会丧失自己的语音特征。这就是为什么我们无法将录有“cat”一词的磁带进行剪裁,从中找出包含一个单独的[k]音的片段的原因。当你一路剪下去时,你得到的片段最终会从一个类似[ka]的音演变为类似一声“喳喳”声或口哨的声音。从理论上说,语流中的音素叠加现象对语音识别器来说是一个福音。正如我在本章开头部分提到的,辅音和元音的信号被同时传递出来,这极大地提高了音素的发音速度。此外,我们可以为每个给定的音素找到大量羡余的声音线索。但是,只有高度发达的语音识别器才能享受这一便利,这个识别器必须对声道的混音机制有所了解。
显然,人类的大脑就是这样一台高度发达的语音识别器,但没有人知道它是如何做到的。出于这个原因,研究语音知觉的心理学家和设计语音识别装置的工程师密切关注着彼此的研究工作。语音识别的难度大得惊人,从理论上说,我们或许只能找到仅有的几条解决方案。在这种情况下,大脑的工作原理可以为语音识别装置的设计提供最好的参考,反过来说,一台语音识别装置也可以帮助我们了解大脑的工作原理。
在言语研究的早期阶段,人们已经发现听者能够预测说话者可能要说的内容。这种预测可以缩小听者对语音信号的分析范围。我们已经注意到,音位规则能够提供一种可资利用的羡余度,但人类的能力并非仅限于此。心理学家乔治·米勒曾用磁带播放出一些夹杂着背景噪声的句子,并要求被试复述他们听到的内容。其中一些句子符合英语语法且合乎情理:
Furry wildcats fight furious battles.
毛茸茸的野猫们发生了激烈的搏斗。
Respectable jewelers give accurate appraisals.
受人尊敬的珠宝商给出了准确的鉴定。
Lighted cigarettes create smoky fumes.
点燃的香烟散发出呛人的烟雾。
Gallant gentlemen save distressed damsels.
勇敢的绅士们解救了受困的少女。
Soapy detergents dissolve greasy stains.
柔滑的洗涤剂溶解了油污。
而另一些句子则像“无颜的绿色念头”一样,由单词胡乱拼凑成短语,虽然符合语法,但意思却十分荒谬:
Furry jewelers create distressed stains.
毛茸茸的珠宝商们散发出受困的污渍。
Respectable cigarettes save greasy battles.
受人尊敬的香烟解救了油腻的战斗。
Lighted gentlemen dissolve furious appraisals.
点燃的绅士们溶解了激烈的鉴定。
Gallant detergents fight accurate fumes.
勇敢的洗涤剂与准确的烟雾发生了搏斗。
Soapy wildcats give smoky damsels.
柔滑的野猫们给出了呛人的少女。
还有的句子是将短语结构打乱,将相关的单词放在一起,例如:
Furry fight furious wildcat battles.
毛茸茸打架激烈的野猫战斗。
Jewelers respectable appraisals accurate give.
珠宝商们受人尊敬的鉴定准确地给出。
最后是由单词混乱堆砌而成的句子,例如:
Furry create distressed jewelers stains.
毛茸茸的创建受困的珠宝商们污渍。
Cigarettes respectable battles greasy save.
香烟受人尊敬的战斗油腻的拯救。
结果显示,人们最擅长准确地复述那些既符合语法又合乎情理的句子,其次是符合语法但毫无意义的句子和不合语法但稍有意义的句子,最差的是不合语法又毫无意义的句子。
THE
INSTINCT
LANGUAGE
语言认知实验室
数年之后,心理学家理查德·沃伦(Richard Warren)也进行了一个类似的实验,他将一些句子的录音放给被试听,例如“The state governors met with their respective legislatures convening in the capital city”,只不过他将“legislatures”的第一个“s”剪掉,换上一个咳嗽的声音。结果听者根本没有注意到这个被去掉的声音。
如果我们将声波认定为语言结构层级的最底层,即由声音到音素,由音素到单词,由单词到短语,由短语到句子,最后由句子到思想,那么我们所揭示的现象似乎表明,人类的语音知觉似乎采用的是由上而下,而非由下而上的工作机制。或许我们一直都在自觉或不自觉地利用所有可供支配的知识,猜测说话者下一句将要说出的内容:从协同发音对声音的扭曲影响,到英语的各种音位规则和语法规则,再到有关现实世界的人际关系的固有印象,以及对说话者此时此刻心中所想的推断。如果这些预测足够准确,那么大脑的声学分析就可以不必那么精确,声波缺失的内容可以由背景知识来填补。举例而言,如果你正在聆听一场有关生态破坏的报告,你会特别留心与濒危动植物相关的单词,当你听到一个含混的发音“eesees”时,你能够将它正确地理解为“species”(物种),除非你是《周六夜现场》那位耳背的新闻评论员艾米丽·莱特娜(Emily Litella),对保护濒危粪便(endangered feces)[6]运动大加鞭挞。事实上,喜剧明星吉尔达·拉德纳(Gilda Radner)扮演的一些角色之所以许多笑话迭出,例如义正词严地反对拯救“苏联珠宝”(Soviet jewelry)[7]、谴责制止“街头小提琴”(violins in the streets)[8]、反对保护“自然赛马”(natural racehorses)[9],并不是因为底层的语音处理系统出了问题,而是因为上层的知识结构存在缺陷,这个知识结构本可以阻止她得出错误的理解。
语音知觉由上而下的工作机制让某些人深感不安,它验证了相对主义的哲学理论:我们想听到什么,就听到了什么,我们的认识决定了我们的知觉,最终而言,我们与客观世界并没有直接联系。从某种意义上说,任由上层摆布的知觉的确是一种受到控制的幻觉,这正是问题所在。一个感知者如果必须仰仗自己的预测,那么他显然处于十分不利的位置,因为这个世界是无法预测的,即便在最好的条件下也是如此。我们有理由相信,人类的语音知觉在很大程度上来自于客观的声音。
如果你有一个不怕麻烦的朋友,你可以尝试下面这个实验。首先,从词典里随机挑选出10个单词,然后给这位朋友打电话,将这10个单词清楚地报给他听。你的朋友很可能仅仅依靠声波以及英语词语、语音方面的知识,就足以将这10个单词拼写下来。此时,你的朋友不可能用到短语结构、背景知识或者故事情节等更高层级的预测能力,因为一组随机出现的单词提供不了任何相关信息。虽然我们在嘈杂的环境下会求助于更高层级的概念知识(即便在这种情况下,我们也无法确定到底是知识改变了知觉,还是它仅仅让我们能够在事后做出合理的猜测),但我们的大脑似乎天生就能够将声波所携带的语音信息完全提取出来,我们的第六感或许是将语音感知为语言,而非声音。但它毕竟是一种知觉,是将我们和外部世界联系起来的媒介,而不仅仅是一种暗示性的幻觉。
还有一种现象可以证明语音知觉并不是一种源自幻觉的期待,这就是专栏作家乔恩·卡罗尔(Jon Carroll)所说的“幻听”。卡罗尔曾经听错了苏格兰民谣《莫雷的伯尼伯爵》(The Bonnie Earl O’Moray)的歌词:
They have slain the Earl of Moray,
And laid him on the green.
他们杀死了莫雷的伯爵,
并将他放在了青草地上。
他一直以为这两句是“They have slain the Earl of Moray, And Lady Mondegreen”(他们杀死了莫雷的伯爵和莫德格林夫人)。幻听是一种非常普遍的现象(它是前文提到的“the Pullet Surprises”和“Pencil Vaneas”的升级版),例如:
A girl with colitis goes by.
一个患有结肠炎的女孩走了过去。
A girl with kaleidoscope eyes.
一个双眸如万花筒的女孩。——出自甲壳虫乐队歌曲《缀满钻石天空下的露西》
Our father wishart in heaven; Harold be they name …Lead us not into Penn Station.
我们在天上的父威沙特,哈罗德是他们的名字……不要让我们进入宾州车站。
Our father which art in Heaven; hallowed be thy name …Lead us not into temptation. From the Lord’s Prayer.
我们在天上的父,愿人都尊你的名为圣……不叫我们遇见试探。——出自《主祷文》
He is trampling out the vintage where the grapes are wrapped and stored.
他正在踩踏摧毁包裹、储藏葡萄的地方。
He is trampling out the vintage where grapes of wrath are stored.
他正在踩踏摧毁储藏盛怒葡萄的地方。——出自《共和国战歌》。
Gladly the cross-eyed bear.
快乐的斗眼熊。
Gladly the cross I’d bear.
我欣然背负的十字架。
I’ll never be your pizza burnin’.
我从来都不想成为你的烤比萨。
I’ll never be your beast of burden.
我永不会成为你的负担。——出自滚石乐队的歌曲
It’s a happy enchilada, and you think you’re gonna drown.
这是个快乐的辣肉馅玉米卷,而你却认为自己就要被淹死。
It’s a half an inch of water and you think you’re gonna drown.
这里的水有半英寸深,而你却认为自己就要被淹死。——出自约翰·普林的歌曲《世界转动的方法》
幻听的有趣之处在于,听错的内容通常比歌词本身更不合理。它们完全不符合一位理性的听者对说话者表述内容所做的一般预期。在一个案例中,有个学生固执地将骇人蓝乐队(Shocking Blue)的热门歌曲《我是你的维纳斯》(I’m your Venus)听成了“我是你的阴茎”(I’m Your Penis),他非常奇怪为什么这样的歌曲可以在电台中播放。这些幻听的句子的确符合英语的语音、语法(有时)和词语(虽然并不总是这样,例如“mondegreen”一词本身)。显然,听者被一组与语音相符的单词所引导,这些单词的组合形式或多或少地符合英语短语的结构规则,但合理性和一般预期却没有派上用场。
人工语音识别的研究史也提供了类似的证据。20世纪70年代,在雷伊·雷蒂(Raj Reddy)的带领下,美国卡内基梅隆大学的一组人工智能研究人员设计了一个名为“HEARSAY”的计算机程序,它能够依据人们的口头指令移动棋子。在自上而下的语音知觉理论的影响下,他们设计的程序是一个由许多“专家”子程序构成的“社区”,这些子程序相互合作,对语音信号做出最为合理的解释,其中有的子程序专门负责声学分析,有的则负责语音、词语或者语法,还有的专门负责棋子的走法,甚至下棋时的棋局策略。有一个故事是这样的:国防部的某位将军曾经莅临研究所,参观这个由国防部资助的研究项目。当他坐在棋盘前,面对连着计算机的麦克风时,科学家们都不由得捏了一把汗。结果将军清了清嗓子,程序立刻显示:“王兵进两格。”
本章前面提到的最新程序声龙听写更侧重于声学、语音和词法的分析,这似乎是它更为成功的原因所在。这个程序拥有一部包含单词及其音素排列的词典。为了准确预测音位规则和协同发音的影响,设计者让程序掌握了每个英语音素在任何一个可能音素之前或之后的发音情况。对于每一个单词而言,这种“音素-语境”关系构成了一个微型链条,并附带有声音单位的转换概率。这个链条是人类语音机制的原始模型。当现实中的真人使用这个程序时,链条中的概率会进行调整,以捕捉说话者的语言习惯。此外,每个单词也附带有一个概率,这取决于该单词在该种语言中的出现频率和说话者的语言习惯。在这个程序的某些版本中,每个单词的概率值会依据前面出现的单词进行调整。这是该程序唯一用到的自上而下的信息。通过这些知识,这个程序能够计算出输入语音信号的说话者最有可能说出哪个单词。即便如此,比起听力正常的普通人来,“声龙听写”还是更加依赖于预期判断。在我所观看的演示中,即便是在发音清晰无误的情况下,这个程序也要经过一番周折才能分辨“word”和“worm”,因为它一直在计算概率,期待出现频率更高的“were”的出现。
现在,你已经知道单个语音单位如何产生,它们在心理词典中如何表征以及在被说出之前又经过了怎样的调整和修饰了。接下来就是本章的最后部分,也是最值得探讨的一个问题:为什么英语拼写体系并不像乍看之下那么令人抓狂。
当然,人们对英语拼写体系的抱怨在于:虽然英语单词的拼写形式表面上与读音相符,但实际上却并非如此。有一首流传悠久的打油诗说明了这一点,其中一节内容最为典型:
Beware of heard, a dreadful word
That looks like beard and sounds like bird,
And dead:it’s said like bed, not bead—
For goodness’ sake don’t call it “deed”!
Watch out for meat and great and threat
(They rhyme with suite and straight and debt).
请注意“heard”,一个可怕的单词
它看起来像“beard”,读起来却像“bird”。
还有“dead”,它读起来像“bed”,而非“bead”。
看在老天的份上可别把它说成“deed”!
还要注意“meat” “great”和“threat”。
(它们分别与“suite” “straight” “debt”同韵)。
萧伯纳曾经积极地倡导英语字母的改革。他表示,英语的拼写体系完全不合逻辑,例如“fish”一词就完全可以拼成“ghoti”,因为“gh”在“tough”中发[f]的音,“o”在“women”中发[i]的音,“ti”在“nation”中发[?]的音。此外我们还可以将“minute”拼成“mnomnoupte”,将“mistake”拼成“mnopspteiche”。萧伯纳在遗嘱中留下了一笔奖金,用以奖励替代性英文字母表的设计者。这套字母表的特点是,口语中的每一种声音都与表中的一个字母符号形成对应关系。他这样写道:
要了解使用42个音标字母所带来的年际差异……你必须计算一年有多少分钟,以及每一分钟又有多少人在书写英语单词,铸造英文字模以及生产英文打字机。当你面对这个天文数字时,就会充分地意识到,即便是一个音对应两个字母符号的拼写体系,也已经让我们在几百年的时间里耗费了无数的多余精力。一套包含42个字母的新英文字母表将为我们收回巨大的成本,每时每刻都能带来几百万倍的回报。如果这套字母表得到推广,所有用来区分“enough”“cough”和“laugh”的无谓精力都会被节省下来,简化拼写运动将变得多此一举,而经济学家和统计学家也能够动手确立一套标准规范的文字使用规则了。
我并不想为英语拼写体系进行辩护。虽然语言是一种本能,但书面文字却不是。历史上发明的书面文字只有少数几种,而拼音文字,即字母与声音相对应的文字,似乎只发明过一次。许多民族并没有书面语言,那些拥有书面语言的民族也大都是从发明文字的民族那里继承或借用来的。儿童必须经过艰苦的学习才能掌握读书和写字的本领,拼写知识的习得过程不存在爆炸式发展,而且有些人始终无法掌握这门技艺。由于缺乏教育而大字不识在世界上许多地方都是一种普遍现象。难语症(dyslexia),是一种被认为由于先天缺陷而导致的阅读障碍,即便在工业化社会它也是一个严重问题,其患者人数约占总人口的5%~10%。
但是,虽然书面文字是一种连接视觉和语言的人工装置,但它必须和语言系统形成清晰明确的对应关系,这使它也拥有了一定的逻辑规则。在所有已知的书写系统中,文字符号通常指代三种语言结构:语素、音节或音素。如美索不达米亚的楔形文字、埃及的象形文字、汉语的意音文字以及日文汉字都属于语素文字;彻罗基语、古塞浦路斯语以及日文假名都是音节文字;而现代所有的音素文字似乎都源自公元前1700年的迦南人发明的一套拼音符号。总之,没有一套书写系统的符号与实际的声音单位相对应,使之可以在示波器或者声谱图上被识别出来,例如一个在特定语音背景下的音素发音,或者一个被拦腰斩断的音节。
为什么没有一个书写系统符合萧伯纳的理想?为什么不能用一个符号对应一个声音?就像萧伯纳自己在其他场合所说的一句话:“生活中只有两个悲剧:一个是没有得到你想要的,另一个是得到了你想要的。”只要回想一下音位规则和协同发音的工作原理,我们就可以明白其中的道理。一套标准的萧式字母将不得不区分“write”和“ride”中的不同元音,又不得不区分“write”和“writing”中的不同辅音,另外还要用不同的拼写方式来分别代表“slapped”“sobbed”和“sorted”的过去式后缀。“Cape Cod”将失去字面上的叠声形式,“horse”(马)的拼写到了“horseshoe”(马蹄)中就要发生改变。“National Public Radio”(国家公用无线电台)的缩写将莫名其妙地变成“MPR”。我们需要用新的字母来表示“month”中的“n”和“width”中的“d”。我也许可以将“often”拼得与“orphan”不同,但我的在线好友恐怕就不会这样。反过来说,我的网友拼出的“career”也许和我拼出的“Korea”一模一样。
显然,字母不能也不应该和声音形成对应关系,它们最多只能对应到心理词典中的某个特定音素。实际的语音会根据不同的语境发生变化,因此,绝对的音位拼写只会模糊它们的内在身份。表层的语音可以通过音位规则进行预测,因此,我们没有必要制造出一大堆杂乱无章的符号代表实际的语音。读者只要掌握单词的基本架构,就可以在需要的时候还原它的读音。事实上,大约有84%的英语单词是可以依据规则进行预测和拼写的。此外,由于时间和地理的阻隔,方言的音位规则存在许多差异,而正是这些音位规则将心理词典中的各个条目转换为实际语音。因此,一套与心理条目而非实际语音相对应的拼写体系可以为人们所通用。而那些拼写方式颇为古怪的单词(例如“of” “people”“women” “have” “said”“do”“done”“give”)通常都是最为常用的单词,因此人们有充分的时间去记住它们。
此外,即便是拼写体系中较难预测的部分也表现出潜在的语言规则。请看下面这几对单词,每对单词中都有相同的字母发不同的音的情况:

根据以上情形,我们可以为发音不同但拼写相同的现象找到另一个原因:它可以帮助我们识别源自相同词根的不同单词。这表明,英语的拼写体系并不完全以音素为基础。在某些时候,英语字母的确代表音素;但在有的情况下,一组字母序列可以用来代表一个特定的语素。实际上,语素拼写体系往往比你想象的更为有用。毕竟我们阅读的目的是理解文章的意思,而不是把它朗读出来。语素拼写体系可以帮助读者区分同音异义的单词,例如“meet”和“mete”。它还可以提示读者一个单词中包含了另一个单词(而不仅仅是一个语音上的冒牌货)。例如,语素拼写告诉我们“overcome”中包含了单词“come”,因此它的过去式一定是“overcame”,而“succumb”虽然也包含了[kum]的音,但语素却并不是“come”,因此它的过去式不是“succame”而是“succumbed”。同样,“recede”的名词形式是“recession”,而它的同音词“re-seed”的名词形式则是“re-seeding”。
从某种程度上说,语素拼写体系一直为汉语使用者提供着良好的服务,尽管它也存在一些先天缺陷,例如当读者遇到一个新字或罕见字时,就会感到无从下手。互不相通的方言可以共用一种书面语言,即便说话者南腔北调。同样,现代人也可以读懂数千年前的众多历史文献。马克·吐温曾经说过我们自身的罗马文字系统的这种惰性现象:“他们把它写成‘Vinci’,却把它读作‘Vinchy’,外国人在拼写上总是比发音要好。”
当然,英语拼写体系还有不少可以改进之处,但它的表现已经比人们想象的要好得多,这是因为拼写体系并不需要对应实际的语音,它的作用是代表潜藏于语音之下的抽象的语言单位,因为这才是我们真正聆听的对象。
[1]?汉普蒂·邓普蒂(Humpty Dumpty):英国童谣中从墙上摔下跌得粉碎的蛋形矮胖子。——译者注
[2]?山梨正明故意用日本口音来说“election”(大选)一词,使之听上去像“erection”(勃起)。——译者注
[3]?说方言:特指在宗教拜神仪式中讲出一些不为人知的语言。——译者注
[4]?20世纪美国作家,其作品常具讽刺意味。——编者注
[5]?“udder”为乳房的意思,与“utter”(彻底的)同音。——译者注
[6]?实际为“endangered species”,濒危物种。——译者注
[7]?实际为“Soviet Jewry”,苏联犹太人。——译者注
[8]?实际为“violence in the streets”,街头暴力。——译者注
[9]?实际为“natural resource”,自然资源。——译者注