要理解语音的本质,我们有一个简单的方法,即考察一股气流是如何从腹部开始经由声道传播于口外的。
在说话时,我们会改变正常的呼吸频率,更为快速地吸入空气,然后借助肋部肌肉的力量抵消肺部的弹性回缩,将它平缓地释放出来。如果不这样做,我们说的话听起来就会像气球放气时发出的声音,单调而乏味。在这里,语法比二氧化碳更有优先权:我们抑制住调节身体摄氧量的呼吸循环系统,将呼气时间延长到一个短语或者句子的长度。这可能会导致轻微的呼吸过度或者缺氧,从而也解释了为什么发表一场公共演说是如此累人,以及为什么我们很难一边跑步一边和他人交谈的原因。
气流离开肺部,沿气管上行,直达喉头(也就是我们可以看见的咽喉的突起部位喉结)。喉头类似于一个阀门,中间有一道缝隙,即声门,声门两侧分别覆盖着一片可以自由伸缩的肌肉组织,也就是人们所说的声带(不过它更准确的名称是声襞,因为它并非如早期解剖学家所认为的那样是一种带状组织)。声带能够关闭声门,从而将气流密封在肺部。这可以帮助我们鼓起自己的上半身,就像扎紧的气囊一般。如果你试图在不使用双手的情况下从椅子上站起来,你就会感觉到自己的喉头是紧缩的。在出现咳嗽、排便等生理行为时,喉头也会关闭。举重运动员或者网球选手在发力时会发出嘶吼,也说明了我们是使用同一个器官来密封肺部和制造声音的。
声带也可以部分地闭合声门,使得气流在通过声门的时候发出嗡鸣的声音。这是因为高度压缩的气流将声带向外推开,而声带又会迅速反弹,将声门关闭,直到气流压力不断累积,迫使它再度打开,从而开始一个新的循环。因此,一股气流被化整为零,间断性地释放出来,由此发出一种嗡鸣声,我们称之为“浊音”(voicing)。你可以试着分别发出“ssssssss”和“zzzzzzzz”的声音,前者是不带声的清音,后者是带声的浊音。
声带的开合频率决定了声音的音高。通过改变声带的张力和位置,我们可以控制它的开合频率,由此也可以控制音高。这一点最明显地表现在哼歌或唱歌时,但在说话的时候,我们也会在一句话中不断地改变音高,这一过程就是“语调”(intonation)。正常的语调使得人类在语言发音上有别于科幻电影中的机器人以及《周六夜现场》节目中的尖头外星人。语调也可以用来表示讽刺、强调以及说话者的喜怒哀乐等情绪。在所谓的“声调语言”(如汉语)中,人们通过升降调来区分词义。
虽然浊音产生的声波拥有主要的振动频率,但它与音叉或应急警报等只拥有一个频率的纯音不同。浊音是一种频率丰富、拥有多种“谐波”(harmonic)的声音。例如,男声声波的振动频率不仅限定于100Hz,还包括200Hz、300Hz、400Hz、500Hz、600Hz、700Hz直至4 000Hz以上,女声声波的振动频率则包括200Hz、400Hz、600Hz不等。在这里,声源的丰富性就显得至关重要,它为声道的其他部分制造元音和辅音提供了原料。
如果我们由于某种原因不能用喉头发声,则可以借助任何一种频率丰富的声源来实现这一点。在低声耳语时,我们的声带是平展的,这导致气流沿着声带边缘四散开来,从而形成一种紊流或噪声,听起来就像“嘶嘶”的声音或者无线电静态噪声。这种“嘶嘶”声并不是由一系列谐波构成的不断重复的声波,如我们说话时发出的周期性声音,而是一种忽高忽低的锯齿状声波,由时刻变化的频率混合而成。然而,这一混合材料正是声道的其余部分用来制造窃窃私语的原料。一些被切除喉头的患者能够学会用食管发声,或者通过打嗝的方法来制造必要的声音;有些人则在自己的颈部放置振动器。20世纪70年代,吉他手彼得·佛莱普顿(Peter Frampton)就将电吉他的扩声通过管道传入嘴中,好让自己能够在演唱时发出弦音,正是这种弦音效果助其收获了摇滚生涯中的两张热卖唱片。
这股振频丰富的气流在离开身体之前,还要穿过一段狭长的空腔:它包括舌头后面的咽喉、舌头和上颚之间的口腔、双唇的开合部位以及另一条备用通道:鼻腔。每段空腔都具有特定的长度和形状,能够通过“共振”(resonance)的方式对穿过的声音产生影响。不同频率的声音有不同的波长(即声波波峰之间的距离),音调越高,波长就越短。在通过具有一定长度的管道时,声波会在到达管道的另一端时向后反弹。如果管道的长度和声波的波长形成一定的比例,每个反弹的回波都会增强下一个来波。如果长度不同,那么回波和来波就会互相干扰,这就好比荡秋千,如果你能在秋千荡得最高的时候稍加推力,就能收到最好的效果。因此,一个特定长度的管道能够放大某种频率的声音,并过滤掉其他频率的声音。你可以通过给一个瓶子注水来体验这种效果:搅动的水声被水面和瓶子开口之间的空气柱过滤,水越多,空气柱就越短,共振频率也就越高,水声也就越小。
我们听到的各种元音,都是对喉头所发出的声音进行放大或过滤的结果,只不过在组合方式上有所不同。通过移动口腔中的5个发音器官的位置,我们可以改变共振腔的形状和长度,以形成不同的组合共振。例如,[ee]这个音是由两种共振组合而成,一种是以喉腔为主的共振,频率介于200~350Hz之间,另一种则是以口腔为主的共振,频率介于2 100~3 000Hz之间。一个空腔过滤的频率范围与进入该空腔的特定的频率组合并不相干,因此,无论是说话还是耳语、高歌还是低唱、嗝音还是鼻音,所有的[ee]音听起来都是一个音。
舌头是最重要的言语器官,因此语言也的确称得上是一门“舌头的艺术”。实际上,舌头是三个器官的总和:舌尖、舌面和舌根(即与下颚相连的肌肉)。如果你重复地发“bet”和“butt”中的元音:[e-uh]、[e-uh]、[e-uh],就能够感觉到舌面在向前和向后反复移动(你可以通过将手指放在上下牙齿之间来感觉这种移动)。当舌头位于口腔前部时,它可以拉长舌头与喉咙之间的空腔,同时缩短舌头与双唇之间的空腔,从而改变声音的共振方式。在发“bet”的元音时,口腔可以放大振频为600Hz和1 800Hz的声音;而在发“butt”的元音时,口腔放大的是振频为600Hz和1 200Hz的声音。现在请你试着交替发出“beet”和“bat”的元音,你会发现舌面在上下跳动,运动轨迹正好与“bet-butt”的舌部运动相垂直,你甚至可以感觉到自己的下颚也在跟着舌头一起运动,以便形成发音。这种运动同样能够改变喉咙和口腔的形状,从而改变声音的共振。大脑则将不同方式的放大和过滤解读为不同的元音。
舌部运动与元音之间形成的紧密联系导致了一个颇为奇特的现象,这种现象出现在包括英语在内的许多语言之中,即“语音象征主义”(phonetic symbolism)。当舌头较高,且位置靠前时,形成的是一个空间较小的共振腔,它放大的都是高频率的音。由此一来,以这种方式产生的元音(例如[ee]和[i])常常让人们联想到微末之事。与此相对的是,当舌头较低,且位置靠后时,形成的则是一个空间较大的共振腔,它放大的都是低频率的音,由此产生的元音(例如“father”中的[a]以及“core”“cot”中的[o])常常让人们联想到庞然大物。因此在英文中,老鼠被叫作“mice”,它体型很小(teeny),声音尖细(squeak);而大象则被称为“elephant”,它体型庞大(humongous),声音洪亮(roar)。又比如,音箱上的高音扬声器(tweeter)的口径总是比低音扬声器(woofer)的口径小。此外,以英语为母语的人能够准确地猜出汉语里的“轻”(ch’ing)字代表重量小,“重”(ch’ung)字代表重量大(在针对大量外语单词的对照研究中,被试的准确率高于随机猜测,尽管不是特别明显)。我曾经向我身边一位计算机达人请教过“frob”一词的意思,她生动形象地给我上了一堂“黑客英语”辅导课:假设你为自己的立体音响添置了一台新的图示均衡器,首先,你会漫无目的地上下移动控制按钮,以测听这台设备的一般效果,这就是“frobbing”(调着玩)。然后,你会通过适度地移动旋钮,找出自己喜欢的音段,这就是“twiddling”(扭转)。最后,你会做出更为细微的调整,以获得最完美的音质,这就是“tweaking”(微调)。根据这段解释,“ob”“id”和“eak”的发音恰好符合语音象征主义的大小规则。
你是否愿意冒着被娱乐节日《60分钟》(Sixty Minutes)主持人安迪·鲁尼(Andy Rooney)附体的风险,想一想我们为什么不将“fiddle-faddle”(无聊)说成“faddle-fiddle”,不将“ping-pong”(乒乓球)说成“pong-ping”,不将“pitter-patter”(噼啪声)说成“patter-pitter”?为什么我们不能用“span and spic”来形容厨房的整洁,而必须说“spic and span”。同样,为什么我们必须说“riff-raff”“mish-mash”“flim-flam”“chit-chat”“tit for tat”“knick-knack”“zig-zag”“sing-song”“ding-dong”“King Kong”“criss-cross”“shilly-shally”“see-saw”“hee-haw”“flip-flop”“hippity-hop”“tick-tock”“tic-tac-toe”“eeny-meeny-miney-moe”“bric-a-brac”“clickety-clack”“hickory-dickory-dock”“kit and caboodle”“bibbity-bobbity-boo”?答案是:舌位高而前的元音往往居于舌位低而后的元音之前。没有人知道为什么这些单词要按照这样的顺序结合在一起,但它似乎能够以三段论的形式,通过另外两种奇特的现象推导出来。第一,包含“我、此时、此地”之意的单词往往拥有舌位高而前的元音,而远离“我、此时、此地”的单词则拥有舌位低而后的元音,如“me”与“you”、“here”与“there”、“this”与“that”。第二,在排列顺序上,包含“我、此时、此地”之意的单词往往排在前面,而在字面上或意味上远离“我”(或者说话者本人)的单词则排在后面,例如“here and there”(而非“there and here”)、“this and that”“now and then”“father and son”“man and machine”“friend or foe”“the Harvard-Yale game”(哈佛大学的叫法)、“the Yale-Harvard game”(耶鲁大学的叫法)、“Serbo-Croatian”(塞尔维亚人的叫法),“Croat-Serbian”(克罗地亚人的叫法)。因此,这个三段论可以表述为:
前提一:“我”=高前元音,
前提二:“我”通常位于前排,
结论:高前元音通常位于前排。
接下来让我们考察一下其他的言语器官。你可以试着交替发出“boot”和“book”的元音,并注意自己的嘴唇变化。当你发“boot”的音时,你的嘴唇呈圆形并向前突出,这等于在声道前端增加了一个空腔。这个空腔拥有自己的共振值,可以放大和过滤其他振频,使其发出的元音和其他元音形成明显的差别。正是由于唇形变化对声音效果的影响,我们才能在与兴高采烈的人通电话时“听”到他的微笑。
还记得你的小学老师曾经教过的内容吗?“bat”“bet”“bit”“bottle”“butt”中的元音是“短音”,“bait”“beet”“bite”“boat”“boot”中的元音是“长音”。你当时是不是根本不知道她在说什么?很好,请把它们统统忘掉吧,这些知识早已是陈年往事。早期英语往往通过元音发音的快慢来区分单词,这有点儿像现代英语中“bad”(坏)与“baaaad”(好)的区别。但到了15世纪,英语的发音经历了一场大地震,史称“元音大转移”(Great Vowel Shift)。通过舌根的前移,那些原本发音较长的元音变成了“紧元音”,即发音时舌头紧绷,舌面隆起,而不像以前那样松弛扁平。隆起的舌面缩小了口腔上方的空腔,改变了声音的共振。此外,现代英语中的一些紧元音,比如“bite”和“brow”的元音,属于“双元音”(diphthong),即两个元音快速、连续地发音,听起来就像是一个元音,如“bite”读作[ba-eet],“brow”读作[bra-oh]。
如果你尽可能地拉长“Sam”和“sat”的元音,推后词尾的辅音,就能听到第5个言语器官的音响效果。在大多数英语方言中,元音会因为被拉长而发生变化,例如“Sam”中的元音在被拉长后会带有浓重的鼻音,这是因为软腭(位于硬腭之后的肌肉组织)的张开使得空气得以从鼻腔通过。鼻腔也是一个共振室,当振动的空气从中经过时,它会放大和过滤另一组频率。在英语中,人们不会根据元音是否带有鼻音来区分单词,但是像法语、波兰语和葡萄牙语等许多语言却是这么做的。有些以英语为母语的人即便在说“sat”时也会把软腭张开,但我们只会认为这是带有鼻音而已,并不会把它听成另一个单词。当你因为感冒而出现鼻塞的症状时,打不打开软腭就没有什么分别了,此时你的发音显然不带鼻音。
到目前为止,我们探讨的都是元音。在发这些音时,气流从喉头出发直达外界,整个过程畅通无阻。如果气流在途中遇到某种阻碍,就形成了辅音。你可以试着发出“ssssss”的音,为了发这个音,你必须将舌尖(第6个言语器官)抬起,使之与牙床相抵,只留下一道细小的开口。如果你强迫气流穿过这个开口,这股气流就会汹涌地激荡开来,并发出“噪声”。根据开口的大小以及开口之前的谐振腔的长度,噪声中的某些声波会比其他频率的声波听起来更为响亮,这些声波的波峰和频率范围决定了[s]的音色。此外,这个噪声的产生是源自气流的摩擦,因此这类声音也被称为“擦音”(fricative)。如果将急促的气流从舌头和上颚之间挤出来,就可以得到[sh]的音;从舌头和牙齿之间挤出来,就可以得到[th]的音;从下唇和牙齿之间挤出来,就可以得到[f]的音。此外,我们还可以通过舌面或者声带的移动来制造湍流,以发出“ch”在德语、希伯来语、阿拉伯语中的不同读音,例如“Bach”(巴赫)、“Chanukah”(光明节)等。
现在请你发一下[t]的音。你可以感觉到,舌尖同样对气流形成了阻碍,但这一次它没有留下任何缝隙,而是完全阻塞了气流的前进。随着压力的增大,你猛然间放开舌尖,让气流喷涌而出(笛手们正是通过这种方式来分奏不同的音符的)。其他的“塞辅音”(stop consonant)还有:通过闭合双唇发出的[p]音、通过将舌面抵住上颚发出的[k]音以及由喉头发出的喉塞音(如“uh-oh”中的辅音)。当你发出一个塞辅音时,听者往往要经历以下三个阶段:首先,什么声音都没有,因为气流被障碍物完全阻塞,此时的塞辅音就像是“寂静之声”。然后,随着气流的释放,突然爆发出一种急促的噪声,它的振动频率取决于开口的大小和谐振腔的长度。最后,随着舌头滑动到下一个元音的发音位置,浊音逐渐加强,由此过渡为平缓变化的共振。正如我们将要看到的,这种三级跳式的发音方式令语音识别工程师痛苦不堪。
最后请你再发一下[m]的音。你双唇紧闭,就和发[p]音一样,但这一次气流并不是被无声地阻塞在空腔中,你可以持续地发出[mmmmm]的音,直到透不过气来。这是因为你在紧闭双唇的同时张开了软腭,使得所有空气得以通过鼻腔释放出来,这时发出的声音是在鼻腔和前部口腔的共振下被放大的结果。此时如果开启双唇,就会产生一种平缓变化的共振。从形式上看,这个共振与[p]音的共振非常相似,只是它无须经过“寂静-爆发-加强”这三个阶段。[n]的发音原理与[m]类似,只不过阻碍气流通行的是舌尖,同时,舌尖也是[d]和[s]的发音器官。此外,“sing”中的辅音[ng]也如此发音,只是阻碍气流通行的是舌面部分。
那么,我们为什么说“razzle-dazzle”而不说“dazzle-razzle”?为什么是“super-duper”“helter-skelter”“harum-scarum”“hocus-pocus”“willy-nilly”“hully-gully”“roly-poly”“holy moly”“herky-jerky”“walkie-talkie”“namby-pamby”“mumbo-jumbo”“loosey-goosey”“wing-ding”“wham-bam”“hobnob”“razza-matazz”“rub-a-dub-dub”?恐怕你从未想过这些问题。辅音之间的区别源自气流的阻塞程度:仅仅是使它产生共振,还是迫使它以噪声的形式通过障碍,又或者是完全阻止它的通行。以阻塞小的辅音开头的单词通常位于以阻塞大的辅音开头的单词之前,但这又是为什么呢?