《语言本能：探索人类语言进化的奥秘》为什么语音识别如此之难_语言本能：探索人类语言进化的奥秘全本免费在线阅读

那么，为什么我们已经可以将人送上月球，却制造不出一台具有听读功能的计算机呢？根据我前面的解释，每个音素都拥有一个专有的听觉签名：对元音来说是一组共振，对擦音来说是一段噪声，对塞音来说是一个气流的爆破过程。按部就班的音位规则以可预测的方式对音素的排列次序进行规范调整。假设我们可以循着这些规则原路返回，想必就可以回到最初的起点。

语音识别之所以如此困难，是因为人类的大脑和口头之间存在许多龃龉之处。世界上没有两个人的声音是相同的，无论是声道形状还是发音习惯，都存在个体差异。说话的语气和速度也会影响音素的听觉效果。在快速交谈的时候，许多音素会被直接略过。

但是，为什么我们目前还无法制造出一台电子速记设备？主要原因就是一种肌肉控制现象的存在：“协同发音”（coarticulation）。假设在你面前放一个碟子，在碟子旁边30厘米的地方放一个咖啡杯。现在要求你快速地触碰一下碟子，然后再拿起咖啡杯。显然，你会选择触碰离咖啡杯最近的碟子边缘，而不会触碰碟子的中心。而且，在你的手伸向碟子的同时，你的手指就已经做出了触碰碟子边缘的姿势。这一组平稳、自然的重叠动作是运动控制的一个普遍现象，它缩小了身体移动的必要力量，降低了关节的劳损度。在这一点上，舌头与喉头也不例外。当我们要发一个音素的音时，我们的舌头无法瞬间判断出自己应该抵达的目标位置。舌头是一块分量不轻的肉，它的移动需要一定的时间。因此在舌头移动的过程中，我们的大脑就已经通过轨道的计算，预测出了它的下一个位置，正如触碰碟子、拿起咖啡杯的操作一样。在条件允许的范围内，我们总是将舌头放在离下一个音素的发音位置最近的地方。如果当前的音素并没有要求发音器官必须处于怎样的状态，我们就会预测下一个音素的发音位置，并将发音器官提前摆好。但大多数人根本察觉不到这种调整，除非被有意提醒。请念一下“Cape Cod”（科德角），如果不是本书提醒，你可能永远都不会注意到这一点：在发这两个[k]音时，舌面的位置其实不同。此外，“horseshoe”中的第一个[s]音变成了[sh]音，“NPR”中的[n]音变成了[m]音，“month”和“width”中的[n]音和[d]音的发音位置是齿部，而不是通常的齿龈。

由于声波对共振腔的形状极其敏感，因此这种协同发音会对语音造成严重干扰。每个音素的语音特征都染上了前后音素的色彩，有时在其他音素的组合下甚至会丧失自己的语音特征。这就是为什么我们无法将录有“cat”一词的磁带进行剪裁，从中找出包含一个单独的[k]音的片段的原因。当你一路剪下去时，你得到的片段最终会从一个类似[ka]的音演变为类似一声“喳喳”声或口哨的声音。从理论上说，语流中的音素叠加现象对语音识别器来说是一个福音。正如我在本章开头部分提到的，辅音和元音的信号被同时传递出来，这极大地提高了音素的发音速度。此外，我们可以为每个给定的音素找到大量羡余的声音线索。但是，只有高度发达的语音识别器才能享受这一便利，这个识别器必须对声道的混音机制有所了解。

显然，人类的大脑就是这样一台高度发达的语音识别器，但没有人知道它是如何做到的。出于这个原因，研究语音知觉的心理学家和设计语音识别装置的工程师密切关注着彼此的研究工作。语音识别的难度大得惊人，从理论上说，我们或许只能找到仅有的几条解决方案。在这种情况下，大脑的工作原理可以为语音识别装置的设计提供最好的参考，反过来说，一台语音识别装置也可以帮助我们了解大脑的工作原理。

在言语研究的早期阶段，人们已经发现听者能够预测说话者可能要说的内容。这种预测可以缩小听者对语音信号的分析范围。我们已经注意到，音位规则能够提供一种可资利用的羡余度，但人类的能力并非仅限于此。心理学家乔治·米勒曾用磁带播放出一些夹杂着背景噪声的句子，并要求被试复述他们听到的内容。其中一些句子符合英语语法且合乎情理：

Furry wildcats fight furious battles.

毛茸茸的野猫们发生了激烈的搏斗。

Respectable jewelers give accurate appraisals.

受人尊敬的珠宝商给出了准确的鉴定。

Lighted cigarettes create smoky fumes.

点燃的香烟散发出呛人的烟雾。

Gallant gentlemen save distressed damsels.

勇敢的绅士们解救了受困的少女。

Soapy detergents dissolve greasy stains.

柔滑的洗涤剂溶解了油污。

而另一些句子则像“无颜的绿色念头”一样，由单词胡乱拼凑成短语，虽然符合语法，但意思却十分荒谬：

Furry jewelers create distressed stains.

毛茸茸的珠宝商们散发出受困的污渍。

Respectable cigarettes save greasy battles.

受人尊敬的香烟解救了油腻的战斗。

Lighted gentlemen dissolve furious appraisals.

点燃的绅士们溶解了激烈的鉴定。

Gallant detergents fight accurate fumes.

勇敢的洗涤剂与准确的烟雾发生了搏斗。

Soapy wildcats give smoky damsels.

柔滑的野猫们给出了呛人的少女。

还有的句子是将短语结构打乱，将相关的单词放在一起，例如：

Furry fight furious wildcat battles.

毛茸茸打架激烈的野猫战斗。

Jewelers respectable appraisals accurate give.

珠宝商们受人尊敬的鉴定准确地给出。

最后是由单词混乱堆砌而成的句子，例如：

Furry create distressed jewelers stains.

毛茸茸的创建受困的珠宝商们污渍。

Cigarettes respectable battles greasy save.

香烟受人尊敬的战斗油腻的拯救。

结果显示，人们最擅长准确地复述那些既符合语法又合乎情理的句子，其次是符合语法但毫无意义的句子和不合语法但稍有意义的句子，最差的是不合语法又毫无意义的句子。

The

Instinct

Language

语言认知实验室

数年之后，心理学家理查德·沃伦（Richard Warren）也进行了一个类似的实验，他将一些句子的录音放给被试听，例如“The state governors met with their respective legislatures convening in the capital city”，只不过他将“legislatures”的第一个“s”剪掉，换上一个咳嗽的声音。结果听者根本没有注意到这个被去掉的声音。

如果我们将声波认定为语言结构层级的最底层，即由声音到音素，由音素到单词，由单词到短语，由短语到句子，最后由句子到思想，那么我们所揭示的现象似乎表明，人类的语音知觉似乎采用的是由上而下，而非由下而上的工作机制。或许我们一直都在自觉或不自觉地利用所有可供支配的知识，猜测说话者下一句将要说出的内容：从协同发音对声音的扭曲影响，到英语的各种音位规则和语法规则，再到有关现实世界的人际关系的固有印象，以及对说话者此时此刻心中所想的推断。如果这些预测足够准确，那么大脑的声学分析就可以不必那么精确，声波缺失的内容可以由背景知识来填补。举例而言，如果你正在聆听一场有关生态破坏的报告，你会特别留心与濒危动植物相关的单词，当你听到一个含混的发音“eesees”时，你能够将它正确地理解为“species”（物种），除非你是《周六夜现场》那位耳背的新闻评论员艾米丽·莱特娜（Emily Litella），对保护濒危粪便（endangered feces）[6]运动大加鞭挞。事实上，喜剧明星吉尔达·拉德纳（Gilda Radner）扮演的一些角色之所以许多笑话迭出，例如义正词严地反对拯救“苏联珠宝”（Soviet jewelry）[7]、谴责制止“街头小提琴”（violins in the streets）[8]、反对保护“自然赛马”（natural racehorses）[9]，并不是因为底层的语音处理系统出了问题，而是因为上层的知识结构存在缺陷，这个知识结构本可以阻止她得出错误的理解。

语音知觉由上而下的工作机制让某些人深感不安，它验证了相对主义的哲学理论：我们想听到什么，就听到了什么，我们的认识决定了我们的知觉，最终而言，我们与客观世界并没有直接联系。从某种意义上说，任由上层摆布的知觉的确是一种受到控制的幻觉，这正是问题所在。一个感知者如果必须仰仗自己的预测，那么他显然处于十分不利的位置，因为这个世界是无法预测的，即便在最好的条件下也是如此。我们有理由相信，人类的语音知觉在很大程度上来自于客观的声音。

如果你有一个不怕麻烦的朋友，你可以尝试下面这个实验。首先，从词典里随机挑选出10个单词，然后给这位朋友打电话，将这10个单词清楚地报给他听。你的朋友很可能仅仅依靠声波以及英语词语、语音方面的知识，就足以将这10个单词拼写下来。此时，你的朋友不可能用到短语结构、背景知识或者故事情节等更高层级的预测能力，因为一组随机出现的单词提供不了任何相关信息。虽然我们在嘈杂的环境下会求助于更高层级的概念知识（即便在这种情况下，我们也无法确定到底是知识改变了知觉，还是它仅仅让我们能够在事后做出合理的猜测），但我们的大脑似乎天生就能够将声波所携带的语音信息完全提取出来，我们的第六感或许是将语音感知为语言，而非声音。但它毕竟是一种知觉，是将我们和外部世界联系起来的媒介，而不仅仅是一种暗示性的幻觉。

还有一种现象可以证明语音知觉并不是一种源自幻觉的期待，这就是专栏作家乔恩·卡罗尔（Jon Carroll）所说的“幻听”。卡罗尔曾经听错了苏格兰民谣《莫雷的伯尼伯爵》（The Bonnie Earl O’Moray）的歌词：

They have slain the Earl of Moray,

And laid him on the green.

他们杀死了莫雷的伯爵，

并将他放在了青草地上。

他一直以为这两句是“They have slain the Earl of Moray, And Lady Mondegreen”（他们杀死了莫雷的伯爵和莫德格林夫人）。幻听是一种非常普遍的现象（它是前文提到的“the Pullet Surprises”和“Pencil Vaneas”的升级版），例如：

A girl with colitis goes by.

一个患有结肠炎的女孩走了过去。

A girl with kaleidoscope eyes.

一个双眸如万花筒的女孩。——出自甲壳虫乐队歌曲《缀满钻石天空下的露西》

Our father wishart in heaven; Harold be they name …Lead us not into Penn Station.

我们在天上的父威沙特，哈罗德是他们的名字……不要让我们进入宾州车站。

Our father which art in Heaven; hallowed be thy name …Lead us not into temptation. From the Lord’s Prayer.

我们在天上的父，愿人都尊你的名为圣……不叫我们遇见试探。——出自《主祷文》

He is trampling out the vintage where the grapes are wrapped and stored.

他正在踩踏摧毁包裹、储藏葡萄的地方。

He is trampling out the vintage where grapes of wrath are stored.

他正在踩踏摧毁储藏盛怒葡萄的地方。——出自《共和国战歌》。

Gladly the cross-eyed bear.

快乐的斗眼熊。

Gladly the cross I’d bear.

我欣然背负的十字架。

I’ll never be your pizza burnin’.

我从来都不想成为你的烤比萨。

I’ll never be your beast of burden.

我永不会成为你的负担。——出自滚石乐队的歌曲

It’s a happy enchilada, and you think you’re gonna drown.

这是个快乐的辣肉馅玉米卷，而你却认为自己就要被淹死。

It’s a half an inch of water and you think you’re gonna drown.

这里的水有半英寸深，而你却认为自己就要被淹死。——出自约翰·普林的歌曲《世界转动的方法》

幻听的有趣之处在于，听错的内容通常比歌词本身更不合理。它们完全不符合一位理性的听者对说话者表述内容所做的一般预期。在一个案例中，有个学生固执地将骇人蓝乐队（Shocking Blue）的热门歌曲《我是你的维纳斯》（I’m your Venus）听成了“我是你的阴茎”（I’m Your Penis），他非常奇怪为什么这样的歌曲可以在电台中播放。这些幻听的句子的确符合英语的语音、语法（有时）和词语（虽然并不总是这样，例如“mondegreen”一词本身）。显然，听者被一组与语音相符的单词所引导，这些单词的组合形式或多或少地符合英语短语的结构规则，但合理性和一般预期却没有派上用场。

人工语音识别的研究史也提供了类似的证据。20世纪70年代，在雷伊·雷蒂（Raj Reddy）的带领下，美国卡内基梅隆大学的一组人工智能研究人员设计了一个名为“HEARSAY”的计算机程序，它能够依据人们的口头指令移动棋子。在自上而下的语音知觉理论的影响下，他们设计的程序是一个由许多“专家”子程序构成的“社区”，这些子程序相互合作，对语音信号做出最为合理的解释，其中有的子程序专门负责声学分析，有的则负责语音、词语或者语法，还有的专门负责棋子的走法，甚至下棋时的棋局策略。有一个故事是这样的：国防部的某位将军曾经莅临研究所，参观这个由国防部资助的研究项目。当他坐在棋盘前，面对连着计算机的麦克风时，科学家们都不由得捏了一把汗。结果将军清了清嗓子，程序立刻显示：“王兵进两格。”

本章前面提到的最新程序声龙听写更侧重于声学、语音和词法的分析，这似乎是它更为成功的原因所在。这个程序拥有一部包含单词及其音素排列的词典。为了准确预测音位规则和协同发音的影响，设计者让程序掌握了每个英语音素在任何一个可能音素之前或之后的发音情况。对于每一个单词而言，这种“音素-语境”关系构成了一个微型链条，并附带有声音单位的转换概率。这个链条是人类语音机制的原始模型。当现实中的真人使用这个程序时，链条中的概率会进行调整，以捕捉说话者的语言习惯。此外，每个单词也附带有一个概率，这取决于该单词在该种语言中的出现频率和说话者的语言习惯。在这个程序的某些版本中，每个单词的概率值会依据前面出现的单词进行调整。这是该程序唯一用到的自上而下的信息。通过这些知识，这个程序能够计算出输入语音信号的说话者最有可能说出哪个单词。即便如此，比起听力正常的普通人来，“声龙听写”还是更加依赖于预期判断。在我所观看的演示中，即便是在发音清晰无误的情况下，这个程序也要经过一番周折才能分辨“word”和“worm”，因为它一直在计算概率，期待出现频率更高的“were”的出现。

现在，你已经知道单个语音单位如何产生，它们在心理词典中如何表征以及在被说出之前又经过了怎样的调整和修饰了。接下来就是本章的最后部分，也是最值得探讨的一个问题：为什么英语拼写体系并不像乍看之下那么令人抓狂。

当然，人们对英语拼写体系的抱怨在于：虽然英语单词的拼写形式表面上与读音相符，但实际上却并非如此。有一首流传悠久的打油诗说明了这一点，其中一节内容最为典型：

Beware of heard, a dreadful word

That looks like beard and sounds like bird,

And dead：it’s said like bed, not bead—

For goodness’ sake don’t call it “deed”!

Watch out for meat and great and threat

（They rhyme with suite and straight and debt）.

请注意“heard”，一个可怕的单词

它看起来像“beard”，读起来却像“bird”。

还有“dead”，它读起来像“bed”，而非“bead”。

看在老天的份上可别把它说成“deed”!

还要注意“meat” “great”和“threat”。

（它们分别与“suite” “straight” “debt”同韵）。

萧伯纳曾经积极地倡导英语字母的改革。他表示，英语的拼写体系完全不合逻辑，例如“fish”一词就完全可以拼成“ghoti”，因为“gh”在“tough”中发[f]的音，“o”在“women”中发[i]的音，“ti”在“nation”中发[ʃ]的音。此外我们还可以将“minute”拼成“mnomnoupte”，将“mistake”拼成“mnopspteiche”。萧伯纳在遗嘱中留下了一笔奖金，用以奖励替代性英文字母表的设计者。这套字母表的特点是，口语中的每一种声音都与表中的一个字母符号形成对应关系。他这样写道：

要了解使用42个音标字母所带来的年际差异……你必须计算一年有多少分钟，以及每一分钟又有多少人在书写英语单词，铸造英文字模以及生产英文打字机。当你面对这个天文数字时，就会充分地意识到，即便是一个音对应两个字母符号的拼写体系，也已经让我们在几百年的时间里耗费了无数的多余精力。一套包含42个字母的新英文字母表将为我们收回巨大的成本，每时每刻都能带来几百万倍的回报。如果这套字母表得到推广，所有用来区分“enough”“cough”和“laugh”的无谓精力都会被节省下来，简化拼写运动将变得多此一举，而经济学家和统计学家也能够动手确立一套标准规范的文字使用规则了。

我并不想为英语拼写体系进行辩护。虽然语言是一种本能，但书面文字却不是。历史上发明的书面文字只有少数几种，而拼音文字，即字母与声音相对应的文字，似乎只发明过一次。许多民族并没有书面语言，那些拥有书面语言的民族也大都是从发明文字的民族那里继承或借用来的。儿童必须经过艰苦的学习才能掌握读书和写字的本领，拼写知识的习得过程不存在爆炸式发展，而且有些人始终无法掌握这门技艺。由于缺乏教育而大字不识在世界上许多地方都是一种普遍现象。难语症（dyslexia），是一种被认为由于先天缺陷而导致的阅读障碍，即便在工业化社会它也是一个严重问题，其患者人数约占总人口的5%~10%。

但是，虽然书面文字是一种连接视觉和语言的人工装置，但它必须和语言系统形成清晰明确的对应关系，这使它也拥有了一定的逻辑规则。在所有已知的书写系统中，文字符号通常指代三种语言结构：语素、音节或音素。如美索不达米亚的楔形文字、埃及的象形文字、汉语的意音文字以及日文汉字都属于语素文字；彻罗基语、古塞浦路斯语以及日文假名都是音节文字；而现代所有的音素文字似乎都源自公元前1700年的迦南人发明的一套拼音符号。总之，没有一套书写系统的符号与实际的声音单位相对应，使之可以在示波器或者声谱图上被识别出来，例如一个在特定语音背景下的音素发音，或者一个被拦腰斩断的音节。

为什么没有一个书写系统符合萧伯纳的理想？为什么不能用一个符号对应一个声音？就像萧伯纳自己在其他场合所说的一句话：“生活中只有两个悲剧：一个是没有得到你想要的，另一个是得到了你想要的。”只要回想一下音位规则和协同发音的工作原理，我们就可以明白其中的道理。一套标准的萧式字母将不得不区分“write”和“ride”中的不同元音，又不得不区分“write”和“writing”中的不同辅音，另外还要用不同的拼写方式来分别代表“slapped”“sobbed”和“sorted”的过去式后缀。“Cape Cod”将失去字面上的叠声形式，“horse”（马）的拼写到了“horseshoe”（马蹄）中就要发生改变。“National Public Radio”（国家公用无线电台）的缩写将莫名其妙地变成“MPR”。我们需要用新的字母来表示“month”中的“n”和“width”中的“d”。我也许可以将“often”拼得与“orphan”不同，但我的在线好友恐怕就不会这样。反过来说，我的网友拼出的“career”也许和我拼出的“Korea”一模一样。

显然，字母不能也不应该和声音形成对应关系，它们最多只能对应到心理词典中的某个特定音素。实际的语音会根据不同的语境发生变化，因此，绝对的音位拼写只会模糊它们的内在身份。表层的语音可以通过音位规则进行预测，因此，我们没有必要制造出一大堆杂乱无章的符号代表实际的语音。读者只要掌握单词的基本架构，就可以在需要的时候还原它的读音。事实上，大约有84%的英语单词是可以依据规则进行预测和拼写的。此外，由于时间和地理的阻隔，方言的音位规则存在许多差异，而正是这些音位规则将心理词典中的各个条目转换为实际语音。因此，一套与心理条目而非实际语音相对应的拼写体系可以为人们所通用。而那些拼写方式颇为古怪的单词（例如“of” “people”“women” “have” “said”“do”“done”“give”）通常都是最为常用的单词，因此人们有充分的时间去记住它们。

此外，即便是拼写体系中较难预测的部分也表现出潜在的语言规则。请看下面这几对单词，每对单词中都有相同的字母发不同的音的情况：

根据以上情形，我们可以为发音不同但拼写相同的现象找到另一个原因：它可以帮助我们识别源自相同词根的不同单词。这表明，英语的拼写体系并不完全以音素为基础。在某些时候，英语字母的确代表音素；但在有的情况下，一组字母序列可以用来代表一个特定的语素。实际上，语素拼写体系往往比你想象的更为有用。毕竟我们阅读的目的是理解文章的意思，而不是把它朗读出来。语素拼写体系可以帮助读者区分同音异义的单词，例如“meet”和“mete”。它还可以提示读者一个单词中包含了另一个单词（而不仅仅是一个语音上的冒牌货）。例如，语素拼写告诉我们“overcome”中包含了单词“come”，因此它的过去式一定是“overcame”，而“succumb”虽然也包含了[kum]的音，但语素却并不是“come”，因此它的过去式不是“succame”而是“succumbed”。同样，“recede”的名词形式是“recession”，而它的同音词“re-seed”的名词形式则是“re-seeding”。

从某种程度上说，语素拼写体系一直为汉语使用者提供着良好的服务，尽管它也存在一些先天缺陷，例如当读者遇到一个新字或罕见字时，就会感到无从下手。互不相通的方言可以共用一种书面语言，即便说话者南腔北调。同样，现代人也可以读懂数千年前的众多历史文献。马克·吐温曾经说过我们自身的罗马文字系统的这种惰性现象：“他们把它写成‘Vinci’，却把它读作‘Vinchy’，外国人在拼写上总是比发音要好。”

当然，英语拼写体系还有不少可以改进之处，但它的表现已经比人们想象的要好得多，这是因为拼写体系并不需要对应实际的语音，它的作用是代表潜藏于语音之下的抽象的语言单位，因为这才是我们真正聆听的对象。

[1] 汉普蒂·邓普蒂（Humpty Dumpty）：英国童谣中从墙上摔下跌得粉碎的蛋形矮胖子。——译者注

[2] 山梨正明故意用日本口音来说“election”（大选）一词，使之听上去像“erection”（勃起）。——译者注

[3] 说方言：特指在宗教拜神仪式中讲出一些不为人知的语言。——译者注

[4] 20世纪美国作家，其作品常具讽刺意味。——编者注

[5] “udder”为乳房的意思，与“utter”（彻底的）同音。——译者注

[6] 实际为“endangered species”，濒危物种。——译者注

[7] 实际为“Soviet Jewry”，苏联犹太人。——译者注

[8] 实际为“violence in the streets”，街头暴力。——译者注

[9] 实际为“natural resource”，自然资源。——译者注