• 精选
  • 会员

语言中的冗余让我们更好地阅读

2025年1月26日  来源:如何阅读 作者:马克·塞登伯格 提供人:zhanbai93......

21世纪早期,一段看似奇怪的匿名文本开始在网络上流行起来:

Aoccdrnig to rscheearh at Cmabrigde Uinervtisy, it deosn’t mttaer waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer are at the rghit pclae. The rset can be a tatol mses and you can sitll raed it wouthit a porbelm. Tihs is bcuseae we do not raed ervey lteter by itslef but the wrod as a wlohe.

(根据剑桥大学的研究,单词中字母的顺序并不重要。唯一重要的是,单词的第一个和最后一个字母处在正确的位置上。即便其他字母顺序混乱,你也可以顺畅地阅读。这是因为我们并没有读每一个字母,而是将单词视为一个整体来阅读。)

随着这段文字的流行,许多不同的版本也出现了,其中包括用其他语言和文字系统呈现出来的文本。11这段文本在社交媒体环境中如鱼得水。有些人认为,它揭示了与创造力和管理策略相关的人类心智的深层次特点。12这段文字如同病毒般迅速扩散,因为尽管其中有许多拼写错误,但人们确实能够读懂它。只是这段文字所讲述的事是假的。

剑桥大学根本没有这样的研究。

只需第一个和最后一个字母的位置正确,这种观点是不对的。

我们并不将单词看作一个整体来阅读。

正是因为我们没有这样做,才能将“tihng”读成“thing”(事情)。

这个剑桥恶作剧流行起来是因为它有趣,而不是因为其真实性。这使人们好奇,人们竟能在不知道文本正确拼写的情况下将其识别出来。人们描述这一现象的方式也非常聪明,原因在于读者能够亲自体验。我们应该夸奖这段文字的作者,毕竟,从阅读这一日常的活动中获得新奇体验是有一定难度的。

对于这一现象的实际解释涉及正字法统计知识。我们需要了解已经出现的模式(我们所熟悉的单词),可能出现的模式(如mave或glorp),以及同样重要但不会出现的模式(如tsip、sitp、xplk),除非出于特殊目的,例如超人的敌人捣蛋鬼(Mister Mxyzptlk),兰道尔·门罗(Randall Munroe)的网络漫画xkcd等。(9)我们需要了解这些模式出现的频率以及组合方式。这样的信息非常有用,因为已经出现的模式是有可能出现的模式的一小部分,这是克服剑桥文本错误的关键,而不是“将单词看作一个整体来阅读”。这种解释不仅有趣,而且真实。

要识别一串字母组成了某个特定的单词,就必须排除该单词是其他单词的可能性。字母表存在潜在的问题,因为即使少量的字母也能形成大量的拼写模式。26个字母能够组成475 254个1~4个字母长度的单词。如果再加上5个字母长度的单词,26个字母能够组成的单词数将增加至1200万之多。如果算上更长的单词,那么能够组成的单词数将数不胜数。读者如何在巨大的正字法可能性中找到某个单词呢?如果所有的可能性均存在,我们将无法找到某个单词,但是实际情况并非如此。在英语的整个历史中,《牛津英语词典》一共收录了17万多个仍在使用的单词词条,阅读本书的人词汇量介于20 000~40 000个之间。实际上这种估算并不准确,因为人们对于“单词”的定义是不同的。事实上,大多数的字母组合根本不会出现,这使得人们更容易识别出已经出现的字母组合。甚至,在人们读单词之前,字母组合的可能性范围已经受到严格限制了。13

人们所使用的拼写模式是数百万种可能性中高度非随机的例子。单词由能够被读出来的小型子集组成,例如tr、ea、un、lk、ave、ist、ost、str等;更多的字母组合因为不能被读出来(如lbatk、sktp)或还没被人们使用(如mave)而被排除在外了。最后,人们频繁使用的是合理的字母组合中更小的一部分。令人惊奇的是,尽管我们知道数千个单词,但只有极少数单词在我们阅读的文本材料中占有一席之地。语言中最常见的150个词,大约占我们读到的单词的一半。在最常见单词中排名前2000位的词,大约占我们阅读词汇的90%。单词的使用频率呈现出“长尾”式的分布规律:小部分的单词被频繁地使用,而其他许多单词的使用频率则很低。

读者建构出能够表示这些统计模式的神经结构,并且在每次阅读文本时都对其进行快速优化。大量证据表明,已经出现的有限的模式也携带着不会出现的模式的相关信息。我们无须别人告知,tlkp这样的排列顺序不能组成一个单词,是因为它与已经出现的单词模式并不相似。

字母组合的非随机方式意味着,字母携带着很有可能出现的其他字母的信息。人们将这种特征称作“冗余”,它可以通过数学家克劳德·香农(Claude Shannon)提出的信息论加以量化。14这是一个至关重要的概念。

通常情况下,我们认为语言冗余是一件不好的事情。在写作中,我们努力避免多余的表达,例如extradite back(引渡回)、PIN number(PIN码),因为后一个单词并没有在前一个单词所传递的意思外增加额外的信息。与此类似,在英语中使用重音符号标注重读音节也是多余的,因为人们已经可以预测出这些重读音节。

我们先不考虑这些多余的结构,冗余是语言固有的特性,正字法清楚地说明了这一点。冗余减少了各种元素相互组合的不确定性,这些元素包括字母、发音、单词等。这样我们就无须在大量组合的可能性里去搜寻了。为了说明这一点,让我们来看wor_这个字母组合,对于最后一个字母来说,前三个字母wor是多余的。最后一个字母不能是26个字母中的任意一个,只有k、m、e、d、n和t能与之构成单词。dor_的最后一个字母只能是m、k和y,就最后一个字母来说,dor_这个字母组合的冗余性更高一些,因为它对最后一个字母的约束性更强。

冗余代码最大的好处就是它是容错的:一个字母因为潦草的字迹而变得模糊或不易识别,这种情况并不会影响整个单词的识别。冗余使我们能够应对如下的烦恼:


验证码安全系统基于这一事实:比起bot自动化程序,人们更善于利用正字法结构知识来解决字母和数字的失真问题。15

书面英语中的冗余程度给人留下了深刻的印象。这里,我们只考虑元音。即使一段文本中的大部分元音都被删除了,该文本还是可读的。正如下面选自广告语的一个句子,该句的写法会让人们联想到20世纪70年代纽约市地铁里所看到的句子。


①该句原为:If you can read this message, you can get a good job.

即使删除了所有的元音(就像希伯来语),许多文本人们还是可以读懂。


②该句原为:The basic demonstration is that text is still more or less legible when the vowels have been removed.

然而,这种情况是有条件的。


①该句原为:In an old article that is undeservedly obscure, researcher Marilyn Adams pointed out that readability drops off rapidly if the vowel-less text includes less common words such as teachable, contusion, confabulate, and butterbeer.

我们应该注意到了,不太熟悉的单词需要更多的拼写提示,所以删除元音并不是完全能被容忍的。

正字法冗余使我们能够识别一些略带掩饰的咒骂语,例如sh*t(shit)和f*ck(fuck),但是遇到一些不太常见的词,例如bl*v**t*或者cr*m*l*nt(原词是bloviate和cromulent),星号就不起作用了。英语中是存在冗余的,但是没有达到可以完全将元音删除或用占位符代替的程度,当然,咒骂语和简单的文本信息除外。

香农推测,英语的字母码大约有50%是冗余的。16这并不意味着若文本中50%的字母被删除,人们仍然能够读懂它,因为冗余源于字母之间的依赖性,如果删除了某个单独的字母,字母之间的依赖性也会在不同程度上受到干扰。冗余使人们更容易识别单词和字母。这不仅对于读者来说是一件好事,而且对于解读远古文本的考古学家和试图破译编码信息的解码者来说,也是一件大好事。

人们很容易理解书面英语中的统计结构,但是这些例子所包含的内容几乎都是读者不了解的。谷歌的研究主管彼得·诺维格(Peter Norvig)公布了一些其他有趣的简单正字法统计数据,但这些数据也只涉及了该研究的皮毛。17虽然没有办法完整地描述正字法结构,但是大脑和计算机能够很好地捕捉到它。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000