• 精选
  • 会员

学习

2025年1月26日  来源:如何阅读 作者:马克·塞登伯格 提供人:zhanbai93......

阅读某个单词的任务现在可以被描述为:将一个特定的拼写模式作为“输入”,激活代表该词的语义模式则为“输出”。

学习问题可以被描述为:找到一组联结权重,它能使该网络针对多个单词正确地执行这一任务。

权重最初被设定为一个随机值。因此,像gave这个单词的拼写模式最初会产生一个随机的语音模式。权重是在预先指定的运算基础上变化的。人们探索过许多类似的过程,这些过程的区别在于它们与在大脑中发生的学习行为的对应程度不同。一般的观点认为,权重是根据经验(当学习者是一个计算模型时,经验就变成了“训练”)和对表现的反馈来进行调整的。逐渐地,该模式便会集中到一个固定的权重上,它能使该网络对大量模式准确地执行任务。这种学习的算法是一种有效的调整权重,提高性能的方法。还是以gave为例,在最常用的被称为“反向传播”的算法中,权重是根据模型生成的该单词的语言模式与其正确模式之间的差异(“误差”)来进行调整的。这一算法过程的最大特点是,对差异的产生负有更大责任的权重会有更多的调整。也就是说,对于权重的调整力度与其造成的总误差量成正比。在gave这个单词的实验中,权重将不断调整以减少这个单词的误差。

令人感到棘手的地方在于,这个模型是基于大量单词来训练的,例如一年级学生需要学习阅读大量单词,不仅是gave这一个词。该模型必须找到一组权重值,以便为所有单词生成正确的输出。调整权重的方式使模型更好地识别gave这个单词,这也有助于其识别gate(大门)和save(节约)这样具有重叠映射的单词的读音。然而,这也使该权重远离了对have或give等单词有益的数值。相反,对have一词进行训练会使权重更适合识别have这样的单词却不利于模型识别give和其他相似的单词。

在对该模型进行了针对大量单词的训练后,权重会根据书面英语的统计特性达成一个平衡值。我们并没有对该模型输入英语单词的发音规则,也没有告诉它哪些单词是不规则的。相反,人们发现单词拼写和语音之间的许多映射中隐藏了一些子规则,它们是每个实验日程中为了减少错误而形成的副产品。

我们已经探索了许多这样的模型,它们被设定用来检查阅读系统中的不同组成部分及它们的发展方式。这些模型的运作令人惊叹,就像正在学习阅读的儿童一样。以下是其中的一些例子。

规则单词和不规则单词的相同程序

我们最开始使用的模型仅有“正字法→语音”这条途径。该模型能够为大约3000个普通单音节单词生成语音代码,其准确率高达97%。需要说明的是,该模型出错的词都是一些低频且不规则的词,例如guile(诡计)和debt(债务)。识别这些单词需要“正字法→语义→语音”途径的辅助,这是我们最初的模型所不具有的功能。这些词既包括规则单词也包括不规则单词。例如,输入单词gave的拼写模式,它就输出gave这个词;如果输入单词have的拼写模式,它就会输出have这个词。该模式能够识别said(说)和paid(付款),pint(品脱)和mint(薄荷),blown(吹)和flown(飞),clown(小丑)和town(城镇),dose(剂量)、pose(姿势)和lose(丢失),这些单词占据了英语语言中单音节单词的一大部分。它们都有相同的识别程序,使用单元之间具有相同加权的联结,将正字法到语音的混杂映射进行了编码。这是一个令人惊讶的实验结果,通常人们认为像mint这样的单词是按规则发音的,而像pint这样的单词只能通过死记硬背学会,而实验结果恰恰与人们的直觉相违背。

这怎么可能呢?模型的结构体系——单元层、呈分布式的表征、学习过程等,这些都允许该模型获取单词间的统计模式,其中许多模式是肉眼看不到的。此外,因为对所有单词都使用了相同的权重,所以对某个单词的识别会影响到其他所有单词。这提高了模型的工作效率:如果已经从都具有-ave结构的单词save、gave和pave中学会了ave的模式,那么学习brave(勇敢的)和state(国家)等具有同样结构的单词就容易得多。

非视觉性单词

发音不规则的单词,如have和give,通常会被视为必须记住的视觉性单词。然而,have的发音并不是随意的;它与had、has、have、haven’t、hive等词的发音重叠。因此,儿童对have等词的学习可以扩展到其他单词,反之亦然。此外,我们从have这个单词中学习到的知识与元音发音不规则的许多其他单词(如give和come)相互关联。该模型能够代表这些局部的规律性,因为学习算法能够推算出它们的读音。根据该模型我们得出结论,儿童能够学习大量发音不规则的单词,因为它们其实并不是必须单独记忆的随意模式。

虽然该模型并不是通过记忆来学习“视觉单词”的,但是一旦它很好地掌握了某个单词,它的做法就好像是“通过视觉”来阅读这个单词一样。这一属性也与儿童的学习有关,但它很难凭直觉感知。在训练初期,模型在像have一词的学习上会受到该词的其他重叠单词的影响。它并不是“凭视觉”记忆的。然而,像大多数的“视觉单词”一样,have绝对是一个高频词。因为常见单词比不常见单词运用得更频繁,所以模型学习该单词的速度相对也较快。最终模型学会了该单词,因此其他单词不再会对它产生任何可以察觉的影响。这就是该模型的“视觉阅读”方式。然而仍然有一些不直观的部分,即该模型仍然代表了一个单词的组成部分,这会持续影响其他不常见单词的识别过程以及像mave等新词的识别结果。因此,have这个词是被“视为整体”阅读的吗?单词的组成部分会造成影响吗?这就好像在问光到底是波还是粒子一样。答案并不是非此即彼,因为它包含了两者。

一致性程度

在一部20世纪80年代的电影《伴我同行》(Stand by Me)中,一个人对他的朋友们说:“好吧,好吧,米奇是一只老鼠,唐纳德是一只鸭子,布鲁托是一只狗。那高飞是什么呢?”

当谈论的主题变成阅读,那么对话就会是这样的:


按照传统的说法,gave是规则的。它与其他-ave结构的单词发音规则一致,遵循词尾-e不发音的规则,因此它的发音很容易预测。如果其他因素(如单词长度)相同,gave这类单词应该像其他规则的单词(如must)一样易读,而且这两个单词都比不规则的have更容易阅读。然而,在阅读网络中,对所有单词设置的权重都是一样的。该模型在识别gave这类单词的表现上就稍差了些,因为它也受到have等词的影响。相比之下,must的规则是清晰的,因为不存在与它相似但发音不规则的单词。因此,人们的推测是,尽管两个词都是规则发音的单词,但是朗读gave比must更难。

实验结束后我们知道了答案。像gave这类受规则支配但一致性不高的单词比must这类“纯粹”受规则支配的单词更难读。30对于熟练的阅读者来说,“更难读”意味着人们可以正确地读出这个单词,但是速度会更慢。对于pint(品脱)和aisle(走廊)这样的低频词来说影响则更大。对于初级阅读者以及阅读能力较差的成年人来说,这种影响也扩展到了高频词汇上。一个普遍的现象是单词之间的拼写和发音映射的一致性会影响单词的发音。规则的单词和不规则的单词在统计连续统一体中各自占据了一定的位置,该统一体包括许多不同程度的拼写-发音一致性。这就解释了为什么人们很难列出书面英语的发音规则这一问题:该系统并不受规则支配,它具有的是统计学的特征。31

对于归纳的新解释

语言之所以受规则支配,是因为我们可以归纳已了解的知识并将其应用到新的例子中。32当我们掌握了英语过去式的规则,我们就可以有把握地认为glorp的过去式是glorped。如果模型不了解规则,模型怎么能读出像mave、nust和brone这样的生造词呢?答案是:模型的发音规则是一样的。该模型并不知道输入的字符串是单词还是生造的非单词;只需要输入拼写模式,它就能输出语音模式。因为该模型掌握了相似的词如must(必须)、just(只是)和nut(坚果)的读音,因此也能正确地读出nust一词。实际上,该模型在生词出现之前就已经“知道”了它们的发音,这和学习词汇的原则是一样的。归纳能力可能来自神经网络的行为而非来自规则,这一观点是20世纪80年代开发该框架的研究人员取得的重大概念性突破,这也是对正统语言学思想的一个挑战。33

一致性效应和归纳这两种现象表明,这些模型并不只是简单地记住了已经被训练过的单词。它们还扩展了单词不同组成部分的表示方法。一致性效应来自单词间许多包含相同部分的模式。因为这些模型扩展了单词不同部分的表示方法,所以它们能够读出由不同部分组合而成的新单词。

这些模型说明了人们依赖直觉完成阅读的危险。在这些模型出现之前,如果有人认为have和gave等词是通过同样的机制被人们学习、阅读和发音的,这会被认为是相当荒谬的。该机制也能被用来朗读像mave这样的新单词。这种主张违反了人们的直觉,而且也没有任何已知的程序是这样运作的。其实如果人们不熟悉这种类型的运作系统的话,这种主张仍会被认为是荒谬的。然而,我们采用的模型确实做到了这一点。在解释了现有数据的成因后,这些模型对典型和非典型变化、脑损伤的影响以及许多引导相关后续研究的问题做出了新奇的预测。

分工

后来人们设计的模型侧重使用某种结构来从书面文字中提取单词的含义,在该结构中,词义是由三角结构中的视觉途径(正字法→语义)和语音途径(正字法→语音→语义)共同激活的。那么我们将如何利用已知的两个途径呢?

因为儿童在开始阅读前就已经掌握了许多口语单词,所以我们首先对模型进行了大量“语音→语义”途径的单词训练。一旦模型学会了许多这样的映射,我们就对它进行三角的其他部分(即“正字法→语音”和“正字法→语义”途径)的训练,然后阅读行为就开始了。在阅读测试中,模型必须根据单词的拼写来推测单词的意思。它也会继续进行一些“听力”测试,根据语音来推测单词的意思。在阅读任务中,该模型没有被指定使用哪个固定途径;相反,它以自己对每个单词的识别情况的反馈为基础来调整其网络所有部分的权重以便提高其性能。

随着时间的推移,这两个途径之间的分工也发生了变化。该模型最初主要依赖于其网络的“正字法→语音→语义”部分。许多单词的“语音→语义”映射是已知的,并且该模型可以较快地学习“正字法→语音”之间的映射。“正字法→语义”这一部分的发展时间则较长,因为两者的映射是随机关联的。经过更多的训练,“正字法→语义”部分开始发挥更大的作用,例如辨别同音异义词(如bear/bare)的功能被激活了。这一发展过程与神经影像学的研究相吻合,该研究显示,儿童的“正字法→语音”途径发展得更快,在获得了更多的经验后,“正字法→语义”系统也会随之发展。34

模型在经过数千个单词的学习和训练后,这两个途径都对识别单词语义起到了作用。然而,分工情况,也就是每一部分起到多少作用则完全取决于单词的性质。这种划分比简单地使用“正字法→语义”途径来识别不规则单词和使用“正字法→语音”途径来识别规则单词要复杂得多。例如,yacht(游艇)这类拼写和发音都不同寻常的单词通常需要更多地依赖“正字法→语义”途径的输入;然而,如果yacht是你经常使用的单词之一,那么“正字法→语音→语义”途径便会承载更多的工作。我们使用经过训练的模型来模拟包括范·奥登效应在内的各种行为现象。

我们将这个模型运行了若干次,每次都会改变其中一些小的变量,以观察它是否会根据不同的阅读任务使用不同的解决方案。长期以来,人们认为阅读者可以分为两类,一类是视觉型阅读者,而另一类是语音型阅读者,但这一观点很难从行为研究学中找到明确的证据支撑。35两个途径之间的分工随着阅读技能的发展而变化。阅读技能则在一定程度上取决于人们的阅读经验,而每个人的阅读经验是各不相同的。对于人和模型来说,较少的阅读经验通常会被视为一个年幼的读者或阅读水平只达到了八年级水平的成年人的表现。对于相似程度的阅读经验水平,其分工也并没有太大的不同。36

如果改变模型的训练方式,这些典型的实验结果也会受到影响。我们的模型可以使用视觉和语音两种途径。然而,一些特定类型的阅读教学已经假定使用语音途径是造成阅读效果不佳的原因。因此,我们只运行了通过“正字法→语义”途径训练的模型版本。这些模型没有接收任何与语音相关的信息,即没有经过正字法和语音学映射的训练。“正字法→语义”模型最终确实形成了完整的映射;然而,这是建立在大量的训练测试的基础上的。实验结果表明“视觉”阅读在理论上是可行的,但是与同时使用两种途径的阅读方式相比,前者要耗费更长的时间。因为人们要求儿童在四年级初就具备一定的阅读能力,所以花费额外的时间学习这种效率不高的方法并不是一个好主意。因此从实际来看,教师为了避免给学生灌输重复的阅读练习而取消语音教学,这其实会产生相反的效果,使儿童更难掌握基本的单词识别技能。

我们的研究表明,虽然人们的阅读方式各种各样,但他们采用的阅读策略也不至于截然不同。阅读体系的基本架构是大体相同的,但由于阅读经验的多少、教学类型和个体神经结构的不同等因素,阅读体系各个组成部分之间的分工存在一定的差异。写作体系对于阅读的影响也是相似的:它们的基本架构相同,但是分工存在差异。最有趣的证据来自一些使用相同类型的模型学习中文阅读的研究。学习中文阅读这一过程需要三角形结构中的“正字法→语义”这一途径的高度参与,这一发现与行为学和神经影像学的证据发现是一致的。37然而,这种差异只是程度的问题:就像学习英语单词一样,大多数汉字都是经由两种途径习得的。考虑到中文和英文两种文字系统之间存在的巨大差异,其学习方案的相似程度之高也许更令人惊讶。

当然,阅读不仅仅是推测单个单词的意义和发音。我们需要想象一下我曾描述过的一种模型。该模型内嵌于处理单词序列的程序中,负责追踪前文讨论过的句子和文本层面的统计数据。这种序列模型的确存在38,并且对于理解儿童如何学习词汇和语法,以及句子是如何被理解和生成的这两个问题起到一定的作用。读者也会利用他们积累和储存起来的知识内容。研究单个单词会更容易,并且更复杂的模型也更难控制。基本的单个单词阅读技能是很重要的,在很长一段时间里,人们都不清楚儿童是如何真正掌握这些技能的。我们的模型有很多局限性,但是它们至少取得了一个重要的进步:向人们证明了单词阅读能力是可以通过学习获得的!

阅读指导的意义又是什么?如果儿童能够通过接触足够多的文本来学习阅读,他们会成为小型统计学习机器吗?我们是否已证明了儿童是真的“靠自己”来学习阅读的呢?

并非如此。我们已经解释了为什么适当的教学指导可以产生更广泛的影响,学习词汇也是一样。这些模型体现了一种统计学的学习理念,即对一个单词的了解会影响到对其他许多单词的学习。考虑到目前儿童的知识储备情况,在未来我们也许能够确定哪些具体的教学活动将会在总体效果上产生最大的影响。这样一来,明确的语音和词汇教学也会更加有效。人们还需要进行深入研究,以确定这些模拟结果将如何为教育实践提供更多有效的信息。目前,我们只知道,教师认为儿童从视觉单词、语音或词汇课中学到的知识可能与他们实际的大脑反应不同。将这两者更紧密地结合起来或许会对学习产生更大的影响,但这一猜测仍然有待证明。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000