让我们做一些大数据研究。我们会将大量小事物积累起来,例如,数百万条推特信息,在线交友网站上数千份个人资料,或者脸书上发布的大约2500亿张照片中相当一部分照片。1然后,我们可以通过“深度学习”程序处理这些数据,这些程序可以筛选出隐藏其中的模式。2为了完成这项任务,我们需要利用大型计算机完成数量庞大的模拟计算。而计算的前提是需要对计算机进行优化处理。因为这些模式过于复杂,所以无法用语言准确描述,但是人们将其描述为统计偶然事件的复杂网络。我们可以在人脸识别或者场景描述等应用程序中使用该数据结构。你的智能手机能够识别出你所说的话,正是因为它安装了利用特定程序开发的口语统计规则的软件。我本人也非常支持新型数据分析软件,它们正在使用这些分析方法解决复杂的认知问题,并取得了可喜的成绩,而且,这些技术能够实现的成果没有明显的上限。
计量文体学致力于运用统计学方法分析文本的内容、风格及其作者身份。3令人吃惊的是,定量的方法只分析单词的出现次数,但并不解释单词的意思,这种方法能够揭示连作者本人都不易察觉的一些写作事实。文本统计信息已用于找出以笔名发表图书的作者,例如J.K.罗琳(J. K. Rowling)被发现曾经以笔名罗伯特·加尔布雷斯(Robert Galbraith)发表过一部小说。4类似的方法还发现,一位荷兰社会心理学家曾发表了若干篇存在伪造数据的文章,这无疑是学术造假中的可憎案例。5这些伪造的数据呈现出独特的统计学特征。我们对比了同一作者撰写的未造假的文章,得出的结论是,在含有伪造数据的文章中,该作者使用了更多权威性的和充满感情色彩的术语来描述他的研究发现。
对这一方法最知名的应用是人们利用它分析了英国小说家和散文家艾丽丝·默多克(IrisMurdoch)的作品。默多克曾经短暂地和维特根斯坦一起研究过哲学,她撰写的一系列以知识分子间的关系为主题的小说曾经广受好评。而她的最后一部小说《杰克逊的困境》(Jackson’s Dilemma)却遭到了评论家的负面评论。例如,英国作家A.S.拜厄特(A. S. Byatt)将该小说的结构比作“印度的通天绳戏法,在小说里所有人都没有自我,因此这里没有故事也没有小说”。6研究人员开发了一种对这部小说进行分析的统计模式,利用这种模式统计一些简单的元素,例如小说中所使用的一些独特的词的数量、这些词出现的频率和每个句子里单词和从句的数量。人们利用这种统计方式分析了默多克广受好评的两本书。统计结果表明,这两本早期出版的书在统计学意义上非常相似,它们都与默多克的最后一本小说有较大差别,最后一本小说使用了更少的词汇和更简单的句子。
令人唏嘘的是,默多克在1996年被诊断出患有阿尔茨海默病,并于3年后去世,她的故事在2001年曾被改编为电影《长路将尽》(Iris)。研究表明,她的最后一部小说很有可能是在她患病的早期阶段写成的,这种可怕的疾病已经无情地剥夺了她的语言能力和其他方面的能力。
这样的做法看起来似乎有些可笑。将《战争与和平》甚至是罗琳的书进行统计学分析,就好像通过计算彩色点的频率和位置来描述点彩派画作的绘画特点一样。针对单词使用的统计模式也许可以揭示出默多克的某一本书与其他书不同,但是这种统计模式并不能充分展示这本书:这本书的内容、主题、观点、事件、类型和结构;表达方式是叙述性的还是比喻性的,是真实的还是讽刺的,书中人物是谁,以及他们为什么做出某种行为。美国作家杜鲁门·卡波特(TrumanCapote)曾经对杰克·凯鲁亚克(Jack Kerouac)所著的《在路上》(On the Road)有一句著名的评语:“这不是写作,这只是打字。”7一个文学评论家也许会认为计量文体学根本不是文学分析,而是计算。
事实上,我本人对于这种方法更多的是抱有赞同的态度。它是一种新颖的文本分析方法,能够弥补传统方法的不足,还能揭示出其他方法所不能揭示的内容。13世纪,人们自编辑第一本《圣经》索引起就开始将文本中的单词列成表格,列表显示出每个单词和它们在书中出现的位置。8计量文体学分析法也是自动分级程序的基础,可以说,它对于本科英语论文的评估几乎和导师一样可靠。虽然没有人告诉我,但是我猜美国国家安全局也会使用计量文体学分析法,分析他们从网络和电话监控中所获得的数据,从而寻找他们感兴趣的字节模式。无论有怎样的内在价值、效用或者限制,这些分析都是非常重要的。因为这些分析还表明,除了其他特有的性质外,文本还有一个隐含的统计结构。计量统计学可以向我们展示与文本的内容相呼应的词和短语的分布,其中包括出现了哪些词、出现这些词的频率以及同这些词一起出现的词。与其他类型的数据挖掘一样,计量文体学能够探索并解释单词出现的规律与文本内容的呼应性。
对人们来说,成为熟练的阅读者是一个大数据。人是数据的采集者。我们对环境模式做出回应。我们记录重复出现的、新奇的事物,事物之间的异同,事物变化和共变的方式,以及共变事物如何共变。因为统计规则,我们所体验到的世界是一个充满各种物体和事件的三维空间。语言像可视的世界一样,从不同的层面展示了统计规则,例如,语音学、形态学、单词、词序、话语和上下文语境的关系等。阅读让人们找到规律,例如字母的组合方式,以及正字法与语音和语义之间的关系。对于人们来说,分析这些数据的运算法则便是学习。我们每次使用语言,也更新了语言的统计表示方法。我们的学习机制与大数据分析的一些算法相似,这些算法是在对人类学习的研究中发展起来的。
这种学习活动的数量多到无法估量。它始于母亲的子宫:3个月大的胎儿已经开始学习母亲言语的统计特征,如母亲使用的语言是英语而非俄语。9接触大量的数据和话语会促进人类语言的习得,这些数据和话语从不同层面体现了统计学规则。后来,阅读变成了有关印刷和语言的额外数据来源。10
当我们追求重要的目标,出于各种目的生成和理解语言时,语言的持续学习和更新就随之发生了。在没有意识或者意图的情况下,统计学习便发生了。它是一种隐含的、潜意识的隐性学习,是对显性学习的一种补充。在明确的指导下学习或者聆听一场TED演讲便是显性学习。这两种学习形式虽然不同,但又相互关联,因为两者都导致了长期记忆神经系统的变化。适时的和有针对性的指导是有效的,因为它使人们更快地获得大量的数据结构。如果说明确的指导和有意识的努力是露出水面的冰山一角,那么统计学习则是水面下隐藏着的巨大冰川。
简而言之,读者必须具备计算能力。这种能力不是指计算棒球第六局比赛时投出的球数,而是指探求语言中隐含的统计规则,在探求的过程中,具有挖掘语言统计规则与世界之间的关系的意识。学习阅读的过程便是获得几种不同类型的统计学知识的过程。这些知识能够帮助人们快速、有效地理解文本,从理解语音结构、正字结构,以及正字法与语音、词汇与语法之间的关系开始。这些方面知识的不足将严重影响孩子的进步和成年人的阅读熟练程度。这些知识虽然类型各异,例如拼写与词汇或语法不同,但是它们都具有统计特征,包括单词组成元素出现的频率,以及同时出现的概率。
通常情况下,人们不会将已经了解的知识视作多维度的统计矩阵,或者将学习视作一项持续终身的大数据项目。想要对这一观点有更好的了解,便需要了解阅读的独特之处,即正字编码。