DNA并不是解决一切问题的灵丹妙药。它的进化有时候会出人意料,让人一不留神就上当受骗。我们将在《丝叶狸藻的故事》里看到,我们的DNA里有超过半数来自病毒或病毒样的寄生物,它们借用我们的DNA复制机器来扩散自己的基因组。若是因为某种病毒曾经由一种生物传染给另一种生物就把这两种生物归为一个系群,那实在是误人子弟!即使是那些只在单个生物个体基因组内部进行传播的DNA,也会像千足虫的腿一样,给我们带来重复计数的问题。还有另外一种更为隐蔽的问题,来自生物体内相似的重复DNA序列,比如我们将在《七鳃鳗的故事》里遇到的多种血红蛋白基因。一条既有血红蛋白α基因也有血红蛋白β基因的祖先染色体可能会留下两类不同的后代染色体,一类丢失了α基因,另一类丢失了β基因。如果对这两个系群进行比较,我们很可能会犯这样的错误,即拿一个系群中的α基因和另一个系群的β基因相比较,这无异于拿苹果跟橘子比。正因如此,我们在不同物种之间进行比较时,必须确保我们使用的是相同的“种间同源”(orthologous)遗传序列。
还有另外一些情况,即相对疏远的生物却有大段DNA表现出谜一般的相似性。没人怀疑鸟类跟海龟、蜥蜴、蛇和鳄鱼的关系比跟哺乳动物更亲近(参见第16会合点),但鸟和哺乳动物DNA序列的相似性之高却与它们的疏远关系不相称。它们的DNA都有一些高GC[123]含量的区域,特别是基因附近的序列。这大概来源于它们的DNA修复机制的某些共同特点。纵观整个基因组,哺乳动物和鸟类都微微倾向于在相同的DNA位点累积鸟嘌呤(G)和胞嘧啶(C)。这导致早期的遗传研究将鸟类和哺乳动物归在一处。我们现在知道这些看似多发的相似性其实并不是彼此独立的:它们都来源于同一个遗传机制的偶然改变。DNA看起来像是为生物分类学者们提供了一个乌托邦,但我们必须小心其中的危险,因为我们对基因组的理解仍然有许多不足。
假设怀着必要的小心,我们又该如何使用DNA包含的信息呢?有趣的是,文学研究者在追踪文本的源流脉络时使用的是跟进化生物学家相同的技巧。更妙的是——简直美好得令人难以置信——这方面最好的例子之一正是来自《坎特伯雷故事集》研究项目。各国的文学研究者组成了一个国际理事会,成员们使用进化生物学的工具追踪《坎特伯雷故事集》的85种不同抄本的历史。如果要重现失落的乔叟原始手稿,这些印刷术时代之前的古老手抄本是我们的最佳希望。就像DNA一样,乔叟的文本历经多次重复抄写得以保存,而那些偶然的错误也同样被保存了下来。学者们一丝不苟地对累积的差异进行评分,重建了抄录的历史,建立了版本的进化树——这确实是一个进化的过程,随着代代相传,错误也渐渐累积。研究DNA进化和文本进化所用到的技术和遇到的困难如此相似,二者之中任何一个都可以被用来类比,作为另一个的解释。
所以,让我们暂时从长臂猿转向乔叟,具体关注《坎特伯雷故事集》85个手抄版本中的4个,即大英图书馆(British Library)本、基督教堂(Christ Church)本、埃格顿(Egerton)本和汉格沃特(Hengwrt)本[124]。《总序》的前两行是这样的:
大英图书馆本:Whan that Aprylle / wyth hys showres soote
The drowhte of Marche / hath pcede to the rote
基督教堂本:Whan that Auerell wt his shoures soote
The droght of Marche hath pced to the roote
埃格顿本:Whan that Aprille with his showres soote
The drowte of marche hath pced to the roote
汉格沃特本:Whan that Aueryll wt his shoures soote
The droghte of March / hath pced to the roote
不管研究的是DNA还是文学文本,第一件必须做的事情都是找出相似和不同的位置。因此首先要把它们对应排列起来,这件任务有时候并不容易,因为文本可能只是碎片,又或者可能颠三倒四、长度不等。如果问题确实棘手,计算机能帮很大的忙,不过我们只需要比对乔叟作品《总序》的前两行而已,倒是不必用它了。我们把这些版本的这两行里有分歧的15处地方用阴影标了出来。
既然已经列出了差异,让我们来看看哪种分支图能够最好地解释这些差异。最快捷而粗糙的办法是采用下述方法的某个变种把这些文本按照整体相似性进行归类。首先,我们找到最相似的一对文本,然后把这对文本取平均,作为单个文本继续跟剩下来的其他文本比较,再选出最相似的一对。以此类推,构建出连续嵌套的组别,直到生成一棵关系树。因为不需要来回倒腾所有可能的关系,所以这种方法很快,其中最常用的一种被称为“邻接法”(neighbour-joining)。但这些方法并没有考虑进化过程自身的逻辑,它们只单纯衡量相似性。支序系统学作为分类学的一个流派,其内在逻辑是基于进化的,不过并非该流派的每个成员都意识到了这一点,因此他们更偏爱其他办法,其中最早被发明出来的是简约法。
正如我们在《猩猩的故事》里看到的那样,“简约”指的是解释的经济性。不管是动物的进化还是手稿的进化,最简约的解释所假设的变化次数一定是最少的。如果两个文本有一个共同的特点,那么简约的解释会认为这个特点是它们从同一个早期文本那里继承得来的,而不是各自独立进化而来的。这并不是一个不可动摇的规则,但起码它比反过来的说法更正确。至少从原理上看,简约法会穷尽所有可能的分支图并选择变化次数最少的那个。
有些类型的差异对于我们衡量不同分支图的简约性是无效的。如果一个差异只存在于单个版本或单个动物物种中,那么它对于简约法来说就不包含有用信息。邻接法会用到这种差异,但简约法会完全无视它们。简约法依赖于包含有用信息的变化,即两个或多个版本共享的变化。理想的分支图会使用共享的祖先源流来解释尽可能多的有用差异。在我们的乔叟作品家系中,有9个差异不包含有用信息,因此可以被忽略。6个包含有用信息的差异在上页图中被框了出来,你可以看到,前5个差异将4份手稿很清楚地分成两组,基督教堂本和汉格沃特本是一组,大英图书馆本和埃格顿本是另一组。剩下的那个差异是个斜线符,这个文本分隔的差异将大英博物馆本和汉格沃特本归为一组,基督教堂本和埃格顿本归为另一组。最后一个差异跟其他差异发生了冲突。没有哪个分支图只用单次拷贝错误的发生和继承就能解释上述手稿的全部差异。不知在什么时候,必定有两名抄写员犯了同样的错误。