简约性告诉我们应该选择拥有最少变化的那棵分支树:它只包括一次巧合,比如两位僧侣各自独立地在同一个地方插入了一个斜线符。那棵树长这个样子:
另外两种分支图则要求在抄写过程中发生五次或者六次巧合的错误,这种可能性显然相对较低,不过并非完全不可能发生,尤其是考虑到文本的趋同和反转是比较常见的现象,我们在对乔叟文本的源流下结论时应该多加小心。一位中世纪的抄写员对于改变单词的写法也许没什么顾忌,更不必说增减一个斜线符这样的标点符号。关于版本关系的更好的指征是字词次序的改变。与之对应的遗传改变是那些“罕见基因组改变”(rare genomic changes),比如DNA大片段的插入、缺失或重复。我们可以给不同类型的变化赋予不同的权重,以此凸显上述变化的价值。如果同时有其他类型的变化,那些常见或不可靠的变化就被赋予较低的权重,而那些罕见或者已知能够可靠表征亲缘关系的变化就被赋予较高的权重。如果一个变化被赋予了较高的权重,这就意味着我们要特别小心,不要重复计数。整体权重值最低的也就是最简约的分支图。
简约法是建立进化树最常用的方法,然而如果趋同或反转的情况比较常见,就像我们这里的乔叟文本以及许多DNA序列一样,那么简约法可能会误导人。它会带来一个臭名昭著的棘手难题,被称为“长支吸引效应”(long branch attraction)。下面解释一下这是怎么回事。
分支图无论有根无根,都只反映分支的次序。系统发生图(phylogram)或系统发生树(phylogenetic tree,希腊语phylon指的是种族/部落/类别)与之类似,但其分支长度也同时传递这些信息。在典型的系统发生树里,分支长度代表进化距离:长支代表发生了许多改变,而短支代表改变次数较少。比如,我们这4个版本的《坎特伯雷故事集》片段的关系可以这么来表示:
在这幅系统发生图里,分支的长度都差别不大。但是假如其中两份手稿跟另外两份相比存在较多改变,想想会发生什么。这两份手稿所在的分支会变得非常长。版本间会有一部分变化是不局限于某个版本的,发生树上其他地方会碰巧有相同的变化,(这里是重点)特别是另一条长支上。这是因为长支本来就是大多数变化所在的地方。只要有足够的进化改变,这种巧合会掩盖真正的信号,将两条长支错误地联系在一起。基于对变化数量的简单计数,简约法会错误地将特别长的分支的末端归到一起。换言之,简约法使得长支彼此“吸引”,产生假象。
长支吸引问题尤其让生物分类学家头疼不已。只要趋同和反转常有发生,这个问题就会冒头,而且不幸的是,即便把更多文本纳入分析也不能避免这个问题,甚至文本越多,我们找到的虚假的相似性就越多,我们也就越容易相信错误的答案[125]。不幸的是,DNA数据面对长支吸引现象尤为脆弱。主要原因在于,DNA编码中只有四种字母,既然大多数差异来自单字母变化,那么多次独立突变碰巧生成相同字母这样的巧合就极有可能发生。这简直像是布设了一片长支吸引的雷区。显然,遇到这样的情况我们就需要一种不同于简约法的新技术。这种技术被称为似然分析(likelihood analysis),在生物分类领域中日渐受到青睐。
似然分析比简约法更依赖计算机的能力,因为在这种方法里分支的长度也纳入了计算,也就是说计算时又多了许多必须满足的条件。除了所有可能的分支模式,我们还必须考虑所有可能的分支长度和突变率。只有借助巧妙的近似和聪明的捷径才有望完成这个极其艰巨的任务,而这正是计算生物学家所研究的一个热点领域。
“似然”并非一个空洞的词汇。恰恰相反,它有极其精确的含义。要这么来理解:首先猜一猜各种类型的变化发生的概率(一个字母被替换成另一个字母的概率、缺失一个字母的概率等等)。同时还要假想出一棵进化树,包括分支的长度。假装这些猜想都是正确的,然后我们可以算一算有多大的概率生成我们实际看到的DNA序列,这个概率就是我们那些猜想的“似然”概率(可能是一个非常小的数值)。如果再做一组猜测,我们会得到一个不同的“似然”值,便可以跟第一个值进行比较。以此类推,为尽可能多的猜想——尽可能多的进化树和概率值——计算出似然概率。
有多种方法可以利用似然概率为“最佳”进化树下定义。最简单的办法是认定似然值最高的那棵进化树是最好的,这种办法被称为“最大似然法”(maximum likelihood)自然不无道理,但有一棵最有可能的进化树并不意味着其他可能的进化树不可以有几乎同样的可能性。与其相信单个最有可能的进化树,我们也许应该成比例地给予所有可能的进化树相应的信任度,可能性越高的进化树拥有越高的信任度。这种办法叫作“贝叶斯系统发生学”(Bayesian phylogenetics),也是近来兴起的一项统计学运动的组成部分,即各种概率计算都改用贝叶斯途径[126](一个例子是互联网垃圾信息过滤器)。就进化树而言,这种途径有两方面的好处。它为每个分支点都提供了一个概率值(尽管根据经验这些数值有时候显得过于乐观)。更重要的是,在它的框架下,进化速度是可以沿着各个分支进行调整的,所以我们可以用分支的长度估量实际的进化时间而非积累的变化数量。实际上这意味着那些变化可以被用作“分子钟”,跟本书提到的许多年代在计算时所用的分子钟是同一回事,我们将在《天鹅绒虫的故事》的后记里回到这个话题。当然,就像最大似然法一样,贝叶斯分析也不可能考察所有可能的进化树,但我们有计算上的捷径可循,而且它们非常好用。
我们对最终选定的进化树是否有信心,取决于我们有多么肯定它各个分支的正确性。一种常见的做法是把我们对各个分支正确性的估计标在分叉点旁边。使用贝叶斯方法时会自动计算出概率,但使用其他方法比如简约法或最大似然法时,我们需要别的办法计算概率,其中比较常用的一种是“自助抽样法”(bootstrap method),通过对数据的不同部分重复抽样,看它跟最终的进化树有多大差别,换句话说,来判断进化树在误差面前有多稳健。自助抽样值越接近100%,分支点就越稳健,但即使是专家也发现很难解读某个具体的自助抽样值的准确含义。类似的方法还有“刀切法”(jackknife)和“衰减指数法”(decay index)。所有这些方法都是用来评估我们应该对进化树上的每个分叉点怀有多大程度的信任。