既然这篇故事名为“夏娃的故事”,那我们就先说线粒体证据。前面讲过,线粒体完全复制自母亲,这意味着它们的祖先源流合并而成的树状图整齐而清爽。在非洲以外地区,原住民的线粒体似乎总是属于两条分支之一,或者可以把这种分支称为“单倍群”(haplogroup):不是M型(主要在亚洲)就是N型(广泛分布于欧亚大陆)。一般来说,一段属于M型的DNA序列和另一段属于N型的序列相差大约30个DNA突变。既然知道了线粒体DNA里哪一部分比较重要,哪一部分可以随便变化而不影响功能,我们就可以用“分子钟”技术(参见《天鹅绒虫的故事》后记)来估测积累这些突变大概需要多长时间。人类和黑猩猩的线粒体相差的不是30个突变,而是大约1 500个。假设人类和黑猩猩之间累积这些差异花了700万年(我们将在《黑猩猩的故事》里检视这个有争议的数字),那么M型和N型之间的差异大概需要5万到9万年的进化。还有别的方法可以用于测算线粒体的突变率。利用从人类化石中提取的DNA,并对化石进行放射性测年,也得到了相似的结果,大概在6.5万年到9万年间。
从更大的范围看,M型和N型不过是繁茂的非洲基因树上的两根小枝丫,而最深的合并点(夏娃)还要古老两到三倍。很明显,最近走出非洲的线粒体替代了之前一直占据剩余世界的古老版本。无论是欧洲人、亚洲人、北美原住民,还是澳大利亚原住民以及其他人群,他们的纯母系家系全都是晚近非洲起源的。虽然我们知道,某个合并点跟特定历史事件的联系往往是松散的,但线粒体的例子还是支持近期走出非洲的观点。更准确地说,M型和N型分支内部分型的地理分布提示我们,大迁徙的人群离开非洲之角(Horn of Africa)[72],绕过阿拉伯半岛南部海岸,通过亚洲到达世界其他地区,抵达澳大利亚的时间刚好可以解释蒙戈人化石[73]所具备的完整的现代人特征。
不过请记得,这些故事都是基于一小段DNA。若是把线粒体当作人类历史的象征,那就落进了跟电视纪录片《故土》一样的陷阱。起码我们还要再咨询一下Y染色体的意见。
Y染色体的DNA含量比线粒体丰富数千倍,这意味着它的信息含量更加丰富,却也更难研究。目前的证据指向一个跟线粒体大致相同的进化模式,所涉及的分型虽不相同,但我们的Y染色体应该也是同样源出于非洲。我们还不能为最古老的合并点给出一个准确的时间估计,部分是因为2013年出土了一个罕见的非洲支系的遗存,这也许意味着可能有一个新的“亚当”生活在“夏娃”之前。在本篇后记中我们会再回到这个故事。随着越来越多非洲人的基因组得到测序,我们很可能会发现更古老的亚当(可能还有更古老的夏娃)。
非洲以外地区的纯父系家系就像是梢头伸出了几根细枝,除此之外,Y染色体的家系图完全是集中于非洲的。每一根细枝根部分叉的时间都跟线粒体大致相同(也许稍早一点)。在欧洲和亚洲,更细的分型的地理分布大致对应着今天线粒体的分布,却并不完全相同。多个分支可能对应着多次迁徙,或者同一次迁徙携带了多组不同的Y染色体,其中有部分得以流传至今,欧亚大陆上的男人们仍然携带着这些Y染色体的后代。
截至目前,晚近非洲起源说的情况还不错。但是,不管是线粒体还是Y染色体,都具有潜在的欺骗性。这并不只是因为它们都只代表了我们基因组中很小的一部分,甚至不是因为它们都只偏重于单一性别。问题在于,任何一个单一的家系图都受到偶然机会和自然选择的巨大影响,其中后者的影响更为隐蔽。以Y染色体家系扩散出非洲为例,它可能代表了一次人类大迁徙,却也可能只是一次偶然,或者是自然选择的结果,也许根本不存在什么大迁徙。我来解释为什么这是可能的。想象一个几十万年前的世界,人口稠密,人们从不迁徙,只和邻居通婚,如果Y染色体上出现了一个潜在有利的新基因,比如说让胡子变得更加茂密,让我们来考虑一下这个新基因的命运。在严寒的气候下,这个基因会比其他版本更受青睐。而且,由于Y染色体上的全部DNA都是整体一起遗传的,那些碰巧位于有利基因附近的基因也同样得到了这个“正向选择”的好处。当这个Y染色体和它的后代们通过通婚散布北半球的时候,旧的版本就会被替代。如果我们今天只看Y染色体,就很容易错误地以为它的家系图代表了整个种群的快速扩张和替代,而实际上那不过是单个“基因”的快速扩张和替代。换句话说,尽管基因像涟漪一样传播开去,可种群自己有可能还停留在原处。
这个假想的情形说明了一个重要而普遍的原则,即单个基因家系图不足以把自然选择那看不见的手跟更普遍的变化区分开,比如种群规模的变化、迁徙活动或者部族的分裂。要重建历史上的人口学特征,我们的DNA证据需要横跨整个基因组。
在这场探索中,遗传重组是我们的盟友。你应该还记得,重组是切开并重新连接DNA片段的过程。有些基因曾频繁地被重组过程分开,比如在染色体上相距很远的基因,它们可以为人类历史提供多方面的见证。事实上,只选择相距遥远的基因实在是过于局限了。我们正在开发把全部DNA都加以利用的新技术。这是未来的必然趋势,但它要求我们先解决面前的问题,即重组的复杂性。
首先想象一下如果我们逆着时间追溯一群人的全部DNA会发生什么。如果一段DNA序列的两个副本可以追溯到某一条单独的染色体,我们知道它们会在某个共同祖先那里合并。但如果涉及的是一大段DNA长序列或者一整条染色体,我们就必须考虑另一种可能性。一段DNA序列副本内部的片段有可能来自多个不同的祖先。顺着时间去看,如果来自父亲的片段和来自母亲的片段合并成了一条新的染色体,那么就会发生这种事情,即我们逆着时间追溯的时候所见到的不再是两条家系合并成一条,而是一条家系分叉生成两条。这条染色体不同部分的历史在这个岔路口分道扬镳,各自回退。
家系逆向合并或分支形成的图形被称为祖先重组图(ancestral recombination graph,ARG),此处所谓的“图”指的是交错的线条组成的网络。有时候它还被称为遗传历史学家的“圣杯”,因为计算出这幅图就好比是把一大堆基因组携带的系谱学信息全部压缩起来。不幸的是,这种计算是不可能实现的。哪怕只是寥寥几个基因组之间的关系,也需要无穷多的祖先重组图来表示,而且我们永远不能确定到底哪个才是完全准确的。遗传学家采用的是替代的办法,使用计算机将一系列概率较高的可能性进行平均。这样做或许显得粗糙,但基因组包含的信息是如此丰富,哪怕只对几个人使用这种方法都能得到丰厚的回报。惊人的是,哪怕只有一个人的基因组也同样可以运用这种方法,因为我们的大多数DNA都有双份副本,一份来自母亲,一份来自父亲。来自剑桥桑格研究院(Sanger Institute)的理查德·德宾(Richard Durbin)和李恒[74](Heng Li)发明的这个方法能够挑选出一些可能的祖先重组图,它们可以合理地解释你的父源DNA和母源DNA之间的差异。配合“分子钟”技术,这种方法可以估算任何一段染色体的父源序列和母源序列在古代合并成共同祖先的年代。基因组各个部位都可以提供一个合并的年代,从而为你的基因历史绘制出一张全面的图谱,并且免于自然选择影响单个基因所导致的偏差。
刚刚说的是“你”的基因历史,当然这个方法首先需要获取你的个人基因组序列。本书的作者之一(理查德·道金斯)有幸对他自己的全部DNA进行了测序,当时是为了拍四频道(Channel 4)[75]的一部电视纪录片《性、死亡和生命的意义》(Sex, Death and the Meaning of Life)。我们在此用道金斯的基因组做例子,但重要的是,再过几年等测序变得足够便宜之后,每个读者都可以用自己的基因组做同样的事情。谁不想看看自己的基因组里记录着什么样的历史呢?