早期研究古DNA的科学家们几乎都将注意力放在了线粒体DNA上,这有两个原因。首先,每个细胞中都有大约1000个线粒体DNA的副本,而基因组其余部分大多只有两个副本,所以,提取线粒体DNA的成功率更高。其次,线粒体DNA的信息密度高:对于给定数量的DNA字母,与基因组内的大多数其他位置相比,线粒体DNA的差异性更大。只要DNA字母能被正确地解析出来,那么与其他位置相比,通过线粒体DNA对遗传学上的分离时间进行测量的精度就能更高。通过线粒体DNA数据,人们确定了尼安德特人和现代人共同母系祖先的时间,这一时间比原来预想的要早13——目前最好的估计是47万到36万年前14。线粒体DNA分析也证实了尼安德特人非常独特。他们的DNA类型远远落在当代人类基因的变异范围之外,而尼安德特人和我们的共同祖先所生活的时代,比“线粒体夏娃”要久远好几倍。15
尼安德特人的线粒体DNA是无法证实他们与现代人相遇的时候是否发生了混血的,但同时也无法排除他们对当今非洲以外人群贡献了高达25%(22)的血缘的可能性。16谈到这点,我们之所以无法仅依靠线粒体DNA下断言,背后是有原因的。毕竟当时只有一个或者几个女子能够有幸将其线粒体DNA一直传承到现在,就算是当今非洲以外现代人的确携带着足够多的尼安德特人血统,如果当时的那几个女子都属于现代人,那么今天我们看到的线粒体模式也是说得通的。(23)所以,仅依靠线粒体DNA数据是无法下确定性的结论的,然而科学界的正统观点还是认为尼安德特人和现代人从未发生过混血。这种正统观点一直占据主导地位,直到斯万特·帕博的团队从尼安德特人身上提取到了全基因组DNA。有了全基因组的数据,我们终于可以研究尼安德特人全部祖先的历史了,而不仅仅是少数母系祖先的过去。
在尼安德特人的线粒体DNA序列被解读后的十年里,古DNA技术在效率上取得了巨大提升,使得我们对尼安德特人的全基因组测序成为可能。
2010年以前,古DNA研究的主要手段是一种被称为聚合酶链反应(polymerasechain reaction, PCR)的技术。这个技术需要先选择一段DNA作为目标,然后合成大约20个字母长的DNA片段,使之与目标片段两侧的基因组序列相匹配。通过这些片段可以挑出基因组特定的目标部分,再通过酶的作用对目标部分大量复制。结果就是样品中的一小段目标DNA片段被提取出来,并通过复制形成了大量的相同目标序列。这种方法抛弃了大多数DNA(非目标部分),但无论如何,它提取出了一些我们感兴趣的DNA。
新方法则完全不同,它所依赖的是对样品中的全部DNA进行测序,而不管其来自基因组的哪个部分,也不用根据目标序列预先选择DNA。它充分利用了新测序设备的强大能力——从2006年到2010年间,此项能力至少将测序的成本降低至万分之一。之后,再利用计算机对数据进行处理,将一个基因组的大部分拼接出来,或者从中挑出一个感兴趣的基因。
帕博的团队克服了多项困难才将此项技术付诸实用。首先,他们需要找到一根可以提取出足够多DNA的骨头。人类学家经常与化石打交道,所谓化石,也就是完全矿化的骨头。但是,从真正的化石中是得不到任何DNA的。因此,帕博寻找的是没有完全矿化仍保留着有机物质的骨头,只有这样的骨头中才有可能保存着完好的DNA片段。其次,假设他们可以找到保存着完好DNA的“完美样本”,他们还要解决微生物DNA对样本的污染问题。一个个体死亡后,侵入骨骼的细菌、真菌等都可以造成这种污染。实际上在古样本中的大部分DNA都来自于此。最后,他们还要考虑研究人员,也就是考古学家或者分子生物学家们本身带来污染的可能性,这些研究人员在处理样品和化学试剂的过程中,都有可能在这些物品上留下自己的DNA。
污染是研究古人类DNA的大敌。污染带来的基因序列会误导分析人员,因为处理骨头的现代人个体和被测序的个体之间即便亲缘关系极其遥远,也是相关的。要知道,在一个保存完好的样本中,尼安德特人的古DNA片段一般也就是40个字母长,而现代人和尼安德特人之间的差异是大约600个字母中有1个不同,所以有时的确无法判断一段特定的DNA片段到底是来自骨头还是来自操作人员。污染,屡次让研究人员头疼不已。例如,2006年,在全基因测序开始前,帕博的团队先做了个试验,尝试着对尼安德特人的约100万个DNA字母进行了测序。17结果发现,序列中有很高的比例其实是来自现代人的污染物,严重影响了研究人员对数据的正确解读。18
为了将污染对古DNA分析的影响降至最低,研究人员自2006年开始就采取了很多现代化的措施,而且这些措施越来越精细,包括一系列强制性预防措施。帕博和他的团队在2010年成功地测序了一个未受污染的尼安德特人基因组。在这次测序中,他们借鉴了微芯片制造中使用的洁净空间工艺,建立了“洁净室”,并将每一块筛选出来的骨头都放入其中。房间顶部的紫外线灯和外科手术室中使用的是同一类型,只要房间内没人,灯就会打开,将污染的DNA转化为无法测序的形式。紫外线同时也会破坏样本外部的古DNA,但研究人员可以在样本上钻孔,以此来获取未被破坏的DNA。任何微小的灰尘,也就是任何超过一根头发宽度的千分之一的东西,都可能含有DNA,所以空气也都是被严格过滤的。同时,房间内经过加压后,空气只能从内向外流动,这样一来,实验室外的DNA就不会飘逸进来污染样本了。
整套设施中有3个独立的房间。在第一个房间中,研究人员要穿上连身的工作服,戴上手套和面罩。进入第二个房间后,他们将用于取样的骨头放置到一个容器内,并将其暴露于高能紫外线辐射之下。同样,这么做的目的是将污染DNA转化为无法测序的形式。然后,研究人员使用无菌的牙科钻头在骨头上穿孔,将产生的数十或数百毫克的粉末收集起来,放在经紫外线照射过的铝箔上,最后再将这些粉末倾倒入紫外线照射过的试管里。在第三个房间中,他们将粉末投入化学溶液内以去除矿物质和蛋白质,然后再将溶液通过纯二氧化硅砂砾,这些砂砾在合适的条件下会把DNA留下来,而让其他杂物通过。这些杂物如果不去除的话,会对测序所需要的化学反应产生毒害作用。
至此,研究人员就可以将得到的DNA片段转化为可以测序的形式了。首先,他们利用化学方法,将在地下埋藏了数万年、已经降解的DNA片段上破裂的两端去除。为了进一步去除污染影响,帕博和他的团队在DNA片段的两端附加上了一个人工合成的字母序列,也就是一个化学“条形码”。那么,在打上化学条形码后,任何进入实验过程的污染序列,都可以与古样本的DNA区分开来。最后一步,则是将分子适配器附着在DNA片段的任一端,然后就可以在某一台新仪器里进行测序了。就是这种新仪器,使得测序工作的成本降至以前的几万分之一。
保存最完好的尼安德特人样本出自克罗地亚高原地区的凡迪亚洞穴(VindijaCave),这是3块有着近4万年历史的上肢和下肢骨骼。经测序后,帕博的团队发现,他们所获得的绝大部分DNA片段都来自已经定植在骨骼上的细菌和真菌。不过,在将数百万个DNA片段与当代人类及黑猩猩的基因组序列(作为参考基因组)进行比较之后,他们终于挖出了“金子”。这些参考基因组就像是拼图游戏盒上的图片,可以帮助他们将DNA的微小片段对齐。最终人们发现,这些骨骼中含有约4%的古老型人类的DNA。
在2007年,帕博意识到我们已经能够对尼安德特人的几乎整个基因组进行测序了,于是他组建了一个由专家组成的国际团队,希望分析的专家能够充分地利用这难得的数据。我,以及我的首席合作伙伴——应用数学家尼克·帕特森(NickPatterson),就是在这个时候参与进来的。帕博之所以邀请我们参与,是因为在过去的5年里,我们已经成为研究人类群体融合的革新者。我曾多次前往德国,在证实尼安德特人和部分现代人之间存在混血现象的过程中,发挥了重要作用。