我个人对史前印度的研究始于一本书和一封信,那是2007年的事情了。
这本书就是卢卡·卡瓦利-斯福扎的鸿篇巨制《人类基因的历史和地理》。书中提到了“矮黑人”(或称尼格利陀人,Negrito),他们居住在离大陆几百公里远的孟加拉湾安达曼群岛上。由于深海大洋的阻隔,安达曼群岛一直处于与世隔绝的状态,基本上与现代人在欧亚大陆上的人群变迁毫无瓜葛。一个例外是大安达曼群岛,由于英国人曾将此地用于殖民地监狱,它的与世隔绝状态在过去的几百年内受到了极大的破坏。北森提奈岛(NorthSentinel Island)上居住着世界上最后一支基本与外界隔离、仍处于石器时代的民族,他们大约有几百人,受着印度政府的保护以避免外部的任何干扰。他们与我们的世界格格不入,在2004年印度洋海啸后,印度政府曾试图援救,而他们却向前来援救的直升机射箭。安达曼人的语言与欧亚大陆上的其他语言截然不同,更追溯不到什么渊源。他们的外形也与附近的人群相差甚大,体型更加瘦小,头发紧密卷曲。在书中,卡瓦利-斯福扎曾在一个章节中推测,安达曼人或许代表了孤立的、最早走出非洲的现代人的后代,也许早在人类大迁徙之前就搬来了这里。这里所说的人类大迁徙发生在5万年前以后,带来了当今所有非洲以外人的祖先的兴起。
在阅读这本书的时候,我和同事们一起给拉尔吉·辛格(LaljiSingh)和库马拉萨米·唐加拉吉(Kumarasamy Thangaraj)写了一封信。他们都在印度海得拉巴(Hyderabad)的细胞和分子生物学中心(Centrefor Cellular and Molecular Biology, CCMB)工作。几年前,他们发表过一篇论文,是关于安达曼群岛上的居民的线粒体和Y染色体DNA的。18研究表明,小安达曼岛的人已经和欧亚大陆分离了数万年。我问他们,为了得到更全面的结果,我们是否可以分析安达曼人的全基因组数据。
辛格和唐加拉吉很愿意合作,而且他们很快就说服了我:如果把印度大陆上的数据一起加以分析的话,整个故事将更加完整。他们给我们提供了大量DNA样本的使用权限。在CCMB的冷库里,他们收集了能够代表印度人族群的超凡多样性的样本,上次我查看的时候,样品中包括了超过300组、18000个个体的DNA样本。这些样本都是由印度各地的学生搜集的,他们探访各个村庄,专门采集那些从祖辈起就待在一个地方、属于同一族群的人的血样。基于CCMB的样本库,我们挑选了25个地理、文化和语言上都尽可能分化的群体,涵盖了印度种姓制度中从低到高的阶层,同时也包含了一些种姓制度外的部落。
几个月后,唐加拉吉来到了我们在波士顿的实验室,带着他那些独一无二、珍贵无比的DNA样本。我们使用了单核苷酸多态性(singlenucleotide polymorphism, SNP)微阵列进行分析,当时这一技术在美国刚刚出现,印度还没有。出于这个原因,唐加拉吉得到了印度政府的许可,把DNA带到了印度以外的地方。(如果在国内可以实现相关的研究,印度法律将限制生物材料的出口。)
一个SNP微阵列包含了数以十万计的微观像素,每一个都由人工合成的DNA片段覆盖,这些片段在基因组中的位置则是由科学家们选择出来的。当在微阵列上涂抹上一个被试的DNA样本时,与人工DNA序列重合的部分将与微阵列紧密结合,反之则被冲洗掉。根据与诱饵序列结合的相对强度,一架检测荧光的照相机就能够确定一个人在其基因组内携带的可能的遗传信息。我们所分析的SNP微阵列能够研究基因组中数十万个位置,在这些位置上只有部分个体才携带有突变。然后,通过研究这些存在着突变的位置,我们就有可能确定哪些人群之间关系最为亲密。这种技术比对整个基因组进行测序要便宜得多,因为它只需聚焦于感兴趣的位置,在这些位置上比较容易发现差异,而且所提供的人群历史信息也是密度最高的。
为了对这些样本相互之间的关系做一个初步的了解,我们使用了主成分分析这一数学方法。在本书前一章中讲到欧亚西部人群历史时,我们也用到了这种方法,并用它发现了最能描述人群间差异的、单DNA字母突变的组合。利用主成分分析法,我们将印度人群的遗传学数据显示在一张二维图上,发现样本点分布在一条线上(见图17)。这条线的一头是来自欧亚西部的个体,也就是欧洲人、中亚人和近东人,出于比较的目的,我们把这些个体都包含在了主成分分析中。这条线的其余部分,我们称之为“印度人渐变群”(IndianCline):不同人群之间的差异呈渐变分布,在图上就像一支射向欧亚西部的箭头。
图17 南亚人遗传变异的主要模式
南亚遗传变异的主成分分析表明,大多数印度人群体的血统呈现出渐变分布,渐变的一极是北部讲印欧语的人,另一极则是南部讲达罗毗荼语的人。
主成分分析图中的梯度可以由不同的历史事件造成。但此图中的模式如此泾渭分明,使得我们推测今天的很多印度人族群是两支血统来源以不同比例融合后的结果,其中一支与欧亚西部人有关,另一支则是与之相差甚大的人群。就拿印度最南端的族群来说,他们讲达罗毗荼语,而且从图上可以看出他们往往与欧亚西部人的血缘关系最远。基于此,我们开发了一个当代印度人由两支祖先人群混血而来的模型,并进一步检验这个模型与数据的一致性。
新模型要有新方法来检验。还记得我们在2010年用来证明尼安德特人和现代人之间曾发生过混血的方法吗?20其实,那些方法主要是为了研究印度人的历史而开发的。
我们首先检验了以下假设:欧洲人和印度人从同一支祖先人群演化而来,而这支祖先人群早先从东亚人的祖先人群分离而来。我们先将欧洲人与印度人基因组上的存在差异的DNA字母找出来,然后再检查这些DNA字母在中国人的样本中出现的频次。我们发现,很显然,中国与印度人共享的DNA字母要比与欧洲人共享的多。这样就排除了上述假设,也就是说,不存在一支同宗的祖先人群先从中国人的祖先那里分离出来,然后再演化成欧洲人和印度人这种情况。
接下来,我们检验了另一种假设,即中国人和印度人从同一支祖先人群演化而来,而这支祖先人群早先从欧洲人的祖先那里分离而来。然而,这种情况同样不成立:欧洲人与所有印度人的血缘关系都比与中国人的更近。
我们发现,从平均意义上来说,在所有印度人中,遗传突变的频率都介于欧洲人和东亚人之间。产生这种模式的唯一方式是古代人群之间的混血——第一支人群与欧洲人、中亚人,以及近东人有关,第二支人群则是东亚人的远亲。
我们把第一支人群称为“欧亚西部人”,指代来自欧洲、近东和中亚的一个大的人群集合,在这个集合内,人群之间的遗传突变频率差异并不大。这么说吧,他们之间的差异大约是欧洲人跟东亚人之间的差异的1/10。当代印度人的两大血统来源之一与欧亚西部人有关,这个发现还是挺令人震撼的。这就很像是在告诉我们,欧亚西部人推进到最东边的时候,碰上了一帮度外之人并与之发生了混血。后者与包括中国人在内的当代东亚人有亲缘关系,只不过在几万年前就已经相互分离了。因此,第二支人群代表的是一个早期分化的支系,只对当代南亚人有血缘贡献,与居住在其他地方的人则没有多少干系。
确定了混血的存在之后,我们开始找寻那些没有参与其中的当代印度人群。大陆上的所有人群都不适合,然而,小安达曼岛上的人却与欧亚西部人毫无瓜葛。从血统上讲,安达曼人的特征恰好符合古代东亚人的长期与世隔离的后代,而这些古东亚人正是为南亚人群贡献了主要血统的另一个祖先人群。没想到人口不足100的小安达曼岛原住民,居然成了我们了解印度人类历史的关键。