丝叶狸藻是一种开黄花的水生植物,看起来有点像花园里的金鱼草。乍一看,点缀在它根部的那些小“水囊”看起来很奇怪,其英文名也因此命名[21]。但这些小水囊的用途其实相当险恶。像同一属的其他狸藻一样,丝叶狸藻是食肉植物。每个水囊都是一个致命的陷阱,一触即发。它是一个密封的低气压室,当附近的触毛被碰弯时,它会突然打开,陷阱出现,路过的动物顺流而入,被吸进囊内,然后被逐渐消化。
生物的相互利用在自然界普遍存在。丝叶狸藻的迷人之处在于它逆转了植物和动物之间的命运。但它还在另一个层面上给我们上了一堂博物课,这堂课揭示的不是生态系统中不同物种之间的剥削,而是基因组中基因之间的利用。为了理解这个古怪的小植物传递给我们的信息,我们必须暂时先把它放在一边。它会在本篇故事结尾时回到舞台,那时它那可爱的小基因组会告诉我们大多数DNA到底是用来做什么的。
20世纪70年代以来,生物基因组DNA总含量(被称为“C值”)几乎完全不能反映基因组的复杂性这一事实逐渐深入人心。这种现象甚至还有个名字叫作“C值悖论”。我们之前已经遇见过石花肺鱼,其臃肿的基因组有1 330亿个碱基对。该领域的领先研究者之一瑞安·格雷戈里(Ryan Gregory)喜欢讲这样一个有趣的例子:当你准备晚餐的时候,你应该泪流满面地想到,洋葱的基因组是人类的5倍。也许这是因为植物和动物遗传信息的编排方式不同?答案是否定的。在密切相关的物种之间也存在同样的差异。无肺螈属(Plethodon)是蝾螈的一个属,该属某些物种所包含的基因组是其他物种的4倍。洋葱的近亲也是如此。Allium altyncolicum是一种类似细香葱的植物,它的基因组“只不过”是我们的2倍。野蒜(Allium ursinum)的基因组足足比我们大9倍。一个更突出的例子是甜玉米,同一物种的基因组含量可能会有50%的变化。
我们在《七鳃鳗的故事》里提到,在遥远的过去,全基因组复制导致脊椎动物的基因组扩张为原先的4倍。但C值悖论不能简单地用全基因组复制来解释。的确,多倍体在植物中是很普遍的,特别是像小麦这样的农作物和水仙花这种观赏植物。在这些例子中,复制是近期发生的,在显微镜下能够清楚地看到染色体有4个或6个近似相同的拷贝,而不是传统上的2个拷贝。我们还可以通过观察全基因组序列来观测更多古老的倍增事件,并寻找相似基因的多个拷贝(在脊椎动物Hox基因中可以看到这一点)。虽然在大多数开花植物中都能清楚地看到类似情况,但在洋葱的例子中却并不明显。更重要的是,它并不能解释葱属和无肺螈属不同种的基因组之间的4倍差异。
如果从技术层面上将“基因”定义为蛋白质编码序列,那么基因组大小的差异主要并不来自基因的数量。洋葱的基因组尚未测序,但我们知道,人类蛋白质编码序列仅占DNA的1%多一点,实际上我们预测洋葱中这个比例会更小。通过比较已知的基因组,很明显C值悖论的答案在于基因组中存在大量非编码DNA。
“非编码DNA”是一个糟糕的术语,它听起来像是说这些DNA序列是毫无用处的垃圾序列。但事实并非如此。编码DNA之所以叫编码DNA,是因为它使用了“遗传密码”(DNA的三个字母对应于蛋白质中的一个氨基酸)编码了蛋白质。非编码DNA不编码蛋白质,但仍然有其他功能。这个术语令人困扰,而且正如弗朗西斯·克里克(Francis Crick)指出的那样,从DNA到蛋白质的翻译过程也不是真正的编码。从技术上讲,这只是一种转码:将一个长度的信息转换为另一个长度的信息的方法。最好将遗传词典中“非编码DNA”用一个误导性不强的词替代,比如“非翻译DNA”。正如我们在《小鼠的故事》中提到的那样,这些非翻译区域包含开启和关闭基因的开关,但是这种控制区域也只占了非翻译DNA的十分之一不到。那么剩下的是什么?
剩下的有什么用呢?下面这个故事来自昆虫学家乔治·麦加文(George McGavin)。本书的两位作者都曾工作于牛津大学自然历史博物馆。有一天是博物馆的开放日,乔治·麦加文被一位女士搭讪,她问:“黄蜂有什么用?”他耐心地向她解释了进化的基本原理,最后得出的结论是,从人类的角度来看,生物根本不需要为了任何其他东西而存在。她满意地点头,想了一下,又问道:“虫子有什么用?”
麦加文博士说,如今他只回答道:“黄蜂是为了繁衍黄蜂而存在的。”在DNA的层面上这种简洁的描述非常准确。就像我们读到的,DNA序列最终的功能是去产生更多它自身的拷贝。这是《自私的基因》这本书所传递的信息,也是C值悖论的关键。当然,我们可以凭着后见之明看一下某段DNA序列的作用,看看它给生物带来什么便利,从而间接地有利于序列本身。如果说我们的眼睛的进化是为了“看见”,那么从分子层面上说,红色、绿色和蓝色的视蛋白基因的进化也是为了“看见”。我们将它们的存在归因于这样一个功能,即产生能吸收一定波长的光的蛋白质,让我们不仅可以看见物体,还能看到物体的颜色(参见《吼猴的故事》)。但这只是过度简化的描述。红色和绿色视蛋白基因的存在只有一个终极的理由:它们被复制的次数多于它们的生物载体死亡的次数。回头来看,其中可能的原因有很多。或许根本只是巧合而已。而更有可能的是,他们给整个身体带来某种概率上的好处,让祖先猴子能分辨红色和绿色,能采摘到成熟的果实,从而有更多的子代,而子孙后代遗传了视蛋白基因的拷贝。大多数蛋白编码基因的存在都是由于同样的历史原因。他们与其他基因合作,确保整个基因组有更多的拷贝,使整个基因组序列能通过种群和子代代代相传。这就是为什么人们会有这种错觉,仿佛基因有某种使命或者经过设计。
但是,DNA序列复制还有其他的方法。最突出的情况是在不同的个体之间独立移动。最常见的例子是病毒,在这里介绍病毒一方面是因为它们与我们的故事相关,另一方面是因为它们将不会正式加入我们的朝圣之旅,因为目前还不清楚它们与其他生命形式的关系。
病毒是一段短的DNA或RNA,外面包裹着保护性的蛋白外衣。至少有一些病毒可能最初是其他生物基因组的碎片,后来进化出了在细胞间转移的能力。这些基因可以说事实上获得了属于它们自己的生命[22]。
病毒实在是太小了,因此不能编码出DNA复制所需的所有蛋白。猪圆环病毒(Porcine circovirus)是已知最小的病毒,只有1 768个碱基。病毒并不自己复制,而是搭宿主细胞的便车。宿主细胞的复制机器被用来复制病毒的基因组,同时还合成病毒的其他结构,比如壳体和允许病毒潜入细胞的结构。
在阅读这本书的时候,你的身体里就有病毒。水痘带状疱疹病毒(Varicella zoster)引起水痘,然后会一直潜伏在你的神经细胞中。如果你小时候得过水痘,病毒很有可能还在你体内。我们可能会问病毒这样做是为了什么?它们待在那里的原因是什么?显然,它们是为了自我复制,而你的免疫系统不知出于何种原因无法摆脱它。换句话说,病毒的存在是为了产生更多的病毒。
水痘这种类型的病毒的基因组总是与细胞的DNA分离,这个结论人人都能接受。但某些病毒(逆转录病毒)会将其基因组永久地粘贴到细胞DNA中,从而成为宿主基因组的一部分,成为我们的一部分,这就让人不太舒服了。正如你所预料的,插入点的位置可能会给宿主带来严重的问题,癌症是一种特殊的情况(一个悲惨的例子是猫的白血病)。令人类更恐惧的是一种整合到免疫系统的逆转录病毒,即臭名昭著的人类免疫缺陷病毒,HIV。尽管HIV最为人所熟知,但它们不是最常见的人类逆转录病毒,因为免疫细胞最终会死亡。免疫细胞死亡后,HIV也随之死亡。有一组病毒已经克服了这个问题。我们所有人都感染了这种病毒,因为他们已经成功渗透人类的生殖细胞,从而像其他DNA一样会从父母传给孩子。这就是内源性逆转录病毒,它们已经感染我们和我们的祖先数百万年[23]。内源性逆转录病毒有许多类型,在我们的进化历史的不同时期感染了我们,不仅扩散到其他细胞,而且扩散到基因组的不同地方。通过这种在DNA上的传播,由病毒衍生的序列——也包括一些成功潜入生殖细胞的非逆转录病毒——占据了人类基因组的10%。
这里提供一个解释,用以说明非翻译DNA何以存在,以及它们的数量为何不同:它只是简单地反映其祖先的感染史。吉基卡斯·马基奥基尼斯(Gkikas Magiorkinis)和同事最近发现,猿类基因组中内源性病毒的复制已经减缓,但在旧世界猴中并非如此。一个主要的内源性病毒科甚至已经灭绝了,但这并不意味着它们的DNA已经被移除。它只是发生了突变,该序列无法再继续复制。这些已灭绝的病毒的遗体仍然散落在我们的基因组中。
我们可以将基因组与计算机硬盘做类比。像基因组一样,从外观上不能看出硬盘里存着各种杂乱的旧物。当你删除计算机上的过时文件时,文件本身不会被删除:是文件指向的指针被删除(这就是为什么在紧急情况下,您可以恢复先前删除的文件)。类似地,在基因组中,不使用的基因通常不会被移除,但突变不断积累会逐渐偏离其原始功能序列。病毒将这个比喻又推进了一步:我们甚至在讨论“计算机病毒”,即自我复制的代码片段,有时出于程序员的恶意安排。与感染病毒的计算机一样,生物病毒或者它们的残骸,只要不影响到正常功能,就能在我们的基因组中不被发现。事实上,内源性病毒并不是我们基因组中最主要的恶意软件。它们仅仅是一个庞大阵容中的一员,这个庞大阵容通常被称为“转座元件”(transposable elements)。
转座元件也叫转座子,可以在基因组内复制:它们在单个细胞的DNA中跳跃,插入新的基因座从而实现扩散。转座子大约占人类DNA的一半,与计算机恶意软件一样,我们很少看到它们活动,因为它们持续生存的秘诀就是秘密行动。20世纪40年代,细致的研究工作证明了它们在玉米中的存在,尽管转座子占玉米基因组的比例高达85%,但人们直到几十年后才接受它,其发现者芭芭拉·麦克林托克(Barbara McClintock)也终于在1983年获得了诺贝尔奖。正如我们所知,有些转座子是病毒式的,可以在生物之间跳跃。然而,更常见的是大量不可见的转座子,专门在单个基因组中复制。DNA测序揭示,洋葱、蝾螈、玉米和其他复杂生命形式中发现的遗传物质数量的差异主要来源于转座子数量的不同。
现在是时候回到C值悖论了。早在1976年,我在《自私的基因》一书中提出了以下建议:“解释多余DNA最简单的方法是,把它看作一个寄生虫,或者最多是一个无害但也无用的乘客,在其他DNA所创造的生存机器中搭便车而已。”四年后,福特·杜利特尔(Ford Doolittle)和卡门·撒皮恩扎(Carmen Sapienza)发表了一篇开创性的研究论文,同一时间莱斯利·奥格尔(Leslie Orgel)和弗朗西斯·克里克也发表了同样的工作。前一篇论文是《自私的基因、表型范式和基因组进化》,后者是《自私的DNA:终极寄生虫》。当然,我非常欣慰。“自私的DNA”一词现在被用来描述所有转座元件。但是,我认为把“自私”这个词用在这里是不恰当的。按照《自私的基因》书名的初衷,所有的DNA片段(广义的基因)都默认是自私的,不过实际上传统的遗传机制鼓励它们相互合作。转座子是一种特殊的自私基因,我们或许可以称其为“超自私”,因为这些基因采用了另一种复制方法,在基因组内传播。
顺便说一下,转座子并不是唯一一类可以被称为“超自私”的DNA,还有其他一些有明显恶意的DNA。根据孟德尔遗传规则,一个正常的基因有50%的概率出现在任何一个精子中。称为“分离畸变者”的基因按自己的喜好扭曲这种概率。例如,老鼠的所谓t基因会杀死不包含它的精子。还有许多这种例子,这些遗传序列已经找到了应对孟德尔机制的手段。奥斯汀·伯特(Austin Burt)和罗伯特·特里弗斯的《基因的斗争:自私的遗传片段的生物学》(Genes in Conflict: The Biology of Selfish Genetic Element)一书非常全面地介绍了各种超自私基因。
在所有超自私的DNA中,转座子是最普遍的。如今我们比30年前更了解它们。我们知道,就像内源性病毒一样,大多数转座子都是沉寂的,通常是由于发生了不可挽回的突变或者进入基因组中某个不利的位置。再比如,我们知道人类基因组中最常见的寄生元件是一个叫作Alu的短序列,包含大约300个碱基,重复超过100万次。300个碱基不可能包含很多功能,Alu只能利用其他转座子来复制。换句话说,它是一种“超级寄生虫”,是基因组其他寄生虫的寄生虫。Alu是灵长类动物特有的,很可能崛起于9号共祖和8号共祖之间的某个时间。它的起源很能说明问题。它的部分DNA序列与一种编码7SLRNA分子的重要基因相匹配,而这种分子普遍存在于所有活细胞中,能协助蛋白在细胞内运输。Alu的诞生似乎是由于该基因的中间部分缺失了一段,从而偶然赋予它转座的能力。这给我们上了有益的一课,以揭示自然选择是如何工作的。认为基因“想要复制”,这是一种误导性的想法。只不过那些碰巧获得这种能力的序列很显然正是我们如今在自己的基因组中找到的那些序列罢了。
我们也有很多其他的转座元件,它们大多比Alu长,很多都以类似逆转录病毒的方式将自己粘贴到基因组中。一种颇有说服力的理论认为,像HIV这样的逆转录病毒就源于这些转座元件,它们从其他病毒那里获得了壳体蛋白,从而成为病毒。更一般的现象是,不同物种的基因组包含的转座子种类和数量都有差异,而这取决于这些物种的进化历史。这也是导致C值悖论的主要原因。为什么这些DNA在那里?就像杜利特尔和撒皮恩扎所说的那样:“当发现某个或某类功能表型不明的DNA具有一套进化策略(比如转座)以确保其在基因组中活下来,那么它的存在不需要别的解释。”
有些人被人类完美主义的恶习诱惑,反对这种想法。人们经常寻找转座子序列的功能,其实这没有必要。这些人也许被误导了,因为由转座子引起的突变确实给基因组带来了很多重要的好处。在《吼猴的故事》中我们看到,Alu导致了基因的复制,从而给我们带来了三色视觉。我们还知道,转座子会夹带着决定基因开启还是关闭的“开关”序列,一起在基因组中移动,从而改变现有基因的活动。转座子对人类基因组进化产生了深刻影响,这种超自私的元件不仅占据了我们基因组的很大一部分,而且还会切割和改变我们的DNA。我们甚至可以猜测,这种DNA后来参与协同进化,可以帮助整个生物体繁殖。但总体而言,寄生性DNA片段这种可以引起突变的行为是有害的。再次重复《吼猴的故事》中的提醒,不管这些寄生元件在多大程度上参与我们基因组的长期重塑(证据表明它们正是主要的驱动力),这并不是它们存在于我们基因组中的理由。自然选择不会因为它们哪一天会偶然提供有益的突变而把这些DNA片段保留在基因组中,就像悉尼·布伦纳(Sydney Brenner)[24]那个令人难堪的评述:“也许在白垩纪就能派上用场。”
有一个叫作ENCODE的国际合作项目,其原本的目标是确认我们基因组中哪些部分被细胞使用,这是值得赞赏的,但他们同时误导性地激励了人们去寻找超自私DNA为我们提供了什么益处。最近,该研究小组声称,人类基因组80%的序列都有“生物化学功能”,赢得了广泛关注。鉴于我们基因组中有一半是寄生性序列,其中大部分都已经死亡或正在衰退,这个结论显得有些奇怪。但正如我们所见,有功能是一个相当不可靠的词,而ENCODE项目对这个词的使用比平时更不可靠。他们认为只要一个DNA序列与细胞有任何可重复的相互作用,那么就可以将它定义为“有生物化学功能”。这当然包括病毒和转座子的活动(它们确实有“生物化学功能”,但不一定对整个生物体有益),同时还包括一些不经意间与细胞元件发生相互作用的死亡元件。
通过采用明确的进化途径,可以提供一个更有意义的图景。如果一个特定的DNA序列为生物体提供了有用的功能,我们可以预期它是保守的,而且是在地质时间尺度上保守。这是一个相对容易测量的指标。例如,克里斯·兰兹(Chris Rands)和牛津大学的一个研究小组的最近一项研究就是寻找我们的基因组中很少发生插入或缺失突变的区域。有用的DNA不能容忍“插入缺失”这种破坏性突变,否则它们很可能被自然选择淘汰。按照这个标准,不可破坏的区域占我们总DNA的7%到9%。这7%到9%包含了人类最基本的指令。其余的部分几乎没有什么有用的功能。换句话说,这些区域发生的突变几乎不会对人类产生影响,尽管这些区域或多或少有着生物化学活动。众所周知,这些“无用”的区域通常被称为“垃圾DNA”,但是,正如转座子的例子所示,这些DNA可能有“功能”,只是不一定有益于整个生物体[25]。任何DNA的功能都是自我复制,只不过我们已经习惯了处理其中的一类DNA,而这类DNA是通过合作的方式参与个体的胚胎建设从而迂回地实现这一目的的。
无论我们用什么方法来确定DNA的功能,都需要精细和间接的计算,其中还有很多我们目前无法理解的地方。例如,序列本身可能不重要,但是DNA结构仍然有用,例如看似无用的序列可能是其他序列之间的某种填充。关于这些DNA功能的终极测试是移除我们怀疑是垃圾的90%的DNA后,看看剩下来的DNA是否还能造出一个人。这个测试不仅在技术上无法实现,而且绝对无法通过地球上的任何一个伦理委员会的审查。幸运的是,大自然已经替我们做了一个类似的实验,我们也终于可以回到本篇故事的主角,丝叶狸藻身上。
《丝叶狸藻的故事》可以起这么一个副标题:不可思议的缩小版基因组。它的基因组是我们的基因组的四十分之一,尽管它有更多的蛋白质编码基因。即使与其他有小基因组的开花植物例如与之关系亲近的猴花或者亲缘关系较远的番茄相比,它的基因组也依然很小。2013年,一个国际研究小组对丝叶狸藻的基因组进行了测序,揭示了它实现如此壮举的秘密。正如你猜测的那样,它删除了绝大部分的超自私DNA,转座子占其基因组的比例不到3%。
目前还不清楚这种植物是如何做到这一点的,但是非常反直觉的是,它似乎先是把基因组进行了扩张,连续进行了三次全基因组复制。一种可能的解释是,额外的基因拷贝可以确保植物在大块删除基因组后仍能存活下来。我们对此尚不能确定,还需要做更多的研究来正确地阐明这种植物何以成功摆脱寄生的DNA。
为什么丝叶狸藻要这样做呢?进化植物学家们没有确切的答案,但答案可能在于,就像其他食肉植物一样,丝叶狸藻生活在营养不良的环境中。确切地说,丝叶狸藻长期经受着磷元素匮乏,而磷是DNA的主要组成部分。在巨大的选择压力面前,它只能在DNA产物上减少开支。
即使在其他生物中,比如我们自己,超自私DNA的数量也必须受到某种控制,否则它将占据整个基因组。一种控制方法是进化出转座子抑制机制。2006年诺贝尔医学奖授予了安德鲁·法厄(Andrew Fire)和克雷格·梅洛(Craig Mello),因为他们在1998年发现了前所未闻的基因控制机制。这种机制好像是基因组的免疫系统一样,被称为RNA干扰(RNAi)。它能识别并关闭任何在细胞中留下双链RNA的基因,比如转座子和逆转录病毒。自那时起,38号共祖的后裔就进化出了用RNA干扰机制来调节各种基因的能力,而不仅限于寄生的基因。近来RNA干扰已发展成为一项基本的生物技术,但这一机制最初进化诞生的初衷显然是为了控制转座子的有害活动。最近,又发现了一组专门关闭内源性逆转录病毒的控制基因。而丝叶狸藻向我们证明,在极端情况下,可以删除一些基因组垃圾。真核生物基因组中,一般的自私基因和超自私基因之间进行着一场长期的军备竞赛,而丝叶狸藻代表了一种引人深思的极端结果,尽管这种结果可能只是暂时的。所有生物——包括我们自己在内——体内的DNA数量反映了过去细胞内战历史中的胜负情况。