在博尔赫斯的故事里,所有的书都杂乱无章地摆放着,但是,即便它们严格按照字母表顺序排列,也无法找到我们想要找的书,例如《白鲸》的“精华”版。试想一下,我们乘飞船在巴别图书馆的《白鲸》星系畅游。由于这个星系本身大大超过了整个物理宇宙,所以就算你能以光速沿任意方向行进几百年,你所看到的东西也只是与《白鲸》几乎没有任何区别的副本。你永远不会看到其他任何东西。我们知道,通过一点点积累印刷错误,有无数多条路径可将一部伟大作品变成另一部作品,但即使我们知道一定存在一条最短路径,从《白鲸》到《大卫·科波菲尔》(David Copperfield)也是遥不可及、远到难以想象的。如果你发现自己在这条路径上,就算你手头上有这两本书的文本,你也会发现,单凭局部观察几乎不可能发现哪个方向能通往《大卫·科波菲尔》。
换句话说,这个逻辑空间太过“浩瀚”,因此我们无法直接应用许多关于定位、检索和查找的通常办法以及其他诸如此类的流行做法。博尔赫斯让书架上的书以随机顺序摆放,这一画龙点睛之笔为我们带来了一些可谓令人赏心悦目的反思,但让我们来看看如果他设法以字母表顺序安排所有的书,会为自己制造怎样的难题吧。由于只可用100个不同的字母字符,所以我们可以将其中的某一特定顺序当作字母表顺序,比如,a、A、b、B、c、C……z、Z、?、;、,、.、!、)、(、%……à、a、è、ê、é……然后,我们就可以把所有以相同字符开头的书摆在同一楼层。
现在我们的图书馆只有100层高,比芝加哥的西尔斯大厦还低一些。我们可以把每一层楼划分成100个走廊,并按字母表的顺序标记这些走廊,每个走廊中书的第二个字符都相同。接着,我们在每个走廊放置100个书架,每个书架用来存放第三个字符相同的书。因此,所有开头为“土豚喜欢莫扎特”(aardvarks love Mozart)的书都将摆置在第一层楼第一个走廊的同一个书架(“r”架)上。但这会是一个非常非常长的书架,也许,我们最好把书放在与书架成直角的抽屉中,每个抽屉用来存放第四个字符相同的书。这样的话,每个书架大概就只有30米长了。但是,现在每个放书的抽屉都深不见底,而且还会抵到相邻走廊抽屉的背面,所以……但我们已经用尽了所有的维度去安排这些书。
我们需要一个100万维的空间将所有书整整齐齐地存放起来,但实际上我们只有三个维度:上下、左右和前后。因此,就不得不假装我们可以想象一个高维空间,其中的每个维度都与其他维度“垂直”。即使我们不能形象化地表现它们,也还是可以设想这样的超空间(hyperspace)。一直以来,科学家们利用它们为自己的理论表达赋予生机。无论它们是否只是想象,这种空间的几何结构表现优异,数学家们对此也进行了深入的探索。所以,在这些逻辑空间中,我们就可以安心地谈论位置、路径、轨迹、体积(超体积)、距离以及方向。
现在,我们接着考虑博尔赫斯主题的一个变种,我打算称之为孟德尔图书馆。这个图书馆包含“所有可能的基因组”——DNA序列。理查德·道金斯在《盲眼钟表匠》(The Blind Watchmaker, 1986)中描述了一个类似的空间,他称之为生物形态园(Biomorph Land)。他的讨论激发了我的灵感,我们俩的解释完全相容,不过我想强调一些他轻描淡写的内容。
设想孟德尔图书馆是由对基因组的描述组成的,那么该图书馆就恰好是巴别图书馆的一部分。描述DNA的标准代码只包含四个字符,A、C、G和T,分别代表腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶四种核苷酸。因此,所有用这四个字母填满500页的排列已经在巴别图书馆里了。但是,典型的基因组要比普通书籍长得多,人类基因组中大约有30亿个核苷酸,因此一个人的基因组,比方说你的基因组,就将占用巴别图书馆里的大约3 000本书。
现在,人类的基因组与《白鲸》星系的这种比较对人类基因组之间的差异性和相似性做出了解释。如果人类个体的基因组各不相同,不只是在某一处不同,而是在成百上千的位置(用遗传学的话说,叫作基因位点)上都有所不同,我们又何谈为全体人类基因组测序呢?就像大家熟悉的雪花、指纹那样,没有两个人类基因组是完全相同的,包括同卵双胞胎的基因组,遗传代码变异的机会总是存在的,即使对于同一个个体的细胞来说也是如此。人类DNA可以毫无困难地同其他任何物种的DNA区别开来,即便对于黑猩猩也同样如此,虽然它与人类有90%以上的相同位点。
所有存在过的某个人类的基因组都被包含在一个可能的人类基因组的星系中,它同其他物种的基因组之间遥不可及,然而,该星系有足够的空间使任何两个人的基因组都不一样。你的每一处基因都有两个变体,一个来自你的母亲,另一个来自你的父亲。他们恰好将自己一半的基因传给你,而他们从他们的父母,即你的祖父母和外祖父母那里通过随机选择获得了这些基因,但因为你的祖父母和外祖父母也是智人中的成员,他们的基因组几乎在所有位点上都一样,因此,在绝大多数时候,不管你的哪一位先祖为你提供了基因,都没有差别。但他们的基因组仍然在成千上万的位点上不同,而在这些有差异的位置上,你得到哪个基因完全是偶然的,就像在双亲对你DNA的贡献过程中内置了一个掷硬币机制。此外,在哺乳动物中,突变积累的速率大约是每代每个基因组100个突变。“也就是说,你的孩子与你们夫妻二人的基因会有100处不同,这是酶的随机复制错误产生或宇宙射线造成卵巢及睾丸突变的结果。”(Ridley, 1993, p. 45)
对马、兔子或章鱼的基因组描述也由同样的字母,即A、C、G和T组成。大多数动物的基因组比人类基因组小,但是一些植物的基因组要比人类的基因组大10倍以上,而一些单细胞生物的基因组还要更大!单细胞生物变形虫(amoeba dubia)是当前世界记录的保持者,据估计,它的基因组拥有6 700亿个碱基对,是人类碱基对数量的200倍还要多。但让我们姑且假定孟德尔图书馆都是由基因串的描述构成,而且,这些描述写在一套全部由四个字符印制而成的3 000册丛书上。这样这个图书馆将包含足够多“可能”的基因组,完全能够满足任何用意严肃的理论需要。
在描述孟德尔图书馆时,我夸张地说它包含“所有可能的基因组”。然而,正如巴别图书馆忽视了俄罗斯语和汉语等语言,孟德尔图书馆也忽视了显然还存在其他遗传系统的可能性,例如,基于其他化学构造的遗传系统。所以,一旦我们试图将得到的任何结论应用在一些更为宽泛的可能性概念之上时,我们也许就不得不重新考虑对这座孟德尔图书馆来说什么是可能的。这实际上是一项策略上的优势,而非缺陷,因为我们可以对我们所谈论的那种适度的、有所限制的可能性保持密切关注。
DNA的重要特征是,腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的所有排列都具有同样稳定的化学性质。原则上,在基因拼接实验室,所有碱基组合都有可能被构造出来,而且一旦将其组装出来,它们将具有无限保质期,就像图书馆里的书一样。但在孟德尔图书馆,并非每一个这样的序列都对应着一个可行的生命体。大多数DNA序列都是乱码,毫无生机可言。所有我们见到过的基因组,那些到今天还实际存在的基因组,是几十亿年以来调节和修正的结果,是盲目编辑过程的产品,这一过程之所以有效,是因为大部分的乱码会被自动放弃,而只有数量微渺,但有意义、有用的“文本”会留存下来,翻来覆去地被使用、被复制。
就在现在,你身上就有超过一万亿份你的基因组副本,每个细胞中均有一份,而且在每一天,随着新的皮肤细胞、骨细胞和血细胞被制造出来,新的基因组副本也被安置于其中。可被复制的文本得以复制,因为它驻留在持续运转的活细胞中,而其余的则被消解掉——要么发表,要么灭亡(publish or perish)。