• 精选
  • 会员

大到无法形成理论

2020年7月10日  来源:知识的边界 作者:(美)温伯格 提供人:kangtao76......

1963年,马约诊所(Mayo Clinic)[149]的伯纳德·K.福舍尔(Bernard K. Forscher)在著名期刊《科学》(Science)上发表了一封信,如今它已十分有名。他在信中抱怨科学家们制造出了太多的事实。在这封名为《混乱砖厂》(Chaos in the Brickyard)的信中,他对新一代的科学家提出警告,警告他们过于忙着生产“砖块”,即事实,而丝毫不去考虑它们该如何整合在一起。5福舍尔担心,制砖本身已经成为了目的。“于是整个工地堆满了砖块……人们不得不在如山的砖块中搜寻,找到合适的砖块变得越来越难……建成一座可以正常使用的大厦也变得非常困难,因为经常是刚刚把大厦的地基打好,整个地基都会被垮塌的乱砖堆掩埋。”

如果科学就像是1963年那个混乱的砖厂,那么福舍尔博士可能会在全球生物多样性信息机构(GBIF,Global Biodiversity Information Facility)[150]前坐下来痛哭一场。过去这些年来,GBIF的网站上(GBIF.org)收集了无数的“事实砖块”——我们这个星球上生物分布情况的信息,从波兰国家公共卫生研究所(the Polish National Institute of Public Health)收集的细菌,到南极洲韦斯特福尔山脉(Vestfold Hills)威德尔氏海豹(Weddell Seal)[151]的普查情况。GBIF网站就是要成为福舍尔所哀叹惋惜的那类砖厂——未成假说、理论、支柱之前的信息;唯一的不同是GBIF比福舍尔所能设想的砖厂要大得多,因为他根本无法预见到一个网络化的砖厂能够大到何种程度。

的确,基于事实的网络化砖厂已经成为一个欣欣向荣的产业。比如,在ProteomeCommons.org这个网站上,你能找到各种有机体蛋白质的信息。这个网站是一个研究生创立的独立网站,集合了大约1 300万份数据资料,信息量总计12.6TB。网站上的数据来自于全世界的科学家,并且免费向所有人开放。打出“为宇宙绘制地图”的斯隆数字巡天计划(Sloan Digital Sky Survey)6,则一直在从全世界25家机构中收集关于天空的图景并将其发布出来。[152]经过8年努力,它在2008年第一次公布的调查中,公开了2亿3 000万个天体的信息,其中包括93万个星系;每个星系中又包含数百万个星球,所以这个“砖厂”的规模,将会大到我们甚至没有词语来对应它的数量的地步。最为人知的新型数据“砖厂”,人类基因组项目(the Human Genome Project),2001年完成了整个人类物种“基因蓝图”的绘制;它在数量上已经超过了国际核苷酸序列数据库合作项目(International Nucleotide Sequence Database Collaboration),截至2009年5月已经收集了2 500亿条基因数据。7

如今科学数据规模激增,再将其比喻成“砖厂”看起来就像是19世纪那样过时。有三个基本的原因导致了这种变化:

首先,舍弃的经济学已经发生了改变。我们过去用老旧的胶卷相机拍的照片,虽然比起现在的数码照片要贵多了,但是我们仍然会舍弃大部分照片。因为,相册很贵,很占地方,必须殚精竭虑花费大量时间去挑选那些合格的照片。现在,比起筛选和处理掉那些照片,将所有照片都存在我们的硬盘里(或者存在一些网站上)则要便宜多了。

所以Data.gov这个网站才能在成立它的政策出台之后几个月内就创立起来。网站维护人员并不保证会在数据上线之前对所有数据进行核查。他们也不会要求各个机构在上传数据时遵循成熟的标准。相反,所有的数据只是一股脑地被送上线。假如网站维护人员坚持过滤这些数据,删掉那些觉得不可靠的或者他们认为没有多少价值的数据,那么Data.gov这个网站也会遭遇之前那些类似项目的命运,被每一届政府踢皮球踢到未来,永远不可能出现了。

第二,分享的经济学发生了改变。美国国会图书馆(the Library of Congress)馆藏着数以百万计的图书,但是因为物理条件所限,展示和保存它们已经很难,更别提分享了。8但在网络上,我们数字“储藏间”里所储藏的信息分享起来就容易多了。当数据集合大到连网络都难以处理的程度,创新者们就会想出来新的共享形式。比如,Tranche,9 ProteomeCommons背后的系统,就创造出了一套可以在网上共享TB字节数据的技术协议。输出信息的压力可以不用集中在一个单一来源上,分享过程本身也可以在网络上分享。而且新的“关联数据”格式也令将数据打包变得前所未有的容易,大块数据可以轻易打包成小块,成为能被找到和重新使用的数据。而网上接触和共享数据的便利,更进一步强化了我们之前提到的舍弃经济学;那些此前可能不值得储存的数据,现在因为容易找到和共享,而有了新的潜在的价值。

第三,计算机以指数级的速度变得更加智能。约翰·威尔班克斯(John Wilbanks),“科学创作共用”(Science at Creative Commons,以前叫做“科学共用”,我们接下来会有更多介绍)[153]负责科学这一块的副主席,曾经指出:“以前绘制一个基因都要花费一年时间。而现在,你在自己的笔记本电脑上一天就可以绘制3 000个。一个价值2 000美元的基因芯片,就能让你看到整个人类基因组随着时间变迁做出的反应。”10第一个感染H1N1“猪流感”的人确诊之后几天,H1的1699基因片段序列就被分析出来,提交到了全球数据库中。11这样的处理能力甚至在台式电脑上也能实现,为那些存储和分享的数据增加了更多潜在价值。

“砖厂”已经扩大到了银河系般的规模,但是对于福舍尔医生来说,这还不是最坏的消息。现在的问题不是砖块(事实)太多、大厦(理论)太少那么简单了。而是,数据银河系带领我们,来到了一个数据太过丰富、太过复杂以至于无法删减成为理论的科学世界。随着科学变得大到不可知,我们对于知识到底意味着什么也有了不同的观点。

比如,一个有机体的生物系统简直复杂到超乎想象。即使是最简单的生命元素,比如一个细胞,本身也是一个系统。一门叫做“系统生物学”(systems biology)的新学科,研究的就是外部刺激如何向细胞膜发送“信号”。有些刺激只会激发相对简单的反应,但其他刺激则会引发一连串的反应。单个细胞相互反应的全部图景,都远远超乎由细胞组成的人类所能达到的理解。2002年,北野宏明(Hiroaki Kitano)[154]为《科学》杂志撰写了一篇关于系统生物学的封面故事,正式承认了这门年轻学科日益增加的重要性。在文中他写道:“今天人们对系统生物学重拾兴趣,主要原因要归功于分子生物学的进展……这些进展让我们可以收集到关于系统表现的全面的数据集,让我们得到了系统之下分子的信息。”12当然,我们能够收集如此全面的数据集的唯一原因,是因为计算机变得极为强大有力。系统生物学在纸质时代根本无法成为可能。

拥有这一切数据的结果,就是诞生了一门新学科,不仅能够研究“单个细胞或者生物体某一部分的特性”(北野宏明语),而且能够研究那些在“部分”层面上没有显示出来的特性。比如,活着的生物体一个最显著的特征就是,我们是健壮的——我们的身体一次又一次地恢复过来,直到当然再也不能恢复过来。这种健壮性(Robustness)[155]就是系统的特性,而不是单个元素的特性,因为有些元素一点也不健壮,而且有时候还会“牺牲自我”——就像蚂蚁保卫蚁后那样——来保证系统整体能够存活下去。实际上,生命本身是一种系统属性。

科学

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000