毫无疑问,大数据将会对人们生活的方方面面带来重大的影响,也将会给科学事业带来极大的裨益。它对于重大发现以及我们观察世界的新视角领域的成功将取决于它与更深层次的概念化思维以及传统的理论发展之间的一体化程度。安德森提出的设想,以及格雷提出的设想,便是计算机科学家和统计学家提出的万物理论。它带有某种相类似的傲慢和自恋,认为这就是理解一切事物的单一路径。它将在多大程度上揭示新的科学,这仍然是一个开放性问题。但如果和传统科学方法相结合,它肯定会更成功。
希格斯粒子的发现是大数据和传统科学方法论结合带来重要科学发现的绝佳例子。首先,我想提醒你的是,希格斯是物理学基础规律的关键,它遍布宇宙,让电子和夸克等所有基础物质粒子得以出现。它的存在是60多年前6位理论物理学家预测出来的。这一预测并非凭空而来,而是传统科学研究过程的最终结果,包括观察结论的解释以及更多实验的进一步推动,以检验预测的数学理论和概念,这是一个人们多年来开展的数千次科学实验进行分析的过程。
历经50多年,我们的技术才发展到足以对自然基本力的大一统理论的重要组成部分进行认真探寻的地步。在其中扮演核心角色的是大型粒子加速器的建设,质子在圆形管道中以接近光速相对地运行,并在高度受控的作用区对撞。这台被称作大型强子对撞机的机器就建在瑞士日内瓦的欧洲核子研究中心,花费了超过60亿美元。这一巨大的科学设备体积庞大,周长约17英里,观察和测量粒子对撞的两个主要探测器长150英尺,高75英尺,宽75英尺。
整个项目代表了人类前所未有的工程学成就,其产出是所有大数据之母,无法比拟。在每一个探测器内都有大约1.5亿个传感器,它们每秒钟监测大约6亿次对撞,每年会产生大约1.5亿拍字节[1] 数据,或者每天150艾字节数据。我会让你感受下这样的规模意味着什么。
包括所有插图在内,本书的Word文档不足20兆字节(20MB,这意味着2 000万个字节)。我的苹果Air笔记本电脑能够存储80亿字节(8GB)数据。视频网站网飞(Netflix)上存储的所有电影总量不超过4拍字节,即400万GB,或者说比这台笔记本电脑的容量大50万倍。每一天,全球所有计算机和其他信息技术设备所产生的数据量加在一起相当于大约2.5艾字节。1艾字节是1018 字节,或者说是10亿GB。
这太令人惊叹了,这一数据通常被当作是大数据革命的见证,但真正令人惊讶的是,它与大型强子对撞机所产生的数据量完全无法比拟。如果我们把每秒钟发生的6亿次对撞全部记录下来,就相当于每天150艾字节的数据量,这比全球所有计算机设备加在一起所产生的数据总量还要大60倍。很明显,这意味着,天真地让数据说明一切,通过设计机器学习算法来搜索最终导致希格斯机制出现的相关性显然是无效的策略。即使机器产生的数据减少为100万分之一,这一策略也不可能成功。那么,物理学家是如何实现大海捞针的呢?
关键在于,我们有着完善、清晰、经受过考验的概念框架和数学理论,引导我们找到方向。它告诉我们,对于搜索希格斯粒子来说,几乎所有对撞所产生的碎片信息其实是无用的、无关的。事实上,它告诉我们,在每秒钟发生的近6亿次碰撞中,只有大约100次碰撞是有用的,在整个数据流中只占大约0.00 001%。我们最终发现希格斯是通过设计一种复杂的算法,它是通过只聚焦于这一特别微小的数据子集而实现的。
这明白无误地告诉我们:科学和数据都不是民主的——科学是精英制的,并非所有数据都是平等的。根据你寻找或调查对象的不同,来自传统科学研究方法的理论都是必要的指南,无论是基础物理学中高度完善和量化的理论,还是社会科学中相对不完善、不那么量化的理论。它是一个强有力的约束,能够帮助我们缩小搜索范围,明确问题并理解答案。只要它是在更加宏大的概念框架的限制之下,越多的大数据被引入分析之中,就会产生越好的结果。这一概念框架可以被用于评判相关性的关联性以及它们与机械因果关系之间的关系。要想不被数据的海洋所湮没,我们就需要理解数据的理论框架,并牢牢把握住我们用于预测其他事物研究对象的性质。
最后一点:信息技术革命是我们最近的伟大范式转移,与之前的范式转移相似的是,它推动我们朝着“有限时间奇点”进发,我曾在第9章中思考过它的特性,一系列产生大量数据的卓越智能设备的发明使之成为可能。与此前的重大范式转移类似,可以预测的是,信息技术革命带来了生命节奏的加速,再加上全球各地随时的即时通信,它让世界各地之间的距离变得更近了。信息技术革命还带来了一种可能性,我们无须居住在城市环境中便可以从城市社会网络和集聚动力学中获益,而这正是超线性比例变化和开放式增长的源头。我们可以转而发展更小的社区,甚至是农村社区,但我们就如同生活在大都市区的心脏地区一样。这是否意味着,我们可以避免生命节奏的持续加速、有限时间奇点和崩溃的前景呢?那个让我们在过去200年间实现社会经济领域大幅扩张的系统,或许也将会把我们带向最终的陨灭,我们是否发现了逃避这一极具讽刺意味的窘况的方法,鱼与熊掌能否兼得?
这显然是一个开放的问题。的确有迹象表明,这一动力学正在开始发展,但到目前为止,其发展规模还非常小。事实上,能够在原则上去城市化并保持与事物的核心密切相连的大多数人都不会选择这样做。甚至连地处城郊的硅谷也开始侵入旧金山市中心地区,这导致了传统商业与过量的高科技生活方式之间的冲突。据我所知,没有任何一位高科技极客会在加利福尼亚州的山脉高处运营。大多数人似乎还是更喜欢传统的城市生活。城市人口并没有减少,反而正在复苏并且不断增长,这部分上是因为实时社会联系的吸引力所致。
此外,我们总是认为,没有什么事物能够与信息技术革命所带来的变革相媲美,如苹果手机、电子邮件、短信息、脸谱网、推特等。但想一想铁路在19世纪带来的改变或者电话在20世纪初所带来的改变。在铁路出现之前,大多数人一生中不会走出离家20英里以外的范围。突然之间,布莱顿到伦敦变得相对容易了,芝加哥到纽约也变得相对容易了。在电话发明之前人们需要数天、数周乃至数月才能传递成功的信息现在变得可以实时沟通了。这些变化太令人惊讶了。相对而言,与信息技术革命相比,这些变化给我们的生活,尤其是对生命节奏的加速以及我们对于空间和时间的内在感应所带来的影响要大得多。但它们并没有带来去城市化的现象,或者导致了城市的萎缩。相反,它们导致城市呈指数级扩张,并使得郊区成为城市生活不可或缺的一部分。这样的范式是否还会继续有待我们进一步观察,尽管我认为,生命还将继续加速,城市化仍将是我们朝着奇点进发过程中的主导力量。城市如何演变将会在很大程度上决定地球的可持续性发展。
[1]字节是信息的基础单位。——译者注