大数据应该主要在以下背景下观察:传统的科学方法需要痛苦的分析、模型和概念的开发,其预测将能够经受住检验,并用于发明新的疗法和策略。而现在,传统科学方法可以借助智能设备搜集大量相关数据的额外力量得到进一步增强。这一范式的核心是,持续不断的改善将会指导人们,什么样的数据是需要测量的重要数据,需要多少数据,它们需要有多高的准确度。我们为了获取数据而选择关注和测量的变量并不是随意的,在概念性框架不断改变的情况下,它们均得到了此前的成功与失败的指导。科学研究很像是钓鱼探险。
随着大数据的到来,这一经典的观念开始受到挑战。《连线》杂志2008年发表了一篇极富煽动性的文章,名为《理论的终结:数据将会让科学方法失去效能》,当时的编辑克里斯·安德森(Chris Anderson)写道:
大量数据以及处理这些数据的统计工具的可用性为我们提供了一个理解世界的全新方式。相关性取代了因果关系,即使缺少了连续模型、统一理论或者任何机制论解释,科学依然可以前进。面对数量庞大的数据,假设、建模、测试这一研究科学的方式已经过时。从语言学到社会学,人类行为的每一个理论也是如此。忘记分类学、本体论和心理学吧!谁知道人们为什么要做自己正在做的事情?关键在于他们做了这件事情,我们能够以前所未有的精确度对其进行跟踪和评估。有了足够多的数据,数字便会自己说话……现如今,在大数据时代成长起来的谷歌等公司并不满足于完美的模型。事实上,它们根本无须满足于模型,没有任何理由坚持原来的老方法。该是时候发问了:科学界可以从谷歌学习到什么?
我不会回答这个问题,但我想说的是,这一极端观点正在硅谷、信息技术行业以及企业界变得普遍流行起来。有关这一观点的不那么极端的版本也正在快速获得学术界的关注。在过去几年中,几乎每一所大学都开设了一个资金充足的中心或机构,全身心投向大数据研究。与此同时,也向另外一个热词——“跨学科”致敬。例如,牛津大学刚刚在一座全新、时髦、先进的大楼内开设了大数据研究所。该校表示:“这一跨学科的研究中心将把重点放在分析庞大、复杂、各种各样的数据集上,以分析疾病的成因和后果,如何预防和治疗等。”很明显,这是一个很相称的理由,尽管并没有强调理论或概念发展的重要性。
诺贝尔奖获得者、遗传学家悉尼·布伦纳(Sydney Brenner)则表达了一个完全相反的观点,我曾在第3章中引用过他的观点,他恰巧是我在前面所提到的马克斯·佩鲁茨所创办的剑桥大学那所著名研究所的主任。“生物学研究正处于危机之中。技术给了我们分析各种不同规模的生物体的工具,但我们湮没在数据组的汪洋大海中,我们渴望获得某种理论框架以进行理解。尽管许多人相信‘多就是好’,但历史告诉我们,‘越少越好’。我们需要理论,需要有力地抓住我们研究事物的本质,以预测其他方面。”
在克里斯·安德森的文章发表不久后,微软在一本名为《第四范式:数据密集型科学发现》的书中发布了一系列引人入胜的论文。它们是微软计算机科学家吉姆·格雷(Jim Grey)的观点,不幸的是,他于2007年在海上失踪了。他预见到,数据革命将成为一项推动科学在21世纪发展进步的重大范式转移,他把它称作“第四范式”。他认为,其他三个范式分别为:实验科学(伽利略之前的时代)、理论科学(牛顿之后的时代)、计算科学。我的印象是,与克里斯·安德森不同的是,格雷把第四范式看成是前三个范式的结合,即理论、实验和模拟的统一化,但又增加了对数据搜集和分析的重视。从这个意义上来说,我很难不同意他的观点,因为这便是科学在过去数百年间进步的方式——其差别主要是数量上的,数据革命为我们提供了一个更大的可能性,来利用并推动我们长期以来所一直使用的战略。从这个意义上说,这更像是范式3.1,而非范式4.0。
但是,新鲜元素的出现,令许多人感受到了希望,就像安德森一样,这有可能会颠覆对于传统科学方法的需求。它让我们想起了机器学习、人工智能、大数据分析等技术和方法。
这些技术有许多版本,但它们都基于这样一个观点,即我们可以设计这样的编程计算机算法,它以输入的数据为基础,不断进化和适应,从而解决问题,揭示洞见,并做出预测。它们都依赖于找寻和构建数据中的相关性的迭代过程,不会去关心为何会存在这种关系,而是会明确地认为,相关性取代了因果关系。这一方法吸引了许多人的兴趣,而且也给我们的生活带来了极大的影响。例如,它是谷歌等搜索引擎运转的核心技术,是设计投资策略和机构运营的核心技术,而且也为无人驾驶技术提供了基础。
它同时也带来了经典的哲学问题,即这些机器对问题的思考可以达到何种程度?我们这样说事实上意味着什么?它们是否已经比我们更聪明?超级智能机器人是否会最终取代人类?这些科幻小说似的幻想幽灵似乎正朝我们走来。的确,我们很容易会认同,雷·库兹韦尔等人为何会相信,下一个范式转移将会是人类与机器的结合,或者最终导致世界被智能机器人所统治。正如我此前所说,我对此类未来主义的思想存在相当的偏见,尽管他所提出的问题很吸引人,很具有挑战性,也需要得到解决。但人们的讨论需要更应该涉及另外一个可能的范式转移,它受到逐渐迫近的、与生命节奏不断加速相关的有限时间奇点的驱动,牵扯到全球可持续性的挑战以及将很快与我们的40亿~50亿人口有关。