3. 大数据:范式4.0还是3.1?
从丹麦天文学家第谷·布拉赫(Tycho Brahe)于16世纪开始对行星运动进行量化观察以来,测量在我们理解周围宇宙的过程中扮演了核心角色。数据为构建、检验、完善我们的理论和模型提供了基础,无论它们被用来解释宇宙的起源,还是进化过程的性质,或是经济的增长。
数据是科学、技术和工程学的命脉,近年来也在经济、金融、政治和商业中开始扮演越发核心的角色。缺少了海量数据的帮助,我在本书中提到的所有问题几乎都无法进行分析。
此外,如果不能获取我在前几章中所依赖的数据,我们根本无法想象可以发展出复杂适应系统、城市科学、公司科学、可持续性科学的理论。一个很好的例子便是,我们用于检验社会网络和城市人口移动的角色时所用到的数十亿手机电话的数据。
信息技术革命在最近的进展中扮演了十分的重要角色,这不仅是指搜集数据,而且还包括对海量数据进行分析和组织,并将之转变为可控的形式,以获得洞见、推断出规律或者做出并检验预测。我用于输入文稿的13英寸屏幕的苹果Air笔记本电脑的速度和效能好极了,它分析和检索数据、筛选信息、进行复杂运算的能力也超乎寻常。我的小小iPad(苹果平板电脑)比25年前全球最强大的超级计算机Cray-2还要强大,后者当时可能要耗资1 500万美元建造。另外,用于监测我们的身体、社会互动、运动、天气偏好、交通状况等周遭所有一切的多款设备所积累的数据量也令人难以置信。
全球联网设备的数量现在已经是全球人口的两倍多,而所有这些设备的屏幕面积总和已经大于人均一平方英尺。我们已经真正进入了大数据时代。现在被存储和交换的信息数量持续呈指数级增长趋势。所有这一切只是过去10年的事情,这是生命速度不断加快的又一个力证。吹嘘式的承诺和夸张之词已经预示了大数据时代的到来,并称其是万能灵药,解决从医疗到城市化等所有迫在眉睫的挑战,同时也将进一步提高人们的生活质量。只要我们能够测量和监测所有事物,并把大量数据送入计算机这个庞然大物的口中,就将会奇迹般地产生所有问题的答案和解决方案。我们所有的问题和挑战都将被解决和被克服,所有人的生活都会变得美好起来。这一不断演化的范式极为贴切地概括了那日益占据我们生活的智能设备和方法论的洪流中。“智能”已经成为几乎所有产品的必要标签,无论是智慧城市、智慧医疗、智能恒温器、智能手机、智能卡,甚至是智能包裹箱。
数据很好,更多的数据会更好——我们都把这一信条视作理所当然,尤其是我们这些科学家。但这一理念是基于以下这一观点的,即更多的数据会带来对根本性机制和原则的更深刻理解,使得构建模型和理论的可信预测和进展能够有坚实的基础,并能够经受住持续的检验和改善。为数据而数据,或者说毫无意识地搜集大数据,而缺乏组织和理解它们的概念性框架,或许是真正糟糕的,甚至是危险的。仅仅依靠数据,或者说在数学上拟合数据,对于根本性机制不去追究和详细了解,将是具有欺骗性的,或许将导致错误的结论和意料之外的结果。
这一告诫与“相关性并不意味着因果关系”的经典警告紧密相连。仅仅是因为两组数据存在密切联系,并不意味着其中一组数据是另外一组数据的原因。有许多离奇的例子可以证明这一点。[4] 例如,在1999—2000年的11年间,美国在科学、太空和技术领域总支出的变量与上吊、勒死和窒息自杀身亡案例的变量几乎相当。这两种现象之间不可能有任何因果关系——科学领域的开支下降肯定不是上吊自杀人数下降的原因。然而,在许多情况下,类似的明确结论并不如此明确。更为常见的是,事实上,相关性通常是表明存在因果联系的,但只有在进一步调查以及建立机制性模型后,才能站得住脚。
这在医学领域尤其重要。例如,血液中的高密度脂蛋白(通常被认为是“好”的胆固醇)与心脏病的发病率存在着负相关关系,这意味着,服用药物提升高密度脂蛋白的数量应该能够降低遭遇心脏病突袭的可能性。然而,支持这一策略的证据并不令人信服:人工提升高密度脂蛋白水平似乎无法改善心血管健康状况。这或许是源于其他原因,例如,基因、饮食和运动都会影响高密度脂蛋白的水平以及患心脏病的概率,而它们之间则不存在直接的因果关系。甚至有可能是,这种因果关系被倒置,良好的心血管健康水平提升了高密度脂蛋白的密度。寻找出心脏病的主要原因明显需要一个覆盖范围更加广泛的研究项目,要搜集大量的数据,并为每一个因素开发机械论模型,无论是基因、生化、饮食还是环境。人们也已经把大量的资源投入在不同的医学专业中,以实施这一策略。