• 精选
  • 会员

因果模型与“大数据”

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

近年来,在整个科学、商业、政治乃至体育领域,我们所掌握的原始数据量正以惊人的速度持续增长。这种变化对于我们这些习惯于使用互联网和社交媒体的人来说也许体现得最为明显。据报道,2014年(也是我查看大数据的最后一年),脸书存储了约20亿活跃用户的300PB(千兆字节)的数据,也就是每个用户150MB(兆字节)的数据。人们玩的游戏、喜欢购买的产品、脸书中所有朋友的名字,当然还有他们分享的猫咪视频——所有这些数据都存在于壮阔的二进制海洋中。

对普通大众来说不那么明显但同样重要的一个新事实是庞大的科学数据库的兴起。例如,“千人基因组计划”就为其所谓的“最大的关于人类变异和基因型数据的公共目录”收集了200TB(兆兆字节)的信息。美国国家航空航天局(NASA)的米库尔斯基太空望远镜档案馆则收集了来自多次外层空间探索的2.5PB(千兆字节)的数据。而大数据影响的范围远不止前沿高端科学,它几乎入侵了所有的科学领域。30多年前,海洋生物学家为了对其最为钟爱的某个物种进行总体普查可能需要花费数月的时间走访世界各地。而现在,他们可以在互联网上即刻获得数以百万计的关于鱼、卵、胃容物或任何他们想获得的事物的数据。这名海洋生物学家还可以据此讲述一个完整的故事,其研究也不再局限于费时费力的总体普查。

而与我们关系最为密切的问题是——接下来会发生什么?如何从所有这些数字、比特和像素中提取意义?数据体量越来越庞大,但我们问的问题始终很简单:是否存在一种会导致肺癌的基因?什么样的恒星系可能存在像地球一样的行星?是什么因素导致了我们喜爱的某种鱼类的数量减少,而对此我们能做些什么?

某些领域存在着一种对数据的近乎宗教性的信仰。这些领域的研究者坚信,只要我们在数据挖掘方面拥有足够多的智慧和技巧,我们就可以通过数据本身找到这些问题的答案。然而,本书的读者已经明白,这种信仰是盲目的,很可能受到了对数据分析的大规模宣传炒作的误导。我刚刚问的问题都是因果问题,而因果问题从来不能单靠数据来回答。它们要求我们建构关于数据生成过程的模型,或者至少要建构关于该过程的某些方面的模型。当你看到一篇论文或一项研究是以模型盲的方式分析数据的时候,你就能确定其研究结果最多不过是对数据的总结或转换,而不可能包含对数据的合理解释。

当然,这并不是说数据挖掘没有用。对于探索我们感兴趣的关联模式,并据此提出更精确的解释性问题,数据挖掘很可能是关键的第一步。我们现在不再需要问“是否存在一种会导致肺癌的基因”这个问题,而是可以筛查与肺癌高度相关的基因组(如第九章提到的“大先生”基因),然后针对存在相关性的某些基因问:“这个基因会导致肺癌吗?(以及它们是以怎样的方式导致肺癌的?)”如果没有数据挖掘,我们就不可能提出有关“大先生”基因的问题。然而,要想更进一步,我们就需要建立一个因果模型,用以说明我们所认为的某个基因其可能影响的变量有哪些,可能存在的混杂因子是什么,以及其他的因果路径可能带来的种种后果。解释数据就意味着做出一种假设,这种假设建基于事物在现实世界中的运作方式。

大数据在因果推断问题中的另一个作用体现在因果推断引擎的最后阶段,我们在前言中描述过这一阶段(步骤8),它让我们得以借助被估量推导出估计值。当变量较多时,统计估计这一步的难度不可小觑,只有借助大数据和现代机器学习技术,我们才有可能真正应对维度灾难。同样,大数据和因果推断在个性化医疗这一新兴领域也发挥了至关重要的作用。在该领域,我们需要根据一组个体过去的行为做出推断,且这组个体需要与我们所关注的个体在尽可能多的特征上相似。因果推断能让我们屏蔽不相关的特征,也能让我们从不同的研究中把这些在关键方面相似的个体聚集起来,而大数据则能让我们收集到关于这些人的充分的信息。

有些人将数据挖掘看作研究的终结而不是第一步,原因很容易理解。它允许我们使用现成的技术得出一个解决方案,让我们以及未来的机器不必费力去考虑和阐明关于现实世界运作方式的实质性假设。但在某些领域,我们的知识还处在初步积累的阶段,因此我们不知如何下手去建构一个关于该领域的模型。而大数据无法帮助我们解决这一领域的问题,因为此类问题的答案的主体部分必然来自模型,无论这个模型是由我们自己构建出来的,还是由机器假设并微调出来的。

为避免显得我对大数据事业过分挑剔,我想为大数据和因果推断的合作提供一个新机会,我将这一新机会称为“可迁移性”(transportability)。

得益于大数据,我们不仅可以在任何特定的研究中获得大量个体的数据,还可以接触到大量在不同地点和不同条件下进行的研究。我们常常希望将这些研究结果结合起来,然后将其迁移至一个新的总体,这一新的总体可能在各种我们意想不到的方面与原始研究中的总体有所不同。

将研究结果从一个环境迁移到另一个环境的过程正是科学的基础。事实上,如果不能将实验室结果推广到现实世界,例如将人工胚胎技术从试管环境迁移至动物再迁移至人类,那么科学进步就将停滞不前。然而直到最近,各个学科仍在试图制定自己的标准,以便从无效的泛化中找出有效泛化的方法。就总体而言,我们目前尚未掌握任何系统性的办法来解决这一“可迁移性”问题。

在过去的5年里,我和我以前的学生(现在的同事)伊莱亚斯·巴伦拜姆成功地提出了一个完整的标准用以判断研究结果何时是可迁移的,何时是不可迁移的。与以往一样,使用此标准的前提条件是,你已经使用因果图表示出了数据生成过程的显著特征,并且标记出了潜在的差异点。“迁移”一个结果并不一定意味着取其表面意义,将之直接应用到新的环境中。考虑到新旧环境之间的差异,研究者可能不得不需要重新校准旧的研究结果。

大数据 / 人工智能

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000