• 精选
  • 会员

论概率与因果关系

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

对我个人和大部分哲学家、科学家来说,“因果关系不能被简化为概率”这个认识来之不易。阐释“因”的含义一直是备受哲学家关注的话题之一,从18世纪的大卫·休谟和19世纪的约翰·斯图尔特·密尔,到20世纪中叶的汉斯·赖欣巴哈和帕特里克·萨普斯,再到今天的南希·卡特赖特、沃尔夫冈·斯普恩和克里斯托弗·希区柯克都曾发表过对于该问题的论述。特别地,从赖欣巴哈和萨普斯开始,哲学家们开始使用“概率提高”的概念来定义因果关系:如果X提高了Y的概率,那么我们就说X导致了Y。

这个概念也存在于我们的直觉中,并且根深蒂固。例如,当我们说“鲁莽驾驶会导致交通事故”或“你会因为懒惰而挂科”时,我们很清楚地知道,前者只是增加了后者发生的可能性,而非必然会让后者发生。鉴于此,人们便期望让概率提高准则充当因果关系之梯第一层级和第二层级之间的桥梁。然而,正是这种直觉导致了数十年失败的探索。

阻碍这一探索获得成功的不是这种直觉本身,而是它被形式化表述的方式。哲学家几乎无一例外地使用了条件概率来表示“X提高了Y的概率”,记作P(Y|X)>P(Y)。你肯定注意到了,这种解释是错的,因为“提高”是一个因果概念,意味着X对Y的因果效应,而公式P(Y|X)>P(Y)只涉及观察和手段,表示的是“如果我们观察到了X,那么Y的概率就提高了”。但是,这种概率提高完全可能是由其他因素造成的,比如Y是X的因,或者其他变量(Z)是它们二者的因——这就是症结所在!这一形式表述将哲学家们打回原点,让他们不得不再一次尝试消除可能存在的“其他原因”。

用类似表达式P(Y|X)所表示的概率位于因果关系之梯的第一层级,其不能(靠自己)回答第二层级或第三层级的问题。任何试图用看似简单的第一层级的概念去“定义”因果关系的做法都必定会失败。这就是我在本书中不去定义因果关系的原因:定义追求约简,而约简迫使我们不得不降至较低的层级。与此相反,我追求的是一个更具建设性的最终方案,其能够解释如何回答因果问题,以及我们究竟需要获取哪些信息来回答这些问题。如果这看起来很奇怪,那就想想数学家研究欧氏几何所采用的完全相同的方法。在几何书中,你找不到关于“点”和“线”的定义。然而,根据欧几里得公理(或者更理想的是,根据欧几里得公理的各种现代版本),我们可以回答任何关于点和线的问题。?[4]

让我们更仔细地研究一下概率提高准则,看看它究竟在哪里遭遇了阻碍。X和Y共同的因或称混杂因子(confounder)?[5]??问题,是令哲学家最为烦恼的问题之一。如果我们从表面意义上采用概率提高准则,那么面对在冰激凌热销的月份里,犯罪的概率也提高了这一事实,我们就必然得出冰激凌的热销会导致犯罪的结论。在这个特例中,这一现象实际上可以解释为,因为夏天天气炎热,所以冰激凌的销量和犯罪率同时提高了。然而,我们依然会有此疑问:是什么样的一般性的哲学准则,可以告诉我们犯罪率提升的原因是天气炎热而非冰激凌的热销?

哲学家努力尝试通过为他们所称的“背景因子”(混杂因子的另一种说法)设置限定条件来修复定义,并据此建构了表达式P(Y|X,K=k)>P(Y|K=k),其中K代表背景变量。事实上,如果我们把温度作为背景变量,那么这个表达式的确适用于冰激凌的例子。例如,如果我们只看温度为30℃的日子(K=30),我们就会发现冰激凌的销售和犯罪率之间不存在任何残留的关联。只有把30℃的日子和0℃的日子进行比较,我们才会产生概率提高的错觉。

然而,对于“哪些变量要放入背景因子集合K中作为条件”这一问题,还没有一个哲学家能够给出一个令人信服的通用答案。原因显而易见:混杂也是一个因果概念,因此很难用概率来表示。1983年,南希·卡特赖特打破了这一僵局,她利用因果要素丰富了我们关于背景语境的描述。她提出,我们应该将所有与结果有“因果关联”的因子都视为条件纳入考虑。实际上,她所借用的是因果关系之梯第二层级的概念,因而在本质上放弃了仅仅基于概率来定义因的观点。这是一种进步,然而不幸的是,该观点在被提出时招致了广泛的批判,被指责为“用因自身来定义因”。

关于K的确切内涵的哲学争论持续了20余年,并最终陷入僵局。事实上,我们会在第四章找到那个正确的定义,在此请允许我暂时按下不表。目前我能给出的提示是,离开因果图,我们是不可能阐明这个定义的。

总之,概率因果论总是搁浅于混杂的暗礁。每一次,当概率因果关系的拥护者试图用新的船体来修补这艘船时,这艘船都会撞到同一块岩石上,再次漏水。换句话说,一旦用条件概率的语言歪曲“概率提高”,即使再多的概率补丁也无法让你登上更高一层的因果关系阶梯。我知道这听起来很奇怪,但概率提高这个概念确实不能单纯用概率来表示。

拯救概率提高这一概念的正确方法是借助do算子来定义:如果P(Y|do(X))>P(Y),那么我们就可以说X导致了Y。由于干预是第二层级的概念,因此这个定义能够体现概率提高的因果解释,也可以让我们借助因果图进行概率推算。换言之,当研究者询问是否P(Y|do(X))>P(Y)时,如果我们手头有因果图和数据,我们就能够在算法上条理清晰地回答他的问题,从而在概率提高的意义上判断X是否为Y的一个因。

我热衷于关注哲学家对诸如因果关系、归纳法和科学推断逻辑等模糊概念的讨论。哲学家的优势在于能够从激烈的科学辩论和数据处理方面的现实困扰中解脱出来。相比其他领域的科学家,他们受统计学反因果偏见的毒害较少。他们有条件呼吁因果关系这一传统思想的复归,这种思想至少可以追溯到亚里士多德时代。谈起因果关系,他们也用不着不好意思,或者躲在“关联”标签的背后。

然而,在努力将因果关系的概念数学化(这本身就是一个值得称道的想法)的过程中,哲学家过早地诉诸其所知的唯一一种用于处理不确定性的语言,即概率语言。在过去的十多年的大部分时间里,他们都在致力于纠正这个大错,但遗憾的是,即便是现在,计量经济学家仍以“格兰杰因果关系”(Granger causality)和“向量自相关”(vector autocorrelation)之名追随着类似的理念。

现在我必须坦白一件事:我也曾犯过同样的错误。我并非一直把因果放在第一位,把概率放在第二位。恰恰相反!20世纪80年代初,我开始踏足人工智能方面的研究,并认定不确定性正是人工智能缺失的关键要素。此外,我坚持不确定性应由概率来表示。因此,正如我将在第三章中解释的那样,我创建了一种关于不确定性的推理方法,名为“贝叶斯网络”,用于模拟理想化的、去中心化的人类大脑将概率纳入决策的方法。贝叶斯网络可以根据我们观察到的某些事实迅速推算出某些其他事实为真或为假的概率。不出所料,贝叶斯网络立即在人工智能领域流行开来,甚至直至今天仍被视为人工智能在包含不确定性因素的情况下进行推理的主导范式。

虽然贝叶斯网络的不断成功令我欣喜不已,但它并没能弥合人工智能和人类智能之间的差距。我相信你现在也能找出那个缺失的要素了——没错,就是因果论。是的,“因果幽灵”无处不在。箭头总是由因指向果,并且研究者与实践者常常能注意到,当他们反转了箭头之后,整个推断系统就变得无法控制了。但在很大程度上,他们认为这只是一种文化上的惯性思维,或者是某种旧思维模式的产物,并不涉及人类智能行为的核心层面。

那时,我是如此陶醉于概率的力量,以至于我认为因果关系只是一个从属概念,最多不过是一种便利的思维工具或心理速记法,用以表达概率的相关性以及区分相关变量和无关变量。在我1988年的著作《智能系统中的概率推理》(Probabilistic Reasoning in Intelligent Systems?)中,我写道:“因果关系是一种语言,运用这种语言,人们可以有效谈论关联关系的某些结构。”如今,这句话令我备感尴尬,因为“关联”显然是第一层级的概念。实际上在此书出版时,我在心里已经意识到自己错了。对我的计算机科学家同行来说,我的书被视为不确定性下推理的圣经,而我自己却变成一个叛教者。

贝叶斯网络适用于一个所有问题都被简化为概率或者(用本章的术语来说就是)变量间的关联程度的世界,它无法自动升级到因果关系之梯的第二层级或第三层级。幸运的是,我们只需要对其进行两次修正就可以实现它的升级。第一次是1991年“图—手术”(graph-surgery)概念的提出,这一概念使贝叶斯网络能够像处理观察信息一样处理干预信息。第二次修正发生在1994年,这次修正将贝叶斯网络带到第三层级,使其能够应对反事实问题。这些进展值得我们在下一章进行更全面的讨论。在此,我想说明的主要观点是:概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,当世界被改变时,无论改变是通过干预还是通过想象实现的,概率是否会发生改变以及如何改变。

[1]?1磅≈0.45千克。——编者注

[2]?1英寸≈2.54厘米。——编者注

[3]?作为补充,反事实还允许我们讨论个别病例中的因果关系:现实是,史密斯先生没有接种疫苗,他死于天花。假如史密斯先生接种了疫苗,那么他会怎样?这类问题是个性化医疗的根基,我们是无法从第二层级的信息中找到答案的。

[4]?更精确地说,在几何中“点”和“线”等未定义的术语是基元。因果推理中的基元则是箭头所指代的“听从”关系。

[5]?此概念也可译作“混杂因素”或“混淆因素”,本书将confounder和confounding factor皆译为“混杂因子”。——译者注

因果关系

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000