• 精选
  • 会员

do演算,或者心胜于物(3)

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

在数理逻辑中,这类问题被称为“决策问题”。许多逻辑系统在构建过程中都经历过棘手的决策问题的阻挠。例如,假设有一堆尺寸不等的多米诺骨牌,我们没有一个简易的方法来确定是否可以将其以某种方式排列,以严丝合缝地填满一个指定大小的正方形。然而,一旦某个排列方法被提出来,我们就能在极短的时间内验证它是否可以构成一个解决方案。

幸运的是(再一次),对do演算来说,这一决策问题已被证明是可解决的。基于我另一个学生田进(音)所做的前期工作,伊利亚·斯皮塞发现了一个算法,该算法可以用于确定某个解决方案是否存在“多项式时间”(polynomial time)。这是一个比较专业的术语,如果用走出迷宫来类比的话,该算法的提出意味着,同尝试所有可能的路径相比,的确存在一种更有效的方法用以找到迷宫的出路。

斯皮塞提出的这种找出某一问题所涉及的所有因果效应的算法,并没有削减我们对do演算的需要。事实上,我们变得比以往更加需要它,主要是出于以下几个独立的原因:首先,我们需要借助它来超越观察性研究。假设出现了最糟糕的情况,即我们的因果模型不允许我们仅通过观测数据来估计P(Y|do(X))的因果效应,并且我们也不能进行随机分配处理X的随机化试验。此时,聪明的研究者可能会问,我们是否可以通过随机化其他变量(如Z,因为Z比X更易于控制)来估计P(Y|do(X))?例如,如果我们想评估胆固醇水平(X)对心脏病(Y)的影响,我们也许可以尝试操纵受试者的饮食(Z),而不是直接控制受试者血液中的胆固醇水平。

于是,我们接下来要问的问题就变成了,我们是否能找到这样一个让我们得以回答因果问题的替代变量Z。在do演算的世界中,该问题就等同于,我们是否可以找到一个变量Z,让我们得以将P(Y|do(X))变换为一个新的表达式,其中do算子的限制目标变成了Z,而不再是X。这是斯皮塞的算法没有覆盖到的一个全新的问题。幸运的是,它也有一个完备的解决方案,其中涉及的新算法是由伊莱亚斯·巴伦拜姆(现为普渡大学教授)于2012年在我的实验室中发现的。当我们考虑某个实验结论的可移植性或外部有效性(评估在与原始研究环境存在几处关键方面的差异的新环境中,实验结果是否仍然有效)时,更多类似的问题就出现了。此类更具挑战性的问题触及了科学方法论的核心,因为只要是科学就会涉及结论的普遍化。然而,关于普遍化问题的论证至少在此前的两个世纪中都没有丝毫进展。用于生成对于该问题的解决方案的工具一直未被发现。2015年,巴伦拜姆和我向国家科学院提交了一篇论文,在其中我们给出了这个问题的解决方案,前提是研究者可以用因果图来表示其对这两个环境的假设。在满足此前提的条件下,do演算规则提供了一种系统化的方法,用以确定在研究环境中发现的因果效应是否能帮助我们估计目标环境中的因果效应。

do演算的另一个重要价值在于其透明性。在我写作这一章的时候,巴伦拜姆给我发来了一个新的难题:假设现在有这样一个因果图,其中只包含4个可观测变量X、Y、Z、W和2个无法观测的变量U1 、U2 (见图7.5)。我需要回答的问题是,如何确定X对Y的效应是可估计的。我们没有阻断后门路径的方法,且此种情况也不适合应用前门调整。我尝试了所有我知道的捷径和其他可靠的直观论据,正反两面都有,仍不知道怎么解决这个问题。我找不到走出迷宫的路。但当巴伦拜姆低声对我说,“不如试试do演算”时,我豁然开朗,立即找到了答案。这一解决方案的每一个步骤都是清晰而有意义的。以下是关于此例的一个最简单的模型,其中对于因果效应的估计需要我们找到一个超越前门调整和后门调整的方法。

图7.5 一个新的餐巾纸问题?

为了避免给读者留下do演算只是纸上谈兵或脑力游戏的印象,我将以一个实际问题来展示这一解决方案,这个问题是两位杰出的统计学家南尼·维尔穆斯和大卫·考克斯在最近提出的。它论证了那句亲切的耳语——“不如试试do演算”是如何帮助老练的统计学家解决实际难题的。

大约在2005年,维尔穆斯和考克斯对一类被称为“序贯决策”(sequential decisions)或“时变处理”(time–varying treatments)的问题产生了兴趣。在医学治疗领域,这种问题很常见。以艾滋病治疗为例,通常,艾滋病治疗是在较长的一段时间内进行的,并且在每个治疗阶段,医生都会根据患者的实际情况调整后续治疗的强度和用药剂量。同时,患者的病情也会受到此前治疗方案的影响。因此,我们就得到了一个类似于图7.6所示的因果图,其中展示了两个治疗阶段和两种治疗方案。第一种治疗方案(X)是完全随机的,第二种治疗方案(Z)则由中期结果的观测值(W)决定,其中W取决于X。根据收集到的数据,考克斯和维尔穆斯的任务是在保持Z恒定不变且独立于观测值W的前提下,预测治疗方案X对结果Y的影响。

图7.6 维尔穆斯和考克斯的时变处理例子

杰米·罗宾斯于1994年发表的关于该问题的讨论文章首次引发了我对时变处理问题的注意。在do演算的帮助下,通过调用后门调整公式的一个序贯版本,我们最终推导出了一个通用的解决方案。但维尔穆斯和考克斯不知道这个方法,他们称其遇到的问题为“间接混杂”,并接连发表了三篇分析该问题的论文(2008年、2014年和2015年)。由于找不到一个通用的解决方案,他们只能诉诸线性近似,但即便是在经过了线性近似处理的情况下,他们仍然发现该问题很难解决,因为标准的回归分析法不适用于此种情况。

幸运的是,那句低语,“不如试试do演算”,再一次在我耳边响起,我得以发现他们的问题在三行计算中就能解决,其背后的逻辑推理如下所示:我们的目标量是P(Y|do(X),do(Z)),而我们可以采集到的数据以P(Y|do(X),Z,W)和P(W|do(X))为表示形式。这两个表达式反映了这样一个事实:此研究中的Z并不取决于某个外部因素,而是遵循某种(未知的)机制随W的变化而变化。因此,我们的任务就是将目标表达式变换为另一个表达式,以反映do算子仅适用于X而非Z这一研究条件。如此一来,我们就可以通过简单地运用do演算的三条规则来解决这个问题了。这个故事有效地证明了,能够解决艰深的理论问题的数学工具,在现实中也能发挥作用。

统计

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000