前门调整公式和后门调整公式的最终目标是根据P(Y|X,A,B,Z,…)此类不涉及do算子的数据估算干预的效果,即P(Y|do(X))。如果我们成功消除了计算过程中的do概率,那么我们就可以利用观测数据来估计因果效应,这样一来,我们就从因果关系之梯的第一层级踏上了第二层级。
我们此前在两种情况(应用前门调整的情况和应用后门调整的情况)中的成功带来了一个问题:是否还存在其他的门,通过这些门,我们可以消除所有的do。从一个更宏观的视角,我们也可以这样问,即是否存在某种方法可以用来事先确定一个给定的因果模型是否适用于这种消除处理。如果存在这种方法,那么我们就可以对适用的因果模型进行此类处理,从而在不进行实际干预的情况下估算出因果效应。而对于不适用的模型,我们至少可以知道,我们在模型中嵌入的假设不足以让我们仅根据观测数据来揭示因果效应,同时对此种情况,我们也将意识到,无论我们有多聪明,要解决这个问题,进行某种干预性试验都是在所难免的。
即使干预性试验实际可行,也被法律许可,任何了解随机对照试验的成本和操作难度的研究者显然还是更希望通过纯数学的手段做出这些判断。20世纪90年代初,这个想法也让我(并非作为一名试验者,而是作为一名计算机科学家和业余哲学家)着迷不已。当然,对于一名科学工作者而言,其所能获得的最美妙的体验之一,可能就是坐在办公桌前,意识到自己终于即将弄清在现实世界中什么是可能的,什么是不可能的,尤其是当这个问题对整个人类社会而言非常重要,并且曾令那些试图解决该问题的前辈困扰许久的时候。当尼西亚城的希帕克发现不必攀登金字塔,只根据金字塔落在地面上的影子就能计算出金字塔的高度时,他的感受想必就是如此——心胜于物。
事实上,古希腊人(包括希帕克)及其几何学形式逻辑系统的发明对我所采用的方法产生了极大的启发。在古希腊逻辑系统的核心,我们总会发现存在一组公理或不言而喻的真理,例如“经过任意两点有且仅有一条直线”。在这些公理的帮助下,古希腊人得以建构起许多更为复杂的表述,这些表述也被称为定理,其正确性远非公理那样显而易见。例如这一表述:一个三角形,无论大小或形状,其内角和为180°(或两个直角的度数和)。这一表述的真实性绝非不言而喻,而公元前5世纪的毕达哥拉斯学派的哲学家们则能将那些不证自明的公理当作原料,用它们来证明这一表述的普遍正确性。
如果你还记得高中几何,哪怕只记得一些要点,你或许会想起,定理的证明总是涉及一些辅助构造:例如,画一条平行于三角形某个边的直线,将某些角度标记为相等,以给定线段为半径画圆,等等。我们可以将这些辅助构造看作对所画图的性质做出论断(或声明)的临时性的数学命题。每一个新的辅助构造的绘制都得到了以前的辅助构造以及几何公理和一些已经得到证明的定理的许可。例如,绘制一条平行于三角形某个边的线,就得到了欧几里得的第五公设的许可,该公设的内容是:过直线外的一点有且只有一条该线的平行线。绘制这些辅助构造就类似于进行一种机械的“符号操作”运算,即获取先前写过的命题(或先前绘制出的图)并以新的格式重写它,前提是重写得到了公理的许可。欧几里得的伟大之处在于确定了一张包含五大基本公理的简短清单,据此我们可以推导出所有其他的正确的几何陈述。
现在回到我们的核心问题,即一个模型何时可以取代一个试验,或者一个“干预”量何时可以简化为一个“观察”量。在古希腊几何学家的启发下,我们希望将这个问题简化为符号操作,并以这种方式从奥林巴斯山上夺回因果关系,使其为普通研究者所用。
首先,让我们用证明、公理和辅助构造的语言,即欧几里得和毕达哥拉斯的语言重述X对Y的效应。我们从目标句P(Y|do(X))开始。如果我们能成功地消除它的do算子,只留下像P(Y|X)或P(Y|X,Z,W)这样的经典条件概率表达式,那么我们的任务就完成了。当然,我们不能随意操作我们的目标表达式,我们所进行的操作必须符合do(X)作为一项实际干预行动的基本含义。因此,我们必须通过一系列合法的操作来转化表达式,且每个操作都必须得到公理和模型假设的许可。操作应该保留接受操作的表达式的本来含义,只更改它所使用的格式。一个“保留本来含义”只变换格式的例子是将y=ax+b转换为ax=y–b的代数变换,其中x和y之间的关系保持不变,只有格式发生了变化。
我们已经了解了一些“合法”的do表达式变换。例如,规则1为:如果我们观察到变量W与Y无关(其前提可能是以其他变量Z为条件),那么Y的概率分布就不会随W而改变。例如,在第三章,我们看到,一旦我们知道了中介物“烟雾”的状态,变量“火灾”就与变量“警报”不相关了。这种不相关的认定转化为符号处理,就是:
P(Y|do(X),Z,W)=P(Y|do(X),Z)
上述等式成立的条件是,在我们删除了指向X的所有箭头后,变量集Z会阻断所有从W到Y的路径。在“火灾→烟雾→警报”的例子中,W=火灾,Z=烟雾,Y=警报,Z阻断了所有从W到Y的路径(此例中没有变量X)。
在此前关于后门调整的讨论中,我们还了解到另一个合法的变换。我们知道,如果变量集Z阻断了从X到Y的所有后门路径,那么以Z为条件(对Z进行变量控制),则do(X)等同于see(X)。因此,如果Z满足后门标准,这种变换就可以写作:
P(Y|do(X),Z)=P(Y|X,Z)
我们将此作为我们公理系统的规则2。和规则1相比,尽管规则2没有那么不言自明,但其最简单的形式实际上就是汉斯·赖欣巴哈的共因原则的修正版本(经过修正后,我们就不会再把对撞因子误认为混杂因子了)。换言之,这个等式的意思是,在控制了一个充分的去混因子集之后,留下的相关性就是真正的因果效应。
规则3很简单,它实质上是说,如果从X到Y没有因果路径,我们就可以将do(X)从P(Y|do(X))中移除。即,如果不存在只包含前向箭头的从X到Y的路径,则:
P(Y|do(X))=P(Y)
这个规则可以这样解释:如果我们实施的干预行动(do)不会影响Y,那么Y的概率分布就不会改变。除了像欧几里得公理一样不言自明,规则1到3还可以利用do算子的“删除所有指向……的箭头”定义和概率的基本法则对其进行数学上的证明。
注意,规则1和规则2涉及X和Y之外的辅助变量Z的条件概率。这些辅助变量可以充当一种概率计算的语境。有时,此语境本身的存在就许可了变换操作。规则3也可能涉及辅助变量,但为了简单起见,我在此省略了它们。
注意,每条规则都附带一个简单的句法解释。规则1允许增加或删除某个观察结果。规则2允许用观察替换干预,或者反过来。规则3允许删除或添加干预。所有这些操作都必须在适当的条件下进行,并且必须在关于特定情况的因果图中得到证实。