对因果图而言,关于吸烟的因果效应那场争论出现得太早,因而因果图没能为此做出什么贡献。我们已经看到了康菲尔德不等式是如何被用于说服研究者相信吸烟基因或“体质假说”是不成立的。但是借助一种更为彻底的方法——因果图,我们本可以对吸烟基因这一假设有更深入的了解,并彻底将其从后续的研究选择中清除出去。
我们假设研究人员可以测量吸烟者肺部的焦油沉积量。早在20世纪50年代,焦油沉积的形成就被怀疑是肺癌发展的一个可能的中间阶段。就像美国卫生局局长委员会所做的那样,我们也希望排除费舍尔的假说,即吸烟基因是吸烟行为和肺癌的混杂因子。如此,我们就得到了图7.1中的因果图。
图7.1包含了两个非常重要的假设,我们假设在这个例子中它们都是有效的。第一个假设是,吸烟基因对焦油沉积物的形成没有影响,焦油沉积只与香烟烟雾的物理作用有关。(这一假设以“吸烟基因”和“焦油沉积”之间没有箭头来表明;不过,它并不能排除与“吸烟基因”无关的其他随机因素对“焦油沉积”的影响)。第二个重要的假设是,只有通过焦油沉积的积累,“吸烟”才会导致“癌症”。因此,我们假设从“吸烟”到“癌症”之间没有直接箭头,也没有其他间接路径。
图7.1 关于吸烟与癌症之关系假设的因果图,前门调整适用于此例
假设我们正在做的研究是一项观察性研究,我们收集了每个志愿者关于“吸烟”、“焦油沉积”和“癌症”的数据。遗憾的是,我们无法收集关于“吸烟基因”的数据,因为我们不知道这种基因是否存在。由于缺乏混杂因子的数据,我们不能阻断“吸烟←吸烟基因→癌症”的后门路径。因此,我们不能使用后门调整来控制混杂因子的影响。
所以我们必须寻找另一种方式。这一次我们不从后门进去,而是从前门进去!在这个例子中,前门指的是直接的因果路径“吸烟→焦油沉积→癌症”,而且我们的确已经收集到了全部三个变量的数据。根据我们的直觉,推理过程如下:首先,我们可以估计出“吸烟”对“焦油沉积”的平均因果效应,因为“吸烟”和“癌症”之间没有未被阻断的后门路径,其中在“癌症”处的对撞已经阻断了路径“吸烟←吸烟基因→癌症←焦油沉积”。我们甚至不需要对其进行后门调整,因为这条后门路径已经被阻断了。我们只需要观测P(焦油沉积|吸烟)和P(焦油沉积|不吸烟),二者的差别就是吸烟对焦油沉积的平均因果效应。
同样,该图也允许我们估计“焦油沉积”对“癌症”的平均因果效应。要做到这一点,我们可以通过对“吸烟”进行统计调整来阻断从“焦油沉积”到“癌症”的后门路径:焦油沉积←吸烟←吸烟基因→癌症。我们在第四章学到的知识在此处就派上了用场:我们只需要收集一个去混因子充分集的数据(在此例中就是变量“吸烟”的数据),就可以借助后门调整公式得到P(癌症|do(焦油沉积))和P(癌症|do(无焦油沉积))。二者的差别就是“焦油沉积”对“癌症”的平均因果效应。
现在,我们已经知道了吸烟导致焦油沉积的概率的平均增量和焦油沉积致癌的概率平均增量。那么,我们是否可以用某种方式将这些信息结合起来,得出吸烟致癌的概率的平均增量呢?是的,我们可以。理由如下:癌症的产生有两种不同的情况,其一为“焦油沉积”存在的情况,其二为“焦油沉积”不存在的情况。如果我们强迫一个人吸烟,那么这两种情况的概率就分别是P(焦油沉积|do(吸烟))和P(无焦油沉积|do(吸烟))。如果“焦油沉积”的情况继续发展下去,那么“焦油沉积”导致“癌症”的可能性就是P(癌症|do(焦油沉积))。而如果“无焦油沉积”的情况继续发展下去,那么其导致“癌症”的可能性就是P(癌症|do(无焦油沉积))。我们可以在do(吸烟)这一前提下,根据两种情况发生的概率对其进行加权,这样就能计算出吸烟导致癌症的总概率。如果我们阻止一个人吸烟,即前提条件为do(不吸烟),则相同的论证同样有效。两者之间的差异就表示了相对于不吸烟,吸烟对于癌症的平均因果效应。
正如我刚才解释的,我们可以从数据中估计出我们讨论的每个do概率。即我们可以用纯数学的方式在不引入do算子本身(不进行实际干预)的情况下算出概率结果。由此,数学就为我们解决了科学界长达10年的争论和国家的官方声明都没能解决的那个问题:量化吸烟对癌症的因果效应——当然,前提是我们的假设成立。
我刚才所描述的这个过程,即在不引入do算子的前提下表示P(癌症|do(吸烟))就被称作前门调整。它不同于后门调整的地方是,我们需要调整两个变量(吸烟和焦油积沉)而不是一个变量,并且这些变量处于从吸烟到癌症的前门路径,而不是后门路径。对那些更习惯“用数学语言说话”的读者,我忍不住要向你们展示一个在普通统计教科书中找不到的公式(公式7.1)。在这里,X代表“吸烟”,Y代表“癌症”,Z代表“焦油沉积”,U(在此例中显然没有出现在公式中)代表不可观测的变量,即“吸烟基因”。
P(Y|do(X))=∑z P(Z=z,X)∑x P(Y|X=x,Z=z)P(X=x) (7.1)
对数学有兴趣的读者可能会发现,将这个公式与后门调整公式进行比较会得到一个很有趣的结果,其中后门调整公式如下所示。
P(Y|do(X))=∑z P(Y|X,Z=z)P(Z=z) (7.2)
对于那些不习惯使用数学语言的读者,我们也可以从公式7.1中找到几个颇为有趣的发现。首先是最重要的一点,你在公式中的任何地方都看不到U(“吸烟基因”)的存在。这是整个问题的关键。我们甚至在未采集到任何数据的时候就成功地排除了混杂因子U。费舍尔那一代的任何一位统计学家都会将此视为一个天大的奇迹。其次,在导言中我曾提到被估量,并将其视作一种针对问题中的目标量的计算方法。而公式7.1和公式7.2就是两个特别复杂而有趣的被估量。公式的左边代表问题“X对Y的影响是什么”,右边则是被估量,也即回答问题的一种方法。请注意,被估量以条件概率的形式表示,其不包含关于实际干预的数据,只包含观测到的数据。这意味着它可以直接根据数据估计出来。
此时此刻,我相信一些读者会想知道这个虚构的例子与现实情况的关系究竟有多密切。一项观察性研究和一张因果图是否就能彻底解决关于吸烟与癌症之关系的争论?如果图7.1的确准确反映了癌症的因果机制,那么这个问题的答案就是肯定的。但我们现在需要讨论的正是我们的假设在现实世界中是否有效。