让我们先假设高血压是心脏病发作的可能原因,而药物B能降低血压。自然而然,药物B的研究人员想看看这种药物是否也能降低心脏病发作的风险,因此他们在病人服药后测量了病人的血压,并观察病人是否出现心脏病发作的情况。
表6.6显示了这项关于药物B的研究数据。这些数据看起来应该会让你感到非常熟悉:其中的数字与表6.4是一致的!然而,我们从该研究中得出的结论与上一个例子正好相反。正如你所看到的,服用药物B成功地降低了病人的血压:在服用该药的患者中,血压降低的人数增加了一倍(处理组60人中有40人血压降低,对照组60人中有20人血压降低)。换句话说,它确实起到了抗心脏病药物应该起到的作用:将患者的心脏病发作风险从高变为低。这一因素的影响胜过其他所有因素,因此我们可以合理地得出结论,表6.6的聚合数据给出了那个正确的结果。
表6.6 血压例子的虚拟数据说明
对于此例,因果图一如既往地破除了迷雾,并允许我们仅根据图示的内在逻辑得出结果,甚至不必考虑数据或者药物是否真的能够降低血压。在此例中,“潜伏的第三变量”是血压,如图6.5所示。在这里,血压是中介物而不是混杂因子。从图示结构可知,“服用药物B→心脏病发作”这一因果关系中没有混杂因子(或者说没有后门路径),所以数据分层是不必要的。事实上,以血压为条件这一操作会使其中一条因果路径(而且很可能是最重要的那条因果路径)失效,导致药物无法通过这条因果路径发挥作用。鉴于这两方面的原因,我们的结论与在药物D例子中得到的结论完全相反:药物B能有效预防心脏病发作,聚合数据揭示了这一事实。
图6.5 辛普森悖论示例(第二个版本)的因果图
值得注意的是,从历史的视角来看,辛普森在他1951年发表的那篇引发了广泛争论的论文中所做的事情与我刚才做的完全相同。他用完全相同的数据讲了两个故事。一个例子直观清晰地显示,聚合数据提供了“合乎情理的解释”;而在另一个例子中,根据分层数据得到的结论则更合乎情理。因此辛普森明白,这是一个悖论,而不仅仅是逆转。然而,除了借助常识进行分辨之外,他并没有提出真正能够解决这种悖论的办法。最重要的是,他没有指出,如果故事中包含的某个额外信息才是造成“合乎情理”和“不合乎情理”二者差异的原因,那么统计学家也许应该在分析中将这一额外信息纳入考量。
丹尼斯·林德利和梅尔文·诺维克在1981年考虑了这个建议,但他们无法接受这一观点,即正确的决定取决于因果叙述,而非数据。他们承认,“有一种可能的方式是使用因果关系的语言……我们没有选择这样做,也不去讨论因果关系,因为这个概念虽然被广泛运用,但似乎没有明确的定义”。他们用这些话概括了近五代统计学家的挫败感,并且认识到了我们非常需要因果信息,但我们用来表达它的语言匮乏得无可救药。林德利在90岁时去世,2009年,即他去世的4年前,他曾向我坦言,如果我的书在1981年就出版了的话,他可能就不需要写上面那段话了。
一些读过我的其他著作和文章的读者认为,数据的聚合和分割完全是由处理(治疗)的时序和“潜在的第三变量”掌控的。他们认为,对于血压,我们应该使用聚合数据,是因为血压测量发生在病人服药后;但对于性别,我们应该使用分层数据,因为性别是在病人服药前就确定了的。虽然这条规则在许多情况下都能奏效,但并非万无一失。一个简单的反例就是M偏倚(第四章中的游戏4)。在包含M偏倚的例子中,B可以发生在A之前,但我们仍然不能对B进行变量控制,因为这将违反后门标准。我们应该看的是故事的因果结构,而不仅仅是时序信息。
最后,你可能想知道辛普森悖论是否会出现在现实世界中。答案是肯定的。当然,对于统计学家来说,此类悖论不太常见,但也并非完全陌生,而且其出现的频率很可能比期刊论文所报告的更高。以下就是两个记录在案的案例:
?1996年发表的一篇观察性研究报告表明,对于摘除小型肾结石而言,开腹手术比内窥镜手术的成功率高,对于摘除较大的肾结石而言,开腹手术也有更高的成功率。然而就总体而言,开腹手术的成功率反而较低。正如我们在第一个辛普森悖论的例子中所做的分析,在这个例子中,我们发现手术方式的选择与病情的严重程度有关:较大的肾结石更可能需要通过开腹手术来摘取,并且有较大肾结石的病人本身的预后也更差。
?在1995年发表的一份关于甲状腺疾病的研究报告中,数据显示吸烟者的存活率(76%)比不吸烟者的存活率(69%)更高,寿命平均多出20年。然而,在样本的7个年龄组中,有6个年龄组中不吸烟者的存活率更高,而第7个年龄组中二者的差异微乎其微。年龄显然是吸烟和存活率的混杂因子:吸烟者的平均年龄比不吸烟者小(很可能是因为年老的吸烟者已经死了)。根据年龄来分割数据,我们就可以得出正确的结论:吸烟对存活率有负面影响。
由于人们对辛普森悖论的理解一直很肤浅,一些统计学家便试图采取预防措施有意避免悖论的出现。但这些方法往往仅避开了“症状”,即辛普森逆转,对于疾病本身,即混杂,却无能为力。我们应该关注症状而非抑制症状的表现。辛普森悖论提醒我们,在某些情况下,至少存在一个统计趋势(无论是来自聚合数据、分层数据还是同时来自两者)无法代表真正的因果效应。当然,混杂的存在还有一些其他的警示信号。例如,根据聚合数据估计出的因果效应大于根据分层数据估计出的每一层的因果效应,而如果我们恰当地控制了混杂因子,此类误差就不会出现。然而,与这些警示信号相比,人们更难忽视辛普森逆转,因为这是一种逆转,一种因果效应表征的质变。即便是3岁的孩子也会怀疑BBG药物的存在——而且理当如此。