到目前为止,我们讨论过的大多数辛普森逆转和辛普森悖论的例子涉及的都是二元变量:病人要么服用了药物D,要么没有;病人要么心脏病发作,要么没有。但是,逆转也可能发生在包含连续变量的情况中,对此,我们可以绘制相应的图示,以便更好地理解。
假设有一项关于各年龄段群体每周的运动时间与其体内胆固醇水平之关系的研究。如图6.6(a)所示,我们以x轴表示运动时间,以y轴表示胆固醇水平。一方面,我们在每个年龄组中都看到了向下的趋势,表明运动可能的确有降低人体胆固醇水平的效果。另一方面,如果我们使用相同的散点图,但不按年龄对数据进行分层,如图6.6(b)所示,那么我们就会看到一个明显向上的趋势,表明运动得越多,人体胆固醇水平就越高。看起来我们再次遇到了BBG药物的情况,其中运动就是那个药物:它似乎对每个年龄组都产生了有益的影响,却对整个总体有害。
图6.6 辛普森悖论:对于每个年龄组来说,运动似乎都是有益的(向下的趋势线),但对整个总体而言,运动似乎是有害的(向上的趋势线)。
像往常一样,要决定运动是有益的还是有害的,我们需要考察数据背后的故事。数据显示,总体中年龄越大的人运动得越多。因为更可能发生的是年龄影响运动,而不是反过来。同时,年龄可能对胆固醇水平也有因果效应。因此我们得出结论,年龄可能是运动时间和胆固醇水平的混杂因子,我们应该对年龄进行变量控制。换言之,我们应该看的是按照年龄组别进行分层后的数据,并据其得出结论:无论年龄大小,运动都是有益的。
与辛普森悖论类似的一个悖论也在统计学文献中潜伏了数十年,而借助图示,我们同样可以很好地解释这个悖论。弗雷德里克·罗德于1967年首次陈述了这个悖论,其中的数据仍然是虚构的,但这类使用虚构数据的例子(就像爱因斯坦的思想实验)总能为拓展人类认知的边界提供一些很好的方法。
罗德假设一所学校想研究其餐厅所提供饮食的效果,特别是它对女生和男生是否有不同的影响。为此,该校在当年9月和下一年的6月测量了学生的体重。图6.7绘制了两次体重测量的结果,椭圆仍然表示数据的散点图。这所大学有两位统计学家,而他们在看到数据后得出了相反的结论。
图6.7 罗德悖论(椭圆表示数据的散点图)。总的来说,男生和女生在一年后都没有增加体重,但是在初始体重的每一层中,男生增加的体重都比女生增加的体重多
第一位统计学家研究了女生整体的体重分布情况,并注意到第二年6月和第一年9月女生的平均体重是一样的。(可从围绕直线WF =WI 分布的散点图的对称性中得出,该直线表明最终体重=初始体重。)当然,个别女生可能存在增重或减重的情况,但平均而言女生的体重变化为零。对男生来说,观察结果也显示了同样的结论。因此,这位统计学家认为,饮食对男生和女生的影响没有差异。
与此相反,第二位统计学家认为,由于学生的最终体重受到其初始体重的影响很大,因此我们应该将学生的初始体重进行分层。如果对两个椭圆取一个垂直切片,也即只看具有特定初始体重值的男生和女生(比如图6.7中的W0 ),你就会注意到,虽然有一定程度的重叠,但这条垂直线与男生椭圆的相交点位置比其与女生椭圆的相交点位置要高。这就意味着,平均而言,初始体重为W0 的男生的最终体重(WF )比初始体重为W0 的女生的最终体重要高。因此,罗德写道:“第二位统计学家据此得出结论:总的来说,在适当考虑男女生初始体重差异的情况下,男生的增重明显高于女生。”
那么,学校的营养师该怎么做呢?罗德写道:“两位统计学家的结论显然都是正确的。”换句话说,你不必计算任何数字,就能找到分别导致两种不同结论的两个可靠的论证,只需要看看这张图就可以了。在图6.7中,我们可以看到,在初始体重的每一层(每个垂直切片)中,男生都比女生增重得更多。然而,同样明显的是,男生和女生的体重在总体上都没有增加。怎么会这样呢?整体增益难道不应该等于所有特定层增益的平均值吗?
既然我们对辛普森悖论的分析和对确凿性原则的运用已经很熟练了,我们应该很容易就能意识到问题出在什么地方。只有当每个子总体(每个初始体重级别)的相对比例(男女生比例)在各群组之间一致的情况下,确凿性原则才起作用。然而,在罗德的例子中,“处理”(性别)对每个体重级别里学生的百分比的影响非常大。
因此,我们不能依赖确凿性原则解决这个悖论,这就把我们带回到问题的起点。哪位统计学家才是对的?在适当考虑两性初始体重的差异时,男生和女生的平均体重增长是否有差别?罗德的结论非常悲观:“此类研究试图回答的问题,通常无法根据现有的数据以任何严谨的方式得到解答。”罗德的悲观情绪甚至蔓延至统计学之外,在流行病学和生物统计学领域引发了广泛的消极论调,尤其是在研究涉及如何比较在“基线水平”上存在差异的群组时。
现在,我要阐明为什么罗德的悲观并不合理。营养师的问题完全可以用一种严谨的方式得到解答。一如既往,我们从绘制因果图开始,如图6.8所示。在这张图中,我们看到性别(S)是初始重量(WI )和最终重量(WF )的因。另外,WI 独立于性别而影响WF ,因为在第一次测量时体重较重的学生,无论其性别为何,在第二次测量时其体重通常仍然较重,如图6.7所示。所有这些因果假设都是常识性的,我想罗德本人也不会反对。
图6.8 罗德悖论的因果图
罗德的目标变量是体重变化情况,在这个图中表示为Y。请注意,Y与WI 和WF 的关系是纯数学的确定关系:Y=WF –WI 。这意味着Y和WI (或Y和WF )之间的相关性等于–1(或1),我在这张因果图上用系数–1和+1表示了相关信息。
第一位统计学家简单地比较了男女生之间体重增加情况的差异。由于在S和Y之间没有需要阻断的后门,因此我们所测量的聚合数据的确为我们提供了该问题的答案:S对Y没有影响,正如第一位统计学家总结的那样。
相比之下,明确表述第二位统计学家想要回答的问题则困难得多(具体可参见导言中我对“正确的表述问题”这一话题的讨论)。他希望确保学校“适当考虑男生和女生在初始体重上的差异”,这是统计学家在控制混杂因子时经常使用的一种语言。但WI 并不是S和Y的混杂因子。如果我们将性别看作该例中的“处理”的话,那么WI 实际上是一个中介变量。因此,通过控制WI 所回答的问题并没有一个因果效应解释。这种控制充其量只能提供性别对体重的“直接效应”的估计,我们将在第九章讨论这一点。然而,上面这段论述不太可能是第二位统计学家的实际所想,他更可能只是出于习惯而做出了统计调整。然而,他的论点很容易让人陷入误区——“整体增益难道不应该等于所有特定层增益的平均值吗?”事实上,如果处理(性别)给层本身的情况带来了改变,那么这个问题的答案就是否定的。请记住,“性别”(而不是“饮食”)才是该例中的“处理”,而且“性别”无疑影响了WI 各层的相对比例。
相比于传统分析,上面的论述引出了有关罗德悖论的一个更有趣的观点。虽然学校营养师的明确意图是“确定饮食的影响”,但罗德在他初次提出该悖论的论文中并没有提及控制饮食这个变量。因此,我们完全无法根据对于上述问题的阐释说明任何关于饮食的影响。霍华德·魏纳和丽莎·布朗在2006年发表的论文中试图弥补这一缺陷。他们改变了故事,将目标量设定为饮食(而非性别)对学生体重变化的影响,不再考虑性别差异。在新的故事中,该校学生分别在两个提供不同饮食的餐厅就餐。两个椭圆形分别代表了两个餐厅,每个餐厅提供不同的饮食,如图6.9(a)所示。请注意,初始体重较重的学生倾向于在B餐厅就餐,而初始体重较轻的学生则倾向于在A餐厅就餐。
图6.9 魏纳和布朗修订版的罗德悖论及其因果图
现在,有待解决的问题终于被恰当地定义为饮食对增重的影响,其涉及的罗德悖论也因此得到了更加清晰的展示。第一位统计学家以对称性为考量依据,认为从饮食A到饮食B的转换对体重变化没有影响(在两个椭圆中,WF –WI 的分布相同)。第二位统计学家将初始体重为W0 的学生在饮食A下的最终体重与其在饮食B下的最终体重进行了比较,并得出结论,接受饮食B的学生体重增加得更多。
和之前一样,数据[见图6.9(a)]本身不能告诉你到底该相信谁,而这也的确就是魏纳和布朗的结论。但是,因果图[见图6.9(b)]可以帮助我们解决此问题。相比于上一例的因果图,此例的因果图有两个显著的变化。第一,因果变量变成了D(饮食),而不再是S(性别)。第二,最初从S指向WI 的箭头现在反转了方向:因为初始体重会影响饮食的选择,所以箭头从WI 指向D。
在这张图中,WI 是D和WF 的混杂因子,而不是中介物。因此,在该例中,第二位统计学家的结论无疑是正确的。控制初始体重对于去除D和WF (以及D和Y)之间的混杂必不可少。第一位统计学家错在只测量了统计关联,而没有考虑因果效应。
简言之,我们从对罗德悖论的分析中得到的关键结论是:它并不比辛普森悖论更荒谬。一个悖论涉及关联逆转,另一个悖论涉及关联消失。而无论哪种情况,因果图都能告诉我们应该使用哪种数据处理程序。然而,对于那些接受过“传统”(模型盲)方法的训练并回避使用因果透镜的统计学家来说,在一种情形下正确的结论在另一种情形下却是错误的,而得出两个结论的数据看起来完全相同——这一自相矛盾的现象实在难以理解。
到目前为止,我们已经对对撞因子、混杂因子以及二者对数据分析构成的威胁有了充分的了解,也就是说,我们终于可以准备收获我们的劳动成果了。在下一章,我们将开始攀登因果关系之梯的第二层级:干预。