对于许多研究者来说,最常用的(可能也是唯一的)预测干预效果的方法是使用统计调整公式“控制”混杂因子。如果你确信自己已掌握了变量的一个充分集(我们称之为去混因子)的数据可以用来阻断干预和结果之间的所有后门路径,那么你就可以使用此方法。为了做到这一点,我们首先需要估计去混因子在每个“水平”或数据分层中产生的效应,并据此测算出干预的平均因果效应。然后,我们需要计算这些层的因果效应的加权平均值,为此我们需要对每个层都按其在总体中的分布频率进行加权。例如,如果去混因子是性别,那么我们首先要估计男性群体和女性群体中的因果效应。如果总体中一半是男性一半是女性(像通常情况一样),那么我们只需要计算二者的算术平均值即可。如果两个群体在总体中所占比例不同,假设,总体中有2/3为男性,1/3为女性,那么我们就需要取相应的加权平均值来估算平均因果效应。
后门标准在这一过程中所起的作用是,保证去混因子在各层中的因果效应与我们在这一层观察到的趋势相一致。如此一来,我们就可以从数据中逐层估计出因果效应。如果没有后门标准,研究者就无法保证所有的统计调整都是合理的。
我们在第六章讨论过的关于药物D的例子是最简单的一种情况:一个处理变量(药物D),一个结果(心脏病发作),一个混杂因子(性别),而且所有这三个变量都是二元变量。这个例子显示了在每个性别层中,我们应该如何对条件概率P(心脏病发作|药物D)进行加权平均。但上述处理步骤也可以用于处理更复杂的情况,比如包括多个(去)混杂因子和多个数据分层的情况。
然而,在更多的情况中,变量X、Y或Z都是数值变量,比如常见的收入、身高以及出生体重等。我们在辛普森悖论的几个例子中也遇到了这种情况。对于变量可以(或者至少是为了某个实用目的)取无限多个可能的值的情况,我们就不能像之前在第六章所做的那样将所有的可能性都罗列出来了。
一个显而易见的补救办法是将数值分成有限并且数目可控的类别。这种处理方式原则上没有错,但我们对分类方式的选择可能存在主观性。不仅如此,如果需要进行统计调整的变量比较多,那么类别的数量就会呈指数增长,这将使计算过程变得难以执行。更糟糕的是,在分类完成后,我们很可能会发现许多层缺乏样本,因此我们无法对其进行任何概率估计。
为应对这种“维度灾难”问题,统计学家设计了一些颇为巧妙的方法,其中大多数都涉及某种数据外推法,即通过一个与数据拟合的光滑函数去填充空的层所形成的“洞”。
运用最为广泛的光滑函数当然是线性近似,它是20世纪社会科学和行为科学中大多数定量分析的主要工具。我们已经知道休厄尔·赖特是如何将他的路径图嵌入线性方程组的应用场景的,并注意到了这种嵌入带来了一个计算上的优势:每个因果效应都可以用一个数字(路径系数)来表示。线性近似的第二个同样重要的优势是,根据统计调整公式进行计算的过程非常简单。
我们已经介绍过弗朗西斯·高尔顿发明的回归线,它涉及由大量数据点组成的数据点云以及一条穿过这团数据点云的最佳拟合直线。对于只有一个处理变量(X)和一个结果变量(Y)的情形,回归线的方程是:Y=aX+b。参数a(被称为Y在X上的回归系数或二者的相关系数,经常表示为rYX )告诉我们的是观察到的平均趋势:X增加一个单位通常会导致Y产生a个单位的增量。如果Y和X之间没有混杂因子,那么我们就可以把这一参数当作对让X增加一个单位这一干预所做的效果估计。
但是,如果存在一个混杂因子Z会怎样?在这种情况下,相关系数rYX 不会告诉我们平均因果效应,它只会告诉我们观察到的平均趋势。这实际上就是赖特的豚鼠出生体重问题的例子,我们在第二章讨论过。在那个例子中,妊娠期每多一天所带来的幼鼠体重的表面增量(5.66克)是存在偏倚的,因为它被同窝产仔数对幼鼠体重的影响所混杂。对此,我们仍然有一个摆脱困境的方法:将所有这三个变量放在一起绘制趋势图,三个变量的每个值(X,Y,Z)都可以用三维空间中的一个点来表示。如此,我们采集到的数据就构成了XYZ空间中的一团点云,在三维空间中,与回归线对应的概念是回归平面,它的方程可以表示为Y=aX+bZ+c。我们可以很容易地从数据中计算出a、b、c。此时,一件美妙的事发生了,对此高尔顿并没有意识到,但卡尔·皮尔逊和乔治·乌德尼·尤尔肯定意识到了。系数a给出了Y在X上的回归系数,并且这两个变量都已根据Z进行了统计调整。(该系数也被称为偏回归系数,写作rYX.Z ) [1] 。
由此,我们就可以跳过烦琐的过程,不需要再在Z的每个层上求Y对X的回归系数,然后计算回归系数的加权平均了。大自然已经为我们做好了所有的平均!我们只需要计算出与数据点云最为匹配的那个平面即可。我们可以借助统计工具包很快地算出这个平面。平面方程Y=aX+bZ+c中的系数a将自动根据混杂因子Z调整所观察到的Y对X的趋势。如果Z是唯一的混杂因子,那么a就是X对Y的平均因果效应。真是奇迹般地简单!你也可以轻松地将这一处理过程扩展应用于包含多个变量的问题。如果一组变量Z恰好满足后门标准,那么回归方程中X的系数a就是X对Y的平均因果效应。
鉴于此,好几代研究者开始相信,经过统计调整的回归系数(或偏回归系数)在某种程度上被赋予了因果信息,这正是未经过统计调整的回归系数所缺乏的。但事实并非如此。无论是否经过统计调整,回归系数都只表示一种统计趋势,其自身并不能传递因果信息。我们能够说出是rYX.Z 而非rYX 表示了X对Y的因果效应,完全是基于我们所绘制的一张关于此例的因果图,其显示Z是X和Y的混杂因子。
简言之,回归系数有时可以体现因果效应,有时则无法体现,而其中的差异无法仅依靠数据来说明。我们还需要具备另外两个条件才能赋予rYX.Z 以因果合法性。第一个条件是,我们所绘制的相应的因果图应该能够合理地解释现实情况;第二个条件是,我们需要据其进行统计调整的变量Z应该满足后门标准。
这就是为什么休厄尔·赖特将路径系数(代表因果效应)从回归系数(代表数据点的趋势)中区分开来的做法很重要。尽管路径系数可以根据回归系数计算出来,但二者有着本质的区别。然而赖特及其后所有的路径分析者和计量经济学家没有意识到的是,他们的计算过程有着不必要的复杂性。如果赖特当初知道,通过对图示结构进行简单的分析就可以从路径图本身识别出恰当的统计调整所需的变量集,那么他本来是可以根据偏相关系数计算出路径系数的。
还要记住,基于回归的统计调整只适用于线性模型,这涉及一个非常重要的建模假设。一方面,一旦使用线性模型,我们就失去了为非线性的相互作用建模的能力,比如处理X对Y的效应取决于Z的不同水平这种情况。而另一方面,即使我们不知道因果图中箭头背后的函数是什么,后门调整仍然是有效的。只不过在这种所谓的非参数问题中,我们需要使用其他的数据外推法来对付维度灾难。
综上所述,后门调整公式和后门标准就像硬币的正反面。后门标准告诉我们哪些变量集可以用来去除数据中的混杂。统计调整公式所做的实际上就是去混杂。在线性回归最简单的例子中,偏回归系数在暗中执行了后门调整。而在非参数问题中,我们必须公开地根据后门调整公式做出统计调整,要么直接对数据进行统计调整,要么对数据的某个外推版本进行统计调整。
你可能认为,我们对干预之峰的征服即将大功告成。但遗憾的是,如果我们因缺乏必要的数据而无法阻断某条后门路径,统计调整公式就会完全失灵。不过,对于这种情况,我们仍然有可以采用的解决方案。在下一节,我会告诉你我最喜欢的方法之一,这种方法也被称为“前门调整”(front-door adjustment)。尽管这种方法在20年前就被提出了,但只有少数研究者曾利用这一捷径成功登顶干预之峰,而且我确信,我们仍未发掘出它的全部潜力。