“虽然混杂被广泛认为是流行病学研究的核心问题之一,但文献回顾显示,学界对混杂或混杂因子的定义几乎始终未曾达成一致。”通过这句话,加州大学洛杉矶分校的桑德·格林和哈佛大学的杰米·罗宾斯指出了自费舍尔以来为控制和消除混杂所做的努力并未取得实际进展的原因所在。由于缺乏对混杂本质的清晰理解,科学家无法在物理控制处理行不通的观察性研究中给出任何有意义的陈述。
那么在以往,混杂是如何被定义的,又应该被如何定义呢?在掌握了我们现在已经有所了解的因果论的逻辑之后,找出第二个问题的答案就很简单了。我们观察到的是给定处理效应的条件概率P(Y|X),我们要问自然的问题是X和Y之间的因果关系,该因果关系可以通过干预概率P(Y|do(X))获得。如此一来,混杂就可以简单地定义为导致P(Y|X)≠P(Y|do(X)),即两个概率出现差异的所有因素。是不是很简单明了?
遗憾的是,在20世纪90年代之前,事情并没有那么简单,因为那时do算子这一表达形式还未被提出。即使是在今天,如果你在街上拦住一个统计学家,问他:“混杂对你来说意味着什么?”你仍然可能会得到一个你能从科学家那里听到的最令人费解和困惑的答案。最近出版的一本由几位权威的统计学家合著的新书,就花了整整两页的篇幅试图解释这个概念,而我到现在还没有发现哪个读者真的理解了他们的话。
定义困难的原因就在于混杂并非统计学概念。它代表了我们想要评估的内容(因果效应)和我们实际使用统计方法所评估的内容之间的差异。如果你不能在数学上表达出你想评估的内容,那你就无法定义是什么构成了这种差异。
历史上,“混杂”的概念演变围绕着两个相关概念展开——不可比性和潜伏的第三变量。这两个概念都很“抵制”形式化。在丹尼尔的试验中,当我们谈到可比性时,我们说的是,处理组和对照组应该在所有相关方面都相同,但这就要求我们必须从不相关的属性中区分出相关的属性。在步行与死亡率的研究中,我们要如何知道年龄是否相关?要如何知道参与者名字的字母顺序是否相关?你可能会说这是显而易见的或者完全是常识性的,但是几代科学家一直致力于实现在数学上表达这种常识,否则我们就无法要求机器人在没有人类的常识可以依靠的情况下采取正确的行动。
对于潜伏的第三变量的定义也存在同样的模糊性。混杂因子是X和Y的共因吗?还是仅仅与它们每个都相关?今天,我们可以借助因果图来检查是哪些变量导致了P(X|Y)和P(X|do(Y))之间的差异,从而回答这个问题。而在没有因果图或do算子的时代,大约有五代的统计学家和医学专家不得不尝试找到某种替代定义,而这些定义没有一个令人满意。想到你药柜里的药物可能是基于混杂因子的某个可疑的替代定义开发的,你应该多少为此感到担忧才对。
让我们来看看这些关于混杂的替代定义。它们主要分为两大类,即声明性定义和过程性定义。一个典型的(错误的)声明性定义是“混杂因子是与X和Y都相关的任何变量”。而过程性定义则试图根据统计检验来描述混杂因子的特征。这种定义尤其吸引那些喜欢直接检验数据而忽视建构模型的统计学家。
下面是一个过程性定义,它有一个可怕的名字——“非溃散性”(noncollapsibility)。这个定义出自挪威流行病学家斯文·亨伯格1996年的论文:“在形式上,你可以将天然的相对死亡风险和根据潜在混杂因子进行统计调整后得到的相对死亡风险进行比较。二者的差异即表明混杂存在,在这种情况下,你就应该使用调整后的相对死亡风险评估结果。如果二者没有差异或只有微不足道的差异,那么混杂就不是问题,我们首选粗略估计。”换句话说,如果你怀疑存在某个混杂因子,你可以据其进行统计调整,并比较调整后的估计和未经调整的估计。如果二者有区别,那么这个因子就是混杂因子,因而你应该采用那个校正值。如果二者没有区别,那么你就摆脱了混杂的困境。亨伯格绝不是第一个提倡这种做法的人,而这种做法误导了一个世纪的流行病学家、经济学家和社会学家,并且仍然统治着应用统计的某些领域。我之所以单独挑出亨伯格的陈述,是因为他的这个定义非常清晰明确,也因为他是在因果革命已经开始之后的1996年发表的这篇文章。
最为流行的一个声明性定义经历了一段时期的发展和演变。《流行病学方法与概念史》(A History of Epidemiologic Methods and Concepts?)一书的作者阿尔弗雷多·莫拉比亚称之为“混杂的经典流行病学定义”,它包含两个条件。X(处理)和Y(结果)的一个混杂因子Z,满足(1)在整个总体上与X相关,(2)在未接受处理X的人群中与Y相关。近年来,该定义又增加了第三个条件:(3)Z不应当出现在X和Y之间的因果路径上。
请注意,“经典”版本的定义[只包含条件(1)和(2)]中的所有术语都是统计学的。其中条件(1)体现得尤为明显,即Z只是被假定为与X、Y相关,而不是X和Y的因。1951年,爱德华·辛普森在此基础上提出了相当复杂的条件(2):“在未接受处理的人群中Y与Z相关。”从因果的角度来看,辛普森的想法似乎是要去除由X对Y的因果效应引起的Z与Y的那部分相关;换句话说,他想说的是Z对Y的影响不依赖于Z对X的影响。他认为表达这种“去除”的唯一方法就是通过聚焦对照组(X=0)来对X进行变量控制。统计学剥夺了“效应”这个词,让他无法用其他方式来表达这一想法。
如果这个定义令你感到困惑的话,那就对了!如果他能简单地画出如图4.1所示的因果图,并据此说明“Y并没有通过X与Z发生关联”,那事情就会简单明了得多。但他没有这个工具,也无从谈论路径,因为这是一个被禁用的概念。
混杂因子的“经典流行病学定义”还有其他缺陷,如以下两个例子所示:
(i)X→Z→Y
和
在例(i)中,Z满足条件(1)和(2),但它不是一个混杂因子,而应该被称为“中介物”(mediator)。它是解释X对Y的因果效应的变量。如果你试图找出X对Y的因果效应,那么控制Z将带来一场灾难。如果你只看处理组和对照组中Z=0的那些个体,那么你就完全阻断了X的影响,因为它是通过改变Z来起作用的。如此一来你就会得出错误的结论——X对Y没有影响。埃兹拉·克莱因所说的“你最终控制了你真正想要测量的东西”正是这个意思。
在例(ii)中,Z是中介物M的替代物。当实际的因果变量无法测量时,统计学家通常会选择控制其替代物。例如,党派归属就可能被视为政治信仰的替代物。而因为Z并不是M的完美度量,所以如果你控制了Z,则X对Y的影响就可能会部分地被“遗漏”掉。实际上,控制Z本身仍然是一个错误,虽然它带来的偏倚可能会小于控制M,但偏倚仍然存在。