• 精选
  • 会员

混杂的新范式(2)

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

因此,后来的统计学家,特别是大卫·考克斯在他的教科书《实验设计》(The Design of Experiments?,1958)中发出警告说,除非你有一个“令人信服的先验理由”相信Z不受X的影响,否则你就不应该控制Z。这种“令人信服的先验理由”恰恰是一个因果假设。他补充道:“这种假设可能表面上看起来完全合理,但科学家应该在采纳这些假设时保持警惕。”请不要忘了,这可是在严禁因果论的1958年提出的。考克斯的意思其实是,在根据混杂因子进行统计调整的时候,你可以偷偷喝上一大口因果的私酿酒,只要注意别告诉牧师就行——多么大胆的建议!我为他的勇气表示由衷的钦佩。

到1980年,辛普森和考克斯的条件被合并成了我上面提到的对混杂的三部分测试。这个定义就像一艘通往因果关系领域的独木舟,只不过它仍然有三处漏洞。尽管它确实在条件(3)中半遮半掩地提到了因果关系,但定义的前两个部分都可以被证明是不必要且不充分的。

格林兰和罗宾斯在1986年发表的具有里程碑意义的论文中就得出了这一结论。他们对混杂采用了一种全新的界定方法,并称之为“可互换性”(exchangeability)。他们回到最初的思路,即对照组(X=0)应与处理组(X=1)进行比较。但他们在此之上增加了一种反事实的扰动。(我在第一章曾指出,反事实位于因果关系之梯的第三层级,它十分强大,足以处理混杂。)可互换性要求研究者针对处理组,想象如果这组患者没有得到处理,其成员会发生什么,然后判断这一想象中的结果与那些实际上没有接受处理的小组的情况是否一致。只有在二者一致时,我们才能说这项研究中不存在混杂。

在1986年面对流行病学家谈论反事实多少还是需要一些勇气的,因为他们中的大部分仍然深受古典统计学的影响,认为所有的答案都存在于实际的数据中——而不是存在于想象的数据中,因为后者永远无法被观测。然而,由于另一位哈佛统计学家唐纳德·鲁宾的开创性工作,统计学界或多或少地做好了倾听这类“异端邪说”的准备。在鲁宾于1974年提出的“潜在结果”(potential outcomes)理论框架中,反事实变量就像血压这样的传统变量一样合法,如“假如个体X服用了药物D后,他的血压”或“假如个体X没有服用过药物D,他的血压”,它们同真正被观测到的血压数值一样有效,尽管这些反事实变量永远不会被观测到。

格林兰和罗宾斯开始从潜在结果的角度表述他们对混杂的定义。他们把研究中的目标总体分成4种类型:注定的、因果的、预防的和免疫的。这种说法比较含蓄,打个比方,我们可以把处理X当作接种流感疫苗,将结果Y当作得流感。“注定的”群体类型是指疫苗对其不起作用的那些人,他们无论是否接种疫苗都会患上流感。“因果的”群体(可能在现实中并不存在)是指因为接种疫苗而患上流感的那些人。“预防的”群体由接种了疫苗从而预防了流感的人组成。也就是说,如果没有接种疫苗,他们就会得流感,如果接种了疫苗,他们就不会得流感。最后,“免疫的”群体指在任何情况下都不会得流感的那些人。表4.1概括了这些群体类型。

理想的情况是,每个人的额头上都有一个贴纸,标明他属于哪个群组。可互换性意味着处理组和对照组的成员中4种类型的人数比例(d,c,p,i)相同。如果我们将处理组和对照组进行互换,相等的比例可以确保互换后的结果不变。相对的,如果处理组和对照组的相应比例不同,我们对疫苗结果的估计就会受到混杂的影响。请注意,处理组和对照组可能在许多方面有所不同,比如在年龄、性别、健康状况和各种其他特征上存在差异,但只有d、c、p、i相等才能决定它们是否是可互换的。因此,可互换性就相当于两组中4个比例相等,这种方法不必评估造成两个群体存在差异的无数因素,从而大大降低了处理的复杂程度。

表4.1 根据反应类型进行的个体分类

借助这一通俗易懂的定义,格林兰和罗宾斯表明了以往关于混杂的“统计学”定义,无论是声明性定义还是过程性定义,都给出了错误的答案。某个变量可能满足了混杂的“经典流行病学定义”的三个条件,但根据该变量进行统计调整仍然可能增加偏倚。

格林兰和罗宾斯给出的定义是一项伟大的科学成就,因为该定义使他们能够举出一些明确的例子,表明以前的混杂定义是不恰当的。但是,该定义无法付诸实践。简言之,那个“额头上的贴纸”是不存在的。我们甚至无从了解d,c,p,i的值。事实上,这正是自然精灵一直锁在她的神灯里不想示人的信息。由于缺乏这方面的信息,研究者只能将处理组和对照组是否可互换这个问题留给直觉去判断。

现在,我希望我的叙述激发起了你对于这个问题的好奇心:因果图是如何将混杂这个大麻烦转变成了一个有趣的游戏呢?诀窍在于对混杂进行操作测试,这个测试被称为“后门标准”。这个标准将定义混杂、识别混杂因子和根据混杂因子进行统计调整这些问题转变成了一个比迷宫问题还简单的智力游戏。如此,这个古老而棘手的问题就得到了圆满的解决。

混杂

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000