好在,90年后的今天,我们可以用do算子来填补费舍尔想要表达但无从表达的内容。让我们从因果的角度来考察一下随机化是如何让我们向自然精灵提出正确的问题的。
像往常一样,让我们从绘制因果图开始。模型1,如图4.4所示,描述了在正常条件下,每个地块的产量是由哪些因素确定的。在正常情况下,农民对于每个地块最适合使用哪种肥料是根据心血来潮的想法或偏见来决定的。他想对自然精灵提出的问题是,“对整片土地均匀施撒肥料1(相比于施撒肥料 2)的产量是多少?”或者,用do算子来表示就是,P(产量|do(肥料=1))的值是多少?
图4.4 模型1:一个错误的对照试验
如果这位农民鲁莽地执行了这个试验,例如在地块高处使用肥料1,低处使用肥料2,那么他可能就引入了排水性这个混杂因子。或者,如果他在第一年使用肥料1,在下一年使用肥料2,那么他可能就引入了天气这个混杂因子。无论哪种情况,他都会得到一个有偏倚的比较结果。
农民想要知道的世界实际上是由模型2描述的。在这个模型中,所有地块都接受同样的肥料处理(见图4.5)。根据第一章所介绍的内容,do算子在这个例子中的作用是清除所有指向肥料的箭头,并强制赋予这个变量一个特定的值,比如,肥料=1。
图4.5 模型2:我们想知道的世界
最后,让我们看看应用随机化处理的世界是怎样的。我们让一些地块接受do(肥料=1),让其他地块接受do(肥料=2),但让哪些地块接受哪种处理是随机的。由此模拟出的世界见图4.6,它描述了“肥料”变量从一种随机设备那里获取赋值,比如费舍尔的扑克牌。
图4.6 模型3:由随机对照试验模拟的世界。
请注意,所有指向肥料的箭头都已被清除,这反映了农民在决定使用何种肥料时只听从于抽签结果。同样重要的是,图示中没有从随机抽签指向产量的箭头,因为农作物并不能读懂抽签的结果。(对于农作物来说,这是一个相当安全的假设,但对随机化试验中的人类受试者来说,这就是一个应予以严肃考虑的问题了。)因此,模型3描述了这样一个世界,其中肥料和产量之间的关系不存在混杂(换句话说,肥料和产量没有共因)。这意味着,在图4.6所描述的世界中,观察到“肥料=1”和实际实施“肥料=1”是没有区别的。
这一结论揭示出了关键的一点:随机化处理是模拟模型2的一种方法。它让所有旧的混杂因子都失效了,同时并没有引入任何新的混杂因子。这就是随机化处理的关窍所在,没有什么神秘色彩。如琼·费舍尔·博克斯所说,它只不过是一种“对自然的巧妙询问”。
然而,如果我们允许试验者使用自己的判断选择肥料或试验对象,那么试验就无法达到模拟模型2的目标。在这种情况下,农作物就能“读懂”它们对应的抽签结果了。对人类受试者进行临床试验时,研究者必须不遗余力地向病人和主试隐瞒处理信息(该试验操作被称为双盲试验),其原因正在于此。
我还想再补充一个关键点:我们还有其他的方式可以用来模拟模型2。如果你知道所有可能存在的混杂因子,那么一种方法就是测量它们并根据它们进行统计调整。不过相比之下,随机化处理确实有一个很大的优势:它切断了接受随机处理的那个变量的所有传入连接,包括我们不知道或无法测量的那些(如图4.4至图4.6中的“其他”因素)。
相比之下,在非随机研究中,试验者必须依靠他对试验主体的知识做出判断。如果他相信自己的因果模型中有充足的去混因子,并且收集到了相应的数据,那么他就可以客观估计出肥料对产量的影响。但危险在于,他很可能忽略了一个混杂因子,这样一来他的估计结果就是有偏倚的。
就像走钢丝的人需要安全网一样,在所有条件都满足的情况下,随机对照试验仍是观察性研究的首选。但是很多时候,我们无法满足所有的条件。在某些情况下,干预可能在事实上不可行(例如在研究肥胖对心脏病的影响时,我们不能随机安排病人肥胖与否),或者干预可能是不道德的(例如研究吸烟的影响,我们也不能要求随机选择的一些人抽上10年的烟)。再或者,对于某些较为复杂、参与起来不方便的试验,我们可能会在招募受试者时遇到困难,而勉强找到的志愿参与者又无法代表我们的目标总体。
幸运的是,do算子为我们提供了一种科学的方法,让我们能够在非试验性研究中确定因果效应。这一方法挑战了随机对照试验一直以来的霸主地位。正如我们在步行与死亡率那个例子中所讨论的那样,根据观察性研究得出的这种因果估计很可能会被标记为“暂时的因果关系”,即因果关系取决于我们绘制的因果图所反映的一组假设。重要的是,我们不应当把这些研究当作“二等公民”来对待,它们的优势在于能够应用于目标人群的自然生活场所,而非必须应用于人工打造的实验室环境,它不受伦理问题或可行性问题的污染,从这个意义上说,这样的研究是“纯净的”研究。
现在我们已经明白随机对照试验的主要目的是消除混杂,接下来让我们看看因果革命带来的其他消除混杂的方法。这个故事开始于我的两个老同事在1986年发表的一篇论文,这篇论文开启了重新评估混杂含义的进程。