我的一位老朋友、伯克利大学的统计学家大卫·弗里德曼带领我解决了这个问题。他认为,图7.1中的模型在三个方面是不合乎现实的。首先,如果存在这样的吸烟基因,那么它很可能也会影响人体去除肺部异物的方式,从而导致携带这种吸烟基因的人其肺部更易形成焦油沉积,而不携带这种基因的人则更有这方面的抵抗力。因此,他会从“吸烟基因”画一个箭头到“焦油沉积”,在这种情况下,前门公式就失效了。
其次,“吸烟”不太可能仅仅通过“焦油沉积”引发“癌症”。我们可以很容易想到其他可能存在的机制,比如吸烟会导致慢性炎症,继而引发癌症。最后,我们实际上无法精准测量一个活人的肺部焦油沉积量,所以我刚刚提出的这项观察性研究根本无法在现实世界中开展。
针对这一特定案例,我无法反驳弗里德曼的批评。我不是癌症专家,因此对于这张因果图是否能够准确地反映真实世界中实际存在的机制,我不得不听从专家的意见。事实上,因果图的一个主要优势就是让假设变得透明,以供专家和决策者探讨和辩论。
然而,我之所以举这个例子,并不是为了提出吸烟影响的新机制,而是要证明在假设正确的情况下,即使我们没有混杂因子的数据,我们照样可以用数学的方式消除混杂因子的影响。适用于此种处理方式的情况可以很清楚地识别出来——X对Y的因果效应被一组变量(C)混杂,又被另一组变量(M)介导(见图7.2),并且中介变量M不受C的影响。当你看到满足上述条件的问题时,你就知道你可以从观测数据中估计出X对Y的影响。一旦科学家意识到这一事实,在面临无解的混杂因子时,他们就应该立即着手寻找不受混杂因子影响的中介变量。正如路易·巴斯德说的:“幸运总是眷顾准备好的人。”
图7.2 前门标准的基本设置
幸运的是,前门调整的价值并未被完全忽视。亚当·格林和康斯坦丁·卡申都是哈佛大学的政治学家(格林后来去了埃默里大学)。2014年,他们写了一篇获奖论文,这篇论文是所有定量社会学家的必读论文。他们在1987年至1989年将一种新方法应用于分析由社会学家仔细审查过的一组数据,这项研究被称为“职业培训合作法(JTPA)研究”。作为1982年JTPA推行的成果之一,劳工部制订了一项职业培训计划,除其他服务之外,该计划还为参与者提供职业技能、求职技能方面的培训和可以积累工作经验的项目。研究者收集了项目报名者的数据、实际使用服务的报名者的数据,以及所有这些人在接下来的18个月里的收入数据。值得注意的是,这项研究包括一项随机对照试验以及一项观察性研究。在前者中,研究者随机分配部分参与者接受服务,在后者中,参与者可自行选择是否接受服务。
格林和卡申并没有绘制因果图,但根据他们对研究的描述,我自行绘制了一张如图7.3所示的因果图。变量“报名”记录的是某人是否报名了该项目,变量“出席”显示的是项目报名者是否确实使用了服务。显然,只有在报名者实际使用了服务之后,服务项目才可能影响参与者的收入,所以很容易证明从“报名”到“收入”不存在直接箭头这一假设是正确的。
图7.3 JTPA研究的因果图
格林和卡申回避了对混杂因子的性质做具体说明,但我在这里将其归纳为“动机”。很明显,一个热切希望提高收入的人更有可能报名参加该项目,而且不管是否真的出席,此人在18个月后的收入水平都更有可能有所提高。当然,此项研究的目的是排除这个混杂因子的影响,找出服务项目本身为参与者提供了多少帮助。
将图7.2与图7.3进行比较,我们可以看到,如果没有从“动机”到“出席”的箭头,则该问题的情况就满足我在前面提到的中介变量“屏蔽”了混杂因子的影响的状态,因而也就适合用前门标准来解决。在许多情况下,我们都可以证明该箭头不存在才是更合理的假设。例如,如果这些服务只能通过报名者亲自前往某地预约登记的方式来提供,而人们错过预约通常是因为一些与“动机”无关的偶然事件(比如公共汽车罢工,脚踝扭伤等),那么我们就可以抹去这个箭头,使用前门标准。
但这项研究的实际情况是,服务是随时提供的,所以我们很难论证箭头不存在这一假设的合理性。然而,这正是让事情变得非常有趣的地方——在此种情况下,格林和卡申仍然在该研究中测试了前门标准。我们可以把他们所进行的测试看作一个敏感度测试。如果我们猜测这个箭头的影响微不足道,那么视其不存在所带来的偏倚可能会非常小。从他们得到的结果来看,情况就是这样。
通过做出某些合理的假设,格林和卡申推导出了几个不等式,用以说明统计调整是否太过或不足,以及这种太过或不足的程度。最后,他们将前门预测和后门预测与在同一时期运行的随机对照试验的结果进行了比较。其得到的结论令人印象深刻。采用后门标准(控制已知的混杂因子,如“年龄”“种族”“地点”)所做出的对于收入的估计很不准确,与对照试验的结果相差了数百美元乃至几千美元。如果的确存在一个未被观测到的混杂因子,比如这里的“动机”,那么这个结果就正是你期望看到的。并且我们无法使用后门标准来对它进行统计调整。
另一方面,采用前门估计进行的估算则成功地消除了几乎所有的“动机”效应。对男性来说,前门估计的准确性很不错,即使的确存在格林和卡申所预测的微小的正偏倚,该结果也仍在随机对照试验结果的误差范围内。对女性参与者来说,前门估计的准确性更高,据此得出的估计收入几乎完全与试验结果相匹配,不存在显著的偏倚。格林和卡申所做的工作提供了经验性和方法性两方面的证据,证明了如图7.2所示,只要C对M的影响足够微弱,前门调整就可以给出一个相当合理的关于X对Y影响的估计。这个估计比在不控制C的情况下所做的估计要好得多。
格林和卡申的结果说明了前门调整之所以是一个强大工具的原因所在:它允许我们控制混杂因子,并且这些混杂因子可以是我们无法观测(如“动机”)甚至无法命名的。也正是出于同样的原因,随机对照试验被认为是估计因果效应的“黄金标准”。前门估计所做的事与随机对照试验大体类似,并且还有一个额外的优点,即它的研究对象可以存在于自然的生活环境而非实验室的人造环境。所以,如果前门估计此后发展为随机对照试验的主要竞争对手,我是不会感到惊讶的。