尽管在今天,瘴气理论已经不足为信,但贫困和地理位置无疑仍是重要的混杂因子。但是,即使不去测量这些变量(因为斯诺挨家挨户进行的调查工作很难复制),我们仍然可以借助工具变量来确定,通过净化水质,供水公司能拯救多少生命。
现在,让我们先解释一下工具变量是如何起作用的。为了简化说明,我们用变量Z、X、Y、U替代具体的变量名称,并将图7.8重新绘制为图7.9。我在图中标示了路径系数(a,b,c,d),以表示因果效应的强度。这意味着我们假设变量都是数值变量,且变量的相关函数是线性的。请记住,路径系数a表示让Z增加一个标准单位的干预行动将导致X增加a个标准单位。(在此,请允许我省略有关解释何为“标准单位”的技术细节。)
图7.9 工具变量的一般设置
由于Z和X之间不存在混杂,因此Z对X的因果效应(a)可以根据rXZ 估计出来,其中rXZ 是X在Z上的回归线的斜率。同样,变量Z和Y的关系也未被混杂,因为路径Z→X←U→Y被X处的对撞阻断了。因此Z在Y上的回归线斜率(rZY )就等于直接路径Z→X→Y的因果效应,即路径系数的乘积:ab。因此,我们就有了两个方程:ab=rZY 和a=rZX 。用第一个方程除以第二个,我们就得到了X对Y的因果效应:b=rZY /rZX 。
通过这些步骤,工具变量就神奇地许可了我们执行与前门调整相同的处理:在无法控制混杂因子或收集其数据的情况下估计X对Y的效应。据此,我们就可以向伦敦当局的决策者提议,供水公司必须将进水口建在下水道的上游,即使那些决策者仍然相信瘴气理论也没关系。还请注意,我们所做的是根据因果关系之梯第一层级的信息(相关系数rZY 和rZX )推导出第二层级的信息(b)。之所以能够做到这一点,是因为路径图所体现的假设在本质上是因果关系,尤其是“U和Z之间没有箭头”这个关键假设。如果我们换一张因果图,而其中Z是X和Y的混杂因子,那么我们就无法用公式b=rZY /rZX 正确估计出X对Y的因果效应。事实上,无论数据样本有多大,任何统计方法都无法区分这两种模型(因果图)。
在因果革命之前,人们就已经对工具变量有所了解,但是因果图以一种更清晰的方式表明了它们是如何发挥作用的。尽管斯诺当时并未掌握上述估算因果效应的定量公式,但他在实际上使用的就是引入一个工具变量的分析方法。休厄尔·赖特当然更清楚这种路径图的用法,公式b=rZY /rZX 可以直接从他的路径系数方法中推导出来。而在休厄尔·赖特之外,第一个有意识地使用工具变量的人似乎是……休厄尔·赖特的父亲,菲利普!
大家一定还记得,菲利普是一位经济学家,他曾在布鲁金斯学院工作。他当时对“如果征收关税,则商品产量将发生怎样的变化”这个问题很感兴趣。因为征收关税将导致商品价格上涨,因此理论上会刺激生产。用经济学术语来说,他所研究的问题就是供给弹性问题。
1928年,赖特撰写了一篇很长的专题论文,专门讨论了亚麻籽油供给弹性的估算。值得注意的是,在这篇论文的附录中,他用路径图分析了这个问题。这种做法相当勇敢:别忘了,当时还没有哪个经济学家见到过或听说过路径图。(事实上,为了对冲这种风险,他在论文正文中使用更传统的方法验证了他的算法。)
图7.10显示了菲利普路径图的简化版本。不同于本书中的大多数因果图,这张图包含一个“双向”箭头,但我希望读者别在这上面浪费太多的时间。借助一些数学技巧,我们可以用单向箭头“需求→供给”来替代链接合“需求→价格→供应”,如此,转化后的路径图看起来就类似于图7.9(尽管对经济学家来说,这种转换恐怕不大容易被接受)。值得注意的重要一点是,菲利普·赖特刻意引入(亚麻籽)每英亩 [4] 的可变产量作为工具,其直接影响供应,但与需求无关。之后,他就用我刚才使用过的分析方法推断出了供应对价格的影响以及价格对供应的影响。
图7.10 菲利普的供应—价格路径图的简化版本
工具变量在现代计量经济学中迅速流行开来,而历史学家仍在争论究竟是谁发明了这种方法。毫无疑问,我认为是菲利普·赖特在他儿子提出的路径系数的基础上第一个发明了这种分析方法。在他之前,没有经济学家曾提出过因果系数和回归系数的区别,毕竟他们都身处卡尔·皮尔逊—亨利·尼尔斯阵营,认为因果关系只不过是相关关系的一种极限情况。此外,在休厄尔之前,也没有人曾提出这种方法,即根据路径系数计算回归系数,然后逆转这一过程,从回归系数中获得因果效应。这是休厄尔的独家发明。
一些经济史学家认为菲利普那篇论文的附录是休厄尔撰写的。但文体分析则表明,菲利普确实是附录的作者。对我来说,这些历史细节让这个故事变得更加美好。在这个故事中,菲利普克服了原有的学术偏见,付出努力去理解他儿子提出的理论,然后又用自己的语言将之表达了出来。
现在,让我们从19世纪50年代迈入20世纪20年代,看看当今现实中工具变量的一个应用实例。这样的例子还有很多,受篇幅所限,我在此只能选择其中一个展开讨论。