自1984年以来,工具变量这一方法一直在发展演变,其中一个特别的衍生版本格外流行,该衍生版本被称为“孟德尔随机化”。举个例子。虽然低密度脂蛋白或“坏”胆固醇的影响问题现在已得到解决,但关于高密度脂蛋白(HDL)或“好”胆固醇,我们对其产生的影响仍有相当大的不确定性。一些早期的观察性研究,如20世纪70年代末的费雷明汉心脏病研究表明,高密度脂蛋白能起到一定的保护作用,防止心脏病发作。但是高密度脂蛋白往往与低密度脂蛋白同时出现,对此我们应如何辨别哪一种脂蛋白才是真正起作用的因素呢?
为了回答这个问题,假设我们知道某个基因会使携带此基因的人天生有较高的高密度脂蛋白水平,而该基因对低密度脂蛋白的水平则没有影响。据此,我们就绘制出了如图7.12所示的因果图,图中我以“生活方式”代指可能的混杂因子。请记住,同斯诺的例子一样,引入一个随机化的工具变量总是有益的。因为一旦经过了随机化处理,就不会有因果箭头指向它了。因此,基因就是一个完美的工具变量。我们的基因在我们未出生之前就被随机化了,这就好像格雷戈·孟德尔本人从天而降,给一些人分配了高风险基因,给另外一些人分配了低风险基因。这就是“孟德尔随机化”这一术语的由来。
图7.12 孟德尔随机化例子的因果图
那么,是否可能存在一个从高密度脂蛋白基因指向生活方式的箭头呢?为回答这个问题,我们需要做一些“鞋革工作”,并用因果关系的思维来分析这个问题。只有当人们知道自己是否携带了这种与高密度脂蛋白有关的基因时,这种基因才有可能影响人们的生活方式。但是直到2008年,这种基因还没有被发现,甚至到了今天,绝大部分普通人也无从获知此类信息。因此,这样的箭头很可能是不存在的。
至少有两项研究采用了孟德尔随机化的方法来解决这一好坏胆固醇的问题。2012年,一项由麻省综合医院的研究者塞卡尔·凯瑟琳领导的大型合作研究显示,更高的高密度脂蛋白水平没有明显的益处。而与此同时,研究人员还发现低密度脂蛋白对心脏病发作的风险有很大的影响。根据他们收集到的数据,低密度脂蛋白水平每降低34mg/dl将使心脏病发作的风险降低50%。因此,一方面,降低“坏”胆固醇的水平,无论是通过饮食、运动还是通过服用他汀类药物,似乎的确是一个明智的主意。而另一方面,尽管一些鱼油推销员可能会试图说服你增加你体内的“好”胆固醇水平,但看起来这一做法不太可能真的降低你的心脏病发作风险。
和以往一样,此处也有一个需要我们引起警惕的结果。于同年发表的第二项研究指出,具有某种与低密度脂蛋白有关的基因的低风险变异体的人,其一生的胆固醇总量都会维持在一个相对较低的水平。孟德尔随机化已经告诉我们,在你的一生中,低密度脂蛋白水平每降低34mg/dl将使你的心脏病发作风险下降50%。而他汀类药物无法一劳永逸地让你的低密度脂蛋白水平降低,其作用只能从你开始服药的那一天算起。如果你已经60岁了,那么在服药之前,你的动脉可能已经遭受了60年的破坏。因此,在这种情况下,孟德尔随机化很可能会导致我们高估他汀类药物的实际效果。相反,如果你从年轻的时候就开始降低你的胆固醇,不管是通过饮食、运动还是通过服用他汀类药物,那么你的这一选择将会在日后为你带来很大的好处。
从因果分析的角度来看,这两项研究给我们上了很好的一课:在做任何干预研究之前,我们都需要问,我们实际操作的变量(低密度脂蛋白的终生水平)是否与我们认为自己正在操作的变量(低密度脂蛋白的当前水平)相同。这正是我们先前提到过的“对自然的巧妙询问”的一种体现。
总而言之,工具变量是一个重要的工具,它能帮助我们揭示do演算无法揭示的因果信息。do演算强调的是点估计,而非不等式,因此不适用于如图7.12所示的情况,因为在那个例子中我们所能得到的都是不等式。而同样重要的是,相比工具变量,do演算具有更大的灵活性。因为在do演算中,我们不需要对因果模型中函数的性质做任何假设。而如果我们的确有足够的科学依据证实类似单调性或线性这样的假设的话,那么像工具变量这种针对性更强的工具就更值得考虑。
工具变量方法的适用范围可以远远超越如图7.9(或图7.11、图7.12)所示的那种简单的4变量模型,但若离开因果图的指导,它就不可能走得太远。例如,在某些情况下,在对一组经过巧妙选择的辅助变量进行变量控制之后,我们就可以引入某个并不完美的工具变量(比如不满足独立于混杂因子这个条件),因为控制这些辅助变量可以阻断工具变量和混杂因子之间的路径。卡洛斯·布里托充分发展了这一将非工具变量转化为工具变量的思想,他是我以前的学生,现在是巴西西亚拉联邦大学的教授。
此外,布里托还研究了许多不同的情况,在其中一些情况中,我们还可以将一组变量成功地转化为一个工具变量来使用。虽然关于工具变量集的识别问题超越了do演算的应用范畴,但我们仍然可以借助因果图来解决这个问题。对于已熟练掌握了因果图语言的研究者来说,合理可行的研究设计丰富多样,无须受困于如图7.9、图7.11和图7.12所示的4变量模型的使用限制。事实上,能限制我们的只有我们自己的想象力。
[1] 偏回归系数(partial regression coefficient)rYX.Z 就是暂时固定Z时,Y在X上的回归系数。即在根据Z对(X,Y,Z)数据进行分层之后,再考虑Y和X之间的相关性。——译者注
[2] 古希腊神话中,忒修斯在克里特公主阿里阿德涅的帮助下,用一个线团破解了迷宫,从此,人们就用“阿里阿德涅之线”来比喻在困惑中得到的指点。——译者注
[3] 大卫·弗里德曼在其论文《统计模型和鞋革》(1991)中曾提到斯诺不辞劳苦走访千家万户,不知磨破多少鞋子才获得了这些数据。——译者注
[4] 1英亩≈4046.86平方米。——编者注