1998年,《新英格兰医学杂志》的一项研究显示,退休男子经常散步和其死亡率下降之间存在关联。研究人员使用了檀香山心脏计划的数据,该计划自1965年以来追踪记录了8000名有日本血统的男性的健康状况。
由弗吉尼亚大学生物统计学家罗伯特·阿伯特领导的研究小组希望弄清楚的问题是,那些更勤于运动的人是否更长寿。他们从计划追踪的8000人中选择了707人作为调查样本,这些人的健康状况都能满足步行活动的要求。阿伯特的团队发现,在为期12年的追踪期中,每天散步不到1英里 [2] 的男性(可以称他们为“偶尔步行者”)比每天步行超过2英里的男性(“经常步行者”)的死亡率高出2倍。准确地说,在12年追踪期之后,43%的偶尔步行者已经去世,而经常步行者中只有21.5%的人去世。
然而,因为研究者并没有提前规定谁来做偶尔步行者,谁来做经常步行者,所以我们必须考虑到存在混杂偏倚的可能性。一个明显的混杂因子可能是年龄:调查样本中的年轻男性可能更愿意进行积极的锻炼,那么其在12年追踪期内的死亡率自然相对较低。因此,我们可以画一个如图4.2所示的因果图。
图4.2 步行例子的因果图
以“年龄”为中间节点的经典叉接合结构告诉我们,年龄是步行强度和死亡率的混杂因子。我相信你还能想到其他可能的混杂因子,比如,也许偶尔步行者本身生性懒散,也许他们出于某些原因走不了那么多路。因此,身体条件可能也是一个混杂因子。我们还可以如此这般地继续猜测下去:如果步行少的人是饮酒者呢?如果他们有暴饮暴食的习惯呢?
好消息是,研究人员考虑了所有这些因素。这项研究采集了每个可能存在的影响因素的相关信息,包括年龄、身体状况、饮酒习惯、饮食习惯以及其他几种因素,并据此逐一进行了统计调整。例如,数据显示,经常步行者的确会稍微年轻一些。因此,研究人员就根据年龄调整了死亡率,并发现在调整之后,偶尔步行者和经常步行者之间的死亡率差异仍然很大。(经过年龄调整的偶尔步行者的死亡率是41%,经常步行者为24%。)
但即便已经进行了所有这些统计调整处理,研究人员对他们的结论仍然非常谨慎。在文章的末尾,他们写道:“当然,我们的研究并未解决的一个问题是,那些体力充沛的老年男性有意增加每天步行的路程对其寿命有何影响。”用第一章的话来说就是,对于“假设受试者do(锻炼),那么他们在12年追踪期过后的生存概率是多少”这一问题,他们拒绝做出任何回答。
公平而论,阿伯特和他的团队成员有充分的理由秉持这种谨小慎微的态度。这是关于该问题进行的第一次研究,他们的样本相对较小且相对同质。然而,这种谨慎也反映了一种更为普遍的态度,其远远超越了样本同质性和样本规模问题。研究人员一直以来被教导相信,一项观察性研究(其中受试者自行选择是否接受处理)永远不能阐明一个因果结论。我认为这种谨慎过于夸张了。为什么不去消除关联中的虚假部分,从而更好地理解因果效应,而要费劲地根据所有的混杂因子进行统计调整呢?
我们不应该像他们那样说“我们当然不能”,我们应该公开声明,我们完全可以谈论关于刻意干预的话题。如果我们相信阿伯特的团队识别出了所有重要的混杂因子,那么我们就必须相信,(至少对有日本血统的老年男性来说)刻意增加步行强度的确有可能延长寿命。
这一初步结论的前提是假设在所发现的关系中,不存在其他混杂因子发挥主要作用。这是一条极其宝贵的信息,它准确地向有散步意向的人说明了这一结论所包含的不确定性,而这种残余的不确定性并不比存在未被考虑的其他混杂因子的概率要高。它对关于该课题的未来研究也具有指导意义,即未来的研究应侧重于寻找其他的影响因子(如果它们的确存在的话),而不是当前研究中被控制的这些因子。简言之,掌握既定结论背后的假设比试图用随机对照试验来规避这些假设更有价值,而且我们在之后会发现,随机对照试验自身也存在局限性。