1946年,梅奥诊所的生物统计学家约瑟夫·伯克森指出了在医院进行的观察性研究的一个特性:两种疾病即使在一般人群中彼此不存在实际联系,在医院的病人中也会形成某种似是而非的关联。
为了理解伯克森的观察,让我们从因果图开始(见图6.3)。不妨先设想一种非常极端的可能情况:无论是疾病1还是疾病2都没有严重到足以让患者必须住院的地步,但两者的结合会导致患者必须住院。在这种情况下,我们的预测是在住院病人这个总体中疾病1与疾病2高度相关。
图6.3 伯克森悖论的因果图
在此前提下,在针对住院病人进行研究时,我们就相当于控制了“住院”这个因子。正如我们所知,以对撞因子为条件这一操作制造了“疾病1”和“疾病2”之间的伪相关。在我们以往提到的许多例子中,因为辩解效应的存在,这种伪相关多呈负相关,但在这个例子中,这种伪相关是正向的,因为患者住院的前提就是同时患有两种疾病(而不是只患有一种疾病)。
然而长期以来,流行病学家拒不相信这一悖论的存在。直到1979年,麦克马斯特大学的一位研究统计偏倚的专家,大卫·萨克特,提供了强有力的证据证明了伯克森悖论是真实的。在一个案例中,他研究了两组疾病:呼吸系统疾病和骨骼疾病(见表6.3)。在一般人群中,大约有7.5%的人患有骨骼疾病,这一比例与患者是否患有呼吸系统疾病无关。但是,对于患有呼吸系统疾病的住院患者而言,其骨骼疾病的患病率会升至25%!萨克特称这种现象为“住院率偏倚”或“伯克森偏倚”。
表6.3 萨克特的数据阐释伯克森悖论
萨克特承认,我们不能明确地将这种效应归因于伯克森偏倚,因为也可能存在其他的混杂因子。在某种程度上,对该问题的争论还在持续。然而,与1946年和1979年的情况有所不同的是,今天的流行病学研究者已经理解了因果图以及其中包含的偏倚。关于该问题的讨论焦点已经转移到技术方面的细节,即偏倚可以是多大,以及它是否大到可以在包含更多变量的因果图中被观察到。这就是进步!
对撞引起的相关性并不新鲜。1911年,英国经济学家亚瑟·塞西尔·庇古在其进行的一项研究中也发现了这一现象,他对父母酗酒和父母不酗酒的孩子进行了比较。巴巴拉·伯克斯(1926)、赫伯特·西蒙(1954),当然还有伯克森也在各自的研究中发现了这一伪相关现象,尽管他们使用的称谓各不相同。在这些人的研究里,这种伪相关现象看起来似乎没有刚刚那个例子那么深奥难懂。我们可以做一下这个试验:同时抛掷两枚硬币100次,只在至少一枚硬币正面朝上时记下结果。现在看一下你列出的结果表格,其中会包含大约75个记录,根据这些记录,你会发现两枚硬币的抛掷结果并不独立。每次当硬币1为反面落地时,硬币2必为正面落地。这怎么可能?这些硬币是以光速互通消息了吗?当然不是。事实上,这些结果是你删去了所有两枚硬币都是背面朝上的结果后得到的,换句话说,你对这个对撞因子进行了变量控制。
1956年,哲学家汉斯·赖欣巴哈的遗作《时间的方向》(The Direction of Time )出版了。赖欣巴哈在这本书中提出了一个大胆猜想,并称其为“共因原则”(common cause principle)。为反驳“相关关系并不等于因果关系”这个说法,赖欣巴哈提出了一个更激进的设想:“没有不含因果关系的相关关系。”他的意思是,两个变量X和Y之间的相关不是偶然发生的,要么是一个变量导致另一个变量,要么是第三个变量,比如说Z,Z出现在两个变量之前,导致两者发生。
我们简单的硬币抛掷试验证明赖欣巴哈的说法有些过于偏激了,因为他没有考虑到这样一个过程,在该过程中,观察结果是被选择的。两枚硬币的抛掷结果没有共因,一枚硬币也不会将其结果告诉另一枚硬币。然而,在我们的列表中,两枚硬币的抛掷结果是相关的。赖欣巴哈的错误在于他没有考虑到对撞结构,也即数据选择背后的结构。这个错误对我们来说特别有启发性,因为它精确地说明了我们大脑思考机制的缺陷。我们在实际生活中似乎就是遵循着共因原则行事的,无论何时,只要观察到某种模式,我们就会去寻找一个因果解释。事实上,我们本能地渴望根据数据之外的某个稳定机制对观察结果做出解释。其中最令人满意的解释是直接因果关系:X导致Y。当实际情况不能满足直接因果关系时,如果能找出X和Y的共因,那么我们也会感到满意。相比之下,对撞结构太难以捉摸,无法满足我们的因果解释欲。我们想知道两枚硬币协调反应的机制,而答案非常令人失望——它们根本不会互相沟通。在最纯粹、最本质的意义上,我们观察到的相关就是一种错觉,甚至可能是一种自欺欺人:我们选择哪些事件进入数据集同时忽略另一些事件的做法给我们自己带来了错觉。重要的是要认识到,我们并非总能意识到自己做出了这个选择,这就是为什么对撞偏倚总是能轻易欺骗那些粗心的人。在抛掷两枚硬币的试验中,这种选择是有意识的:我明确告诉过你不要记录两枚硬币同为背面朝上的结果。但在很多场合,我们没有意识到我们做出了选择,或者没有意识到选择已经为我们做好了。在蒙提·霍尔悖论中,主持人为我们打开了门;在伯克森的悖论中,一个粗心的研究者可能为了方便而选择以住院病人为研究对象,却没有意识到这种做法为自己的研究带来了偏倚。
对撞的扭曲棱镜在日常生活中同样普遍存在。正如乔丹·埃伦伯格在《魔鬼数学》(How Not to Be Wrong )中提出的问题:你有没有注意到,在你约会的人当中,那些有魅力的人往往是混蛋?与其为解释这一现象而费力构建复杂的社会心理理论,不如考虑一种更简单的解释。你对约会对象的选择取决于两个因素:魅力和个性。你会冒险约会一个刻薄而有魅力的人,或者一个和蔼但缺乏魅力的人,你当然也会与既和蔼又有魅力的人约会,但你肯定不会与既刻薄又没有魅力的人约会。换句话说,你删掉了所有“负—负”的结果,这与你在抛掷两枚硬币的例子中所做的筛选是相同的,而正是这种筛选造成了魅力和个性之间的伪负相关。可悲的事实是,没有魅力的人可能会和有魅力的人一样刻薄,但你永远意识不到这一点了,因为你永远不会约会既刻薄又没有魅力的人。