到目前为止,我们已经证明了电视节目主持人没有真正的心灵感应能力,以及硬币之间无法沟通,那么接下来,我们还能破解哪些难解之谜呢?让我们从坏/坏/好药物(bad/bad/good drug,简称BBG药物)之谜开始。
假设有一名医生,我们称其为辛普森医生,他在办公室阅读文献时发现了一种很有前途的新药(药物D),这种新药似乎可以降低心脏病发作的风险。于是,他兴奋地在网上查找起了研究人员公布的实验数据。当他看到男性患者的数据时,他注意到如果这些患者服用了药物D,则他们的心脏病发作风险反而变得更高了。他的兴奋程度因此略有下降。“哦,好吧,”他想,“这样的话,药物D一定对女性非常有效。”
但随后,当他转向下一张表格时,他的失望变成了困惑。“这是怎么回事?”辛普森医生大叫道,“这份数据显示,服用药物D的女性患者的心脏病发作风险也变高了!我一定是神志不清了!这种药物似乎对女性有害,对男性也有害,但对人类有益。”
你是不是也被弄糊涂了呢?如果是的话,那么别担心,有很多人都跟你一样感到困惑。这一悖论是在1951年由一位叫爱德华·辛普森的统计学家发现的,它困扰了统计学家60多年,时至今日仍未得到彻底解决。甚至在2016年我写作本书的时候,学术期刊仍在刊载相关论文,当年有4篇新近发表的文章(包括一篇博士论文)分别从4种不同的视角尝试解释辛普森悖论。
1983年,梅尔文·诺维克写道:“一个表面的解决方案是,当我们知道病人的性别是男性或者是女性时,我们不采用这种药物疗法,但如果病人的性别是未知的,我们就应该采用这种疗法!但显然,这个结论是荒谬的。”我完全同意他的判断。药物对男性有害,对女性有害,但对人类有益,这太荒谬了,这三句话中一定有一句是错的。但错的是哪一句?为什么?这种令人迷惑不解的情况究竟是如何发生的呢?
为了回答这些问题,我们首先需要研究一下令辛普森医生困惑不已的(虚构)数据。这项研究是观察性的,不是随机对照研究的,其观察对象是60名男性和60名女性。患者自己决定是否服用药物。表6.4显示了服用药物D的两种性别的患者的人数,以及随后出现心脏病发作情况的患者数。
表6.4 辛普森悖论的虚构数据说明
让我再次强调一下悖论之所在。如你所见,在女性患者中,对照组中有5%(1/20)的患者后来心脏病发作,而服用该药的患者中有7.5%的人后来心脏病发作。因此我们认为,这种药物与女性患者中较高的心脏病发作风险有关。在男性患者中,对照组中有30%的患者后来心脏病发作,而处理组中有40%的患者后来心脏病发作。因此我们认为,这种药物与男性患者中较高的心脏病发作风险有关。辛普森医生是对的。
但现在让我们看看表6.4的最后一行。在对照组中,有22%的人后来心脏病发作,但处理组中的这一比例仅为18%。因此,如果我们仅根据最后一行判断,则药物D似乎的确降低了整个患者群体的心脏病发作风险——欢迎来到辛普森悖论的离奇世界!
近20年来,我一直在试图说服科学界,辛普森悖论所引发的困惑是出于错误地将因果原则应用于解释统计比例。而借助因果符号和因果图,我们就可以清楚明确地判断药物D是能预防心脏病发作还是会导致心脏病发作了。从根本上讲,辛普森悖论是一个关于混杂的难题,因此我们可以用此前我们解决混杂问题的方法来解开这个谜团。不过令人好奇的是,我刚刚提到的于2016年发表的4篇相关论文中,有3篇坚持抵制这一解决方案。
任何声称能够解决悖论(特别是那些经过几十年仍未得到解决的悖论)的方法都应该符合一些基本标准。第一,正如我上面讨论蒙提·霍尔悖论时说的那样,它应该能够解释为什么悖论会令人困惑或让人拒绝相信。第二,它应该能够确定悖论可能出现的场景类别。第三,它应该能够告诉我们,在哪些情况下悖论不可能发生(如果确实存在这种情况的话)。第四,当悖论真的发生,而我们必须在两个看似合理但矛盾的陈述中做出选择时,它应该能够告诉我们哪个说法是正确的。
让我们从辛普森悖论为何会令人困惑这一问题开始。为了解释这一点,我们必须先区分两个概念:辛普森逆转和辛普森悖论。
辛普森逆转是一个纯粹的数字事实:在合并样本时,两个或多个不同的样本关于某一特定事件的相对频率出现反转,如表6.4所示。在我们的例子中,我们可以看到两组相对频率:3/40>1/20(这是女性患者中服用D药者和未服用D药者的心脏病发作的相对频率),和8/20>12/40(这是男性患者中用药者与不用药者的心脏病发作的相对频率)。然而,当我们把男女样本的数据合并在一起时,不等式的方向就发生了逆转:(3+8)/(40+20)<(1+12)/(20+40)。如果你认为这样的逆转在数学上是不可能的,那么你很可能是误用或记错了分数的属性。很多人似乎相信,如果A/B>a/b且C/D>c/d,那么(A+C)/(B+D)>(a+c)/(b+d)就是自然成立的。但这种民间智慧是完全错误的。我们刚才给出的例子就明确驳斥了这一判断。
在真实采集的数据集中,我们同样可以找到辛普森逆转。对于棒球爱好者来说,这里有一个关于两个明星棒球运动员,大卫·贾斯蒂斯和德雷克·杰特的有趣例子。1995年,贾斯蒂斯的平均击球率比杰特的要高,二人的击球率之比是25.3%∶25%。1996年,贾斯蒂斯依然有相对较高的击球率,二人的击球率之比是32.1%∶31.4%。1997年,贾斯蒂斯在第三赛季的击球率仍然高于杰特,二人的击球率之比是32.9%∶29.1%。然而,当我们把所有三个赛季的击球率数据合并时,结果却显示,杰特有更高的击球率!表6.5为想要查看数据的读者展示了计算细节。
表6.5 辛普森逆转的(非虚构)数据说明
一个球员在1995年、1996年和1997年三年的时间里都比另一个球员打得差,他在三年里的总体表现怎么可能反而优于对方呢?这种逆转与BBG药物的治疗效果很相似。事实上,这是不可能的,问题出在我们使用了一个过于简单的词(“更好”)来描述不均匀赛季中复杂的平均过程。请注意,总打数(表6.5中各分数的分母)在不同年份中并非均匀分布。一方面,杰特1995年的打数很少,所以他在那年很低的击球率几乎没有影响到他的整体平均成绩。另一方面,贾斯蒂斯在他击球率最低的1995年里的打数更多,这就拉低了他的整体击球成绩。实际上,一旦你意识到“更好的击球手”不是由两位击球手之间的正面交锋来定义的,而是由将每位击球手的上场频率计算在内的加权平均成绩来定义的,那么我想这种对于逆转结果的诧异就会很快消退。