如果我是一个专业的史学家,我可能会在上一节就此打住。但作为一名自封的“辉格史学家”,我无法抑制自己对上节结尾中赖特言论的准确性表达由衷的钦佩,这句话在首次发表的90年后的今天也并未过时,因为它从根本上定义了现代因果分析的新范式。
我对赖特这段真知灼见的钦佩仅次于我对他的勇气和决心的钦佩。请大家想象一下1921年的情况:一个自学成才的数学家独自面对统计学界的霸权。他们告诉他:“你的方法是基于对科学意义上因果关系本质的全然误解。”而他反驳说:“并非如此!我的方法创造出了重要的事物,其价值超越任何你们可以创造的东西。”他们说:“我们的专家在20年前就对这些问题进行了研究,并得出结论——你的分析方法完全是无稽之谈。你所做的只不过是把一些相关关系结合起来推导出另一个相关关系而已。等你‘长大’了,你就会明白了。”而他继续说:“我不是看不起你们的专家,但事实就是事实。我的路径系数不是相关关系,而是一种完全不同的事物:因果效应。”
试着想象自己是一个幼儿园小朋友,你的朋友都嘲笑你相信“3+4=7”,因为大家学到的都是“3+4=8”。再想象一下现在你去寻求老师的帮助,而她也说“3+4=8”。那么,你会不会在回家之后问自己,也许是你自己的思维方式出现了什么问题?即使是意志最坚定的人在这种情况下也会动摇信念。我就曾身处这所幼儿园,我对此感同身受。
但赖特并没有陷入自我怀疑。这场争论涉及的不仅仅是算术问题,因为算术问题至少可以借助某种独立的验证过程得到证明。只有曾经的哲学家敢于对因果关系的性质发表意见。那么,赖特是从哪里得到了这个内在的信念,确信他的确走在正确的轨道上,而幼儿园的其他人才是错的呢?也许他在美国中西部地区的成长经历和他所念的那所名不见经传的大学激发了他的自立精神,并教会了他,最可靠的知识就是由自己亲手构建的知识。
我在学校读到的最早的一本科学著作,其中就讲述了宗教法庭如何迫使伽利略放弃他的日心说,而伽利略又是怎样坚持己见的。他在最后的审判中曾低声为自己的信念辩护道,“但它(地球)仍在动”(“E pur si muove”)。我认为世界上没有哪个孩子在读过这个故事之后会不被他的勇气鼓舞。然而,尽管我钦佩他的坚持,我还是禁不住想,至少他还有天文观测数据可以依靠。而赖特只有一个未经检验的结论:发育因子引起的变异占比58%,而非3%。他无所依靠,除了内心的信念——路径系数能够阐释的事实是相关性所无法阐释的。而他依然选择公开宣布:“但它仍在动!”
在我的同事告诉我,我的贝叶斯网络与当时的人工智能主导理论发生了冲突(详见第三章)时,我表现得相当固执、执拗、毫不妥协。事实上,我记得自己完全相信自己的方法,没有丝毫犹豫。但当时的我也有概率理论作为支撑。而赖特甚至连一个可以依靠的定理都没有。科学家们在那时已经放弃了因果关系,因此赖特没有任何可以诉诸的理论框架。他也不能像尼尔斯那样从权威专家的观点中找到支持,因为他无从引述,毕竟这些专家早在30年前就宣布了他们的判决。
但对赖特来说,值得欣慰并且表明了他正身处正确道路的一个事实是,他确切地意识到他可以借助自己的方法回答借助任何其他方式都无法回答的问题。确定几个因子的相对重要性就属于这样的问题。另一个出色的例子可以在他1921年的论文《相关关系和因果关系》中找到。他在这篇论文中提出了这个问题:如果豚鼠在母鼠的子宫里多待了一天,这会对其出生体重产生多大的影响?让我们来仔细研究一下赖特的答案,以欣赏他的方法之美,并尽可能满足那些想了解路径分析的数学原理的读者。
请注意,我们不能直接回答赖特的问题,因为我们不能在子鼠还在母鼠子宫内时为其称重。不过,我们可以做的是,比较比如孕期66天和孕期67天的豚鼠的出生体重。赖特通过比较分析指出,在子宫里多待了一天的豚鼠其出生体重平均增加了5.66克。据此,有人可能会草率地得出结论,在出生之前,豚鼠胚胎每天增长大约5.66克体重。
“这是错的!”赖特会这样说。晚出生的幼鼠之所以晚出生通常是有原因的,比如同窝产仔数相对较少。这意味着,在母鼠怀孕期间,幼鼠有更有利的成长环境。例如,只有2个兄弟姐妹的幼鼠在母鼠怀孕66天时的体重通常会比有4个兄弟姐妹的幼鼠的体重要重。因此,出生体重的差异存在两个原因,我们需要将二者区分开来:增长的5.66克体重中有多少是由于子鼠在母鼠子宫内多待了一天,有多少是由于子鼠可以只与较少的兄弟姐妹竞争?
赖特通过绘制路径图回答了这个问题。如图2.8所示,X代表幼鼠的出生体重。Q和P代表出生体重的两个已知原因:妊娠时长(P)和产前子鼠在母鼠子宫内的生长速率(Q)。L代表同窝产仔数,同时影响P和Q(较多的同窝产仔数会导致子鼠生长缓慢,其待在子宫内的天数也会相应减少)。我们可以测量每只豚鼠的X、P和L,但无法测量Q,这一点非常重要。最后,A和C是我们无法获得任何数据的外因(例如与同窝产仔数无关的影响产前子鼠生长速率和妊娠时长的遗传及环境因素)。还有一个重要假设是这些因素相互独立,这一假设在图中由它们彼此之间没有任何箭头也没有任何共同的祖先节点所明示。
图2.8 豚鼠出生体重示例的因果图(路径图)
现在,赖特面临的问题是:“妊娠时长P对于出生体重X的直接效应是什么?”此前得到的数据(子鼠每天增加5.66克体重)并不能告诉你这一直接效应,它告诉你的是一个包含由同窝产仔数L带来的偏倚的总的相关性。为了得到直接效应,我们需要消除这个偏倚。
在图2.8中,直接效应由路径系数p表示,对应于路径P→X。同窝产仔数所引起的偏倚对应于路径P←L→Q→X。现在让我们展示一个代数魔法?[7]??:偏倚的大小等于其所涉路径沿途的路径系数的乘积(换言之,其值为l×l'×q)。如此一来,总的相关性就是两条路径的路径系数之和:用代数表示就是,p+l×l删除因果关系,那么剩下的就只有数据约简了。
虽然克洛没有提到,但赖特的传记作者威廉姆·普罗文指出了另一个可能造成路径分析不受欢迎的因素。20世纪30年代中期以来,费舍尔一直将赖特视为自己的敌人。我在前文曾引用过尤尔的话,其中提到如果有学者不赞同皮尔逊的观点,他们的关系就会立即紧张起来,而批评皮尔逊的观点就更不用说了。同样的说辞也适用于费舍尔。他与任何与其意见相左的人都有过激烈的辩论,这些人包括皮尔逊、皮尔逊的儿子埃贡、耶日·奈曼(我们将在第八章中谈到更多关于后两个人的事迹),当然还有赖特。