费舍尔和赖特之间争论的真正焦点不是路径分析而是进化生物学。费舍尔不同意赖特的理论(“基因漂变”理论),即一个物种在经历了种群瓶颈期后会迅速进化。这场争论的细节超出了本书的讨论范围,感兴趣的读者可以查阅普罗文的著作。与本书主题相关的部分是:从20世纪20年代到50年代,科学界的大部分人都把费舍尔视作统计学领域的权威。而我们可以肯定的是,费舍尔从未对任何人说过关于路径分析的半句好话。
20世纪60年代,事情开始发生变化。一群社会学家,包括奥蒂斯·邓肯、休伯特·布莱洛克,以及经济学家亚瑟·戈德伯格,重新发现了路径分析,将其视作预测社会政策和教育政策实施效果的有效方法。历史上另一个颇具讽刺意味的事件是,1947年,赖特曾受邀向“考利斯委员会”中一群颇具影响力的计量经济学家发表演讲,但他没能完成向他们传达路径图究竟可以做什么用这一使命。只有当这些计量经济学家自己也产生类似的想法时,他们才能与这种方法建立起短暂的联系。
路径分析在经济学和社会学中有着不同的命运轨迹,但两者最终都走向了对赖特思想的背叛。社会学家将路径分析改名为结构方程建模(structural equation modeling,简称SEM),他们接纳了其中的图形表示法,并将其广泛应用于各类研究——直到1970年,一个叫作“LISREL”(线性结构关系模型)的计算机程序包被开发出来,用于自动计算(某些情境下的)路径系数。赖特很可能预测到了接下来发生的事:路径分析变成了一种生搬硬套的方法,研究者则变成了软件使用者,对后台发生的事情全无兴趣。20世纪80年代末,统计学家大卫·弗里德曼对解释结构方程模型背后的假设提出了公开挑战,而无人能够做出有效回应,一些顶尖的结构方程模型专家甚至拒绝承认结构方程模型与因果论存在任何联系。
在经济学领域,路径分析的代数部分演变为联立方程模型(simultaneous equation models,没有简称)。经济学家几乎完全舍弃了路径图,且时至今日依然如此,他们更多地借鉴了数值方程和矩阵代数方面的内容。这样做的一个可怕后果就是,由于代数方程是没有方向性的(x=y与y=x相同),经济学家也就无法利用符号表示法来区分因果关系和回归方程,因此即使在解出方程之后,他们仍然无法回答与估计策略效果有关的问题。直到1995年,大多数经济学家依然没能明确地赋予方程以因果意义或反事实意义。即使是那些利用结构方程来进行决策的人,也对图形表达法秉持着无可救药的怀疑态度,而不顾事实上图形表达法能够为他们节省一页纸又一页纸的计算量。受此传统观念的影响,一些经济学家直到今天仍然声称:“一切尽在数据之中。”
出于所有这些原因,直到20世纪90年代,路径图的科学使命才得到了部分实现。1983年,赖特本人又一次被召回学术圈为路径图辩护,这一次是在《美国人类遗传学杂志》(American Journal of Human Genetics?)上。写这篇文章的时候,赖特已经年过90。这篇文章的题目与他在1923年写的那篇文章的题目完全一样,因此阅读这篇文章让人悲喜参半。在科学史上,有幸在提出某理论的第一篇论文发表后的60年再次聆听这位理论开创者的讲述的机会能有几次?这就像1925年查尔斯·达尔文从坟墓里爬出来为斯科普斯猴子审判案做证一样。但这也是一种不幸,因为在这60年中,他的理论本该得到发展和壮大,而事实则是,自20世纪20年代以来,该理论几乎没有任何进展。
赖特撰写这篇论文的初衷是回应一篇对路径分析的批判文章。这一批判文章发表在同一本杂志上,是由塞缪尔·卡林(斯坦福大学数学家、1989年美国国家科学奖章获得者,为经济学和种群遗传学做出了非常重要的贡献)和两个共同作者撰写的,其中最值得我们关注的是卡林的两个论点。
首先,卡林反对路径分析,其给出的原因是尼尔斯没有提到的:路径分析假设路径图中任意两个变量之间的所有关系都是线性的。这个假设允许赖特用一个数字,即路径系数来描述因果关系。如果方程不是线性的,那么X中一个单位的变化对Y的影响就取决于X的当前值,而不能用一个固定的系数来表示。卡林和赖特都没有意识到,这一观点包含着一般非线性理论的萌芽。(在这场争论的三年后,我的实验室中的一位优秀的研究者,托马斯·维尔玛,创建了这一理论。)
而卡林最值得关注的批评,也是他自己认为最重要的一条:“……最终,综合各方面的因素考虑,我们认为最有效的做法是采用一种无模型的方法,借助一系列的展示、指标和对比来交互地理解数据。该方法强调了在解释结果时‘稳健性’这一概念的重要性。”卡林的这句话清楚地显示了自皮尔逊时代以来统计学界的观念变化是多么微乎其微,以及皮尔逊思想的影响之巨直到1983年仍不减其威。卡林表达的是,数据本身就已经包含了所有的科学智慧,只需要(通过“展示、指标和对比”)对其进行稍加打磨,数据便会吐出那些智慧的珍珠。我们的分析不需要考虑数据生成的过程。使用“无模型方法”,我们也能做得一样好,甚至更好。如果皮尔逊今天依然健在,生活在我们现在这个大数据的时代,他一定会说:答案都在数据之中。
显然,卡林的说法违背了我们在第一章学到的所有内容。在谈论因果关系时,我们必须有一个关于真实世界的心理模型。“无模型方法”也许能把我们带到因果关系之梯的第一层级,但肯定不会让我们走得更远。
值得称赞的是,赖特意识到了“无模型方法”中蕴藏的巨大风险,并以明确的措辞指出:“卡林等人将无模型方法作为首选的替代方案……他们所要求的不仅是方法的改变,还包括放弃路径分析的本来目的,忽略对各种因的相对重要性的评估。因为没有模型,我们就不可能进行此类分析。对那些需要进行这种评估或分析的人,他们给出的建议就是:放弃吧,去做别的事情。”
赖特完全清楚他是在捍卫科学方法和数据解释的本质。在今天,我也想给大数据、无模型分析方法的爱好者提出同样的建议。当然,我们可以尽可能地梳理出数据所能提供的信息,但我们要问的是,这样做究竟能给我们带来多大的帮助。它永远无法让我们超越因果关系之梯的第一层级,也永远无法回答“各种因的相对重要性”这种简单的问题。让我们重复一遍伽利略的那句话:“但它仍在动!”