在刘易斯的著作出版的一年之后,唐纳德·鲁宾(见图8.2)开始独立撰写一系列论文,将潜在结果作为一种回答因果问题的语言加以介绍。那时,鲁宾还是教育考试服务中心的一位统计学家,他单枪匹马地打破了75年来统计学界对因果关系问题避而不谈的局面。在许多健康学专家的心中,反事实概念就此实现了合法化。可以说,这一理论成果的重要性怎么强调都不过分。它为研究人员提供了一种高度灵活的语言,使其可以在总体和个体层面上表述出几乎所有他们想问的因果问题。
图8.2 2014年,唐纳德·鲁宾(右)与本书第一作者(资料来源:照片由格雷斯·铉·金提供)
在鲁宾的因果模型中,变量Y的一个潜在结果就是“假如X的值为x,那么Y在个体u上的取值”。语言描述比较啰唆,为方便起见,我们将这个量简写为YX=x?(u)。如果从上下文中我们可以很明显地看出哪个变量被赋值为x,则我们通常会将这个表达式进一步缩写为Yx?(u)。
为了体会这种表示方法的大胆创新,你需要先退后一步,暂时放下符号,思考一下它们所体现的假设。通过写下符号Yx?,鲁宾想要表明的是,假如X的值为x,那么变量Y一定会取某个与之相对应的值,其客观存在性与Y在现实中实际取的值相当。如果你不认可这个假设(我很确定海森堡就不认可这个假设),你就不能使用这一潜在结果。另外还需要注意,潜在结果,或反事实,是在个体层面而非总体层面上定义的。
潜在结果作为科学概念的首次亮相出自耶日·奈曼的硕士论文(写于1923年)。奈曼是波兰贵族的后裔,幼时被流放到俄国并在那里长大,直到1921年他27岁时才回到故乡。他在俄罗斯接受了很好的数学教育,并希望回到波兰继续纯数学方面的研究,但对他来说,做统计研究更容易找到工作。和英国的费舍尔一样,他的第一项统计学研究是在一所农业研究所进行的,他的能力远远超过了这份工作的要求。他不仅是研究所唯一的统计员,而且是这个国家唯一把统计学当作一门学科进行专门研究的人。
奈曼在一个农业试验的背景下第一次提出了潜在结果这个概念,其下标记号代表“各个地块上(给定种子)的第i个品种的未知潜在产量”。直到1990年,这篇论文才被翻译成英语并为世人所知。不过,奈曼本人并非如这篇论文一样默默无闻。他曾在伦敦大学学院卡尔·皮尔逊的统计实验室里待了一年,在那里他和皮尔逊的儿子埃贡成了朋友。两人在接下来的7年里一直保持联系,他们的合作研究取得了巨大的成功:奈曼—皮尔逊统计假设检验法的发明成为统计学领域的一个里程碑,是每一个统计学初学者都要学习的内容。
1933年,卡尔·皮尔逊在统计学界多年的专制领导随着他的退休结束了。若非因为当时英国最著名的统计学家费舍尔提出了奇异值问题,埃贡本该顺理成章地成为皮尔逊的继承人。当时,伦敦大学学院不知出于何种原因提出了一个堪称灾难的解决方案,将皮尔逊的职位分割为统计学教授(由埃贡·皮尔逊担任)和优生学教授(由费舍尔担任)。埃贡在上任后立即聘用了他的波兰朋友。奈曼于1934年抵达伦敦,几乎是一到学校就与费舍尔发生了争执。
费舍尔早就准备好打这一仗了。他知道他是世界上首屈一指的统计学家,这一学科当时的主要研究方法和课题几乎都是他提出来的,然而学院却没有让他教授统计学课程。两人的关系格外紧张。“大家小心翼翼地共用着公共休息室,”康斯坦丝·瑞德在她为奈曼写的传记中写道,“埃贡小组的下午茶时间是下午4点;当他们全部离开后,费舍尔和他的团队才会进入休息室,在4点30分开始享受他们的下午茶时间。”
1935年,奈曼在皇家统计学会上发表了题为“农业试验中的统计问题”的演讲,他对费舍尔的一些方法提出了质疑,顺带着讨论了潜在结果这个概念。奈曼的演讲结束后,费舍尔立即站起身来对学会的成员说:“希望奈曼博士先搞清楚自己研究的问题再来发表长篇大论。”
“(奈曼)认定费舍尔是错误的,”多年后,奥斯卡·肯普索恩曾谈起这一事件,“这是一个不可原谅的冒犯——费舍尔从来没有错过,事实上,连暗示他可能出了错也会被他视为严重的攻击。任何不将费舍尔的著作视作真理或圣旨的人,都会被认为要么愚蠢,要么邪恶。”那次演讲的几天后,奈曼和皮尔逊就见识到了费舍尔有多愤怒,当晚他们去系里时,奈曼发现他在演讲中展示的木制模型被彻底毁了,零件散落得满地都是。他们两人一致推测,只有费舍尔才可能做出这样的事。
虽然现在看来费舍尔的愤怒表现得有些可笑,但在当时,他的傲慢的确带来了严重的后果。他当然咽不下那口气使用奈曼的潜在结果记号,即使这有助于他解决他后来遇到的中介问题。而缺乏关于潜在结果的词汇导致了他和后来的许多人纷纷陷入所谓的“中介谬误”(mediation fallacy),我们将在第九章对此加以详细讨论。
此刻,有些读者可能依然认为反事实的概念很神秘,因此接下来,我将介绍鲁宾的追随者是如何推断出潜在结果的,并将拿这个无模型方法与结构因果模型方法进行对比。