正如我已经提到的,只有一种情况会让科学家不再沉默,转而谈论因果论,这种情况就是他们已经进行了随机对照试验。你可以在维基百科或其他很多地方读到这句话:“随机对照试验通常被认为是临床试验的黄金标准。”对此,我们要感谢费舍尔。他的至亲曾写过一篇文章阐述费舍尔提出随机对照试验的理由,这篇文章读起来非常有趣,虽篇幅略长,但值得全文引用:
科学实验的全部艺术和实践都被一种对自然的巧妙询问囊括其中了。观察活动为科学家提供了关于大自然某些方面的图景,而其中包含着主动陈述所具有的全部瑕疵。科学家希望通过提出旨在建立因果关系的具体问题来检查对于该陈述的解释。他的问题以实验操作的形式出现,因而必然是特殊的。他必须依赖大自然的内在一致性,根据大自然在特定情况下给出的回答推导出一个一般性的推论,或预测在其他场合中进行类似操作的可能结果。他的目的是从所找到的证据中得出具有确定精度和概括性的有效结论。
然而,大自然远没有她表现出来的那么稳定,她给出的回答似乎总是显得摇摆不定、似是而非、模棱两可。她回答问题的方式就好像问题是从地里冒出来的,而非出自科学家在头脑中设定好的框架;她也不会做出解释,不提供任何无偿的信息,而是固守准确性。其结果是,希望借助实验操作比较两种肥料作用效果的科学家所付出的努力完全白费了。他把田地分成两等份儿,每一半施以一种肥料,种植一种庄稼,然后比较两块田地的产量。他的问题是这样表述的:地块A在接受第一种处理(施第一种肥料)下的产量与地块B在第二种处理(施第二种肥料)下的产量有何区别?他没有问,在相同的处理下,地块A与地块B是否会有相同的产量,因此他无法将土地本身的效应从处理效应中区分出来,因为自然不仅按照要求记录了不同的肥料对地块产量的影响,还记录了不同的土壤肥力、质地、排水性、地貌、微生物和无数其他变量对地块产量的影响。
这篇文章的作者是罗纳德·艾尔默·费舍尔的女儿琼·费舍尔·博克斯,文章出自她为她声名赫赫的父亲所写的传记。她并不是统计学家,但她显然深刻地把握住了统计学家面临的主要挑战。她毫不含糊地指出,他们提出的问题“旨在建立因果关系”,而阻碍他们的是混杂,虽然她并没有使用这个术语。他们想知道肥料(或那个时代所谓的“肥料处理”)的效应,即一种肥料相比另一种肥料对于土地预期产量的影响有何不同。然而,自然告诉他们,肥料的效应与很多其他的因混合(还记得吗,这是“混杂”一词的原始含义)在了一起。
我喜欢费舍尔·博克斯在上一段文字中给出的意象:自然就像一个精灵,她回答的正是我们提出的问题,但这个问题并不一定等同于我们真正打算问的那个问题。但我们必须相信,正如费舍尔·博克斯所做的那样,我们想问的问题的答案确实存在于自然界中。我们的实验是发现答案的粗略方法,它们并不能以任何方式明确定义那个答案。如果我们完全按照琼在这段文字中给出的比喻来做,那么我们首先要考虑的做法就是do(X=x),因为它是一种自然的属性,表示的正是我们想问的问题:使用第一种肥料对整片土地的影响是什么?随机化处理则是接下来才要考虑的做法,因为它只是为引出这个问题的答案而采取的一种人为手段。就像温度计的量规,量规只是一种表示温度的方法,而不是温度本身。
费舍尔早年在洛桑实验站工作时,常采用一种非常详尽的、系统的方法,用以将肥料的效用从其他变量的效用中分离出来。他将田地划分成一系列子块,并会进行一番仔细的规划以便每种肥料都能与某种特定的土壤类型和某种特定的农作物结合起来(见图4.3)。这样做的目的是确保样本的可比性。然而在现实中,他永远不可能准确预料到决定某一地块肥力的所有可能的混杂因子。聪明的自然精灵可以轻松打败对于一块田地的任何结构化的布局。
图4.3 费舍尔与他的诸多创新之一:拉丁方设计,旨在确保每行(肥料类型)和每列(土壤类型)中都有种植了全部农作物类型的地块。这类设计如今仍被用于现实实践中,但后来费舍尔令人信服地指出,还是随机设计更加有效(资料来源:由达科塔·哈尔绘制)
大约在1923年或1924年,费舍尔开始意识到,精灵不能击败的唯一一种实验设计就是随机试验。想象一下,在一块肥力未知的土地做100次同样的试验。每一次为所有的子地块随机分配肥料。有时你可能会非常不走运,把1号肥料全部用在了最贫瘠的那些子地块上。另一些时候,你可能运气很好,将1号肥料全部用在了最肥沃的那些子地块上。但无论如何,每一次试验都会产生一个新的随机分配,这就保证了在大部分的时间里你既不是特别幸运,也不是特别倒霉。在这些情况下,1号肥料将被用于能代表整块田地的一些子地块,而这正是你想要的对照试验。因为在你的一系列试验中,这块土地的肥力分布是固定的,即便是自然精灵也不能改变它,因此,(在大部分时间里)它就被哄骗着回答了那个你想问的因果问题。
从我们的角度来看,在随机试验被认为是黄金标准的时代,所有这些试验方法的发明似乎都是顺理成章的。但在当时,随机试验这一想法的提出吓坏了费舍尔的统计学同事。费舍尔所做的实际上就是用抽签的方式来决定分配给每种肥料哪些子地块,这种做法让他们备感沮丧:科学难道不得不屈从于运气的反复无常?
但是费舍尔意识到,得到对正确问题的不确定答案比得到对错误问题的高度确定的答案要好得多。如果你向自然精灵提出了一个错误的问题,那么你就永远不会得到你想知道的答案。如果你提出了正确的问题,那么偶尔得到一个错的答案就完全不成问题了。你可以估计出答案的不确定性,因为这种不确定性来自随机化的过程(这一过程是已知的)而不是土壤各个方面的特性(这一点是未知的)。
因此,随机化实际上带来了两个好处。第一,它消除了混杂偏倚(它向大自然提出了正确的问题)。第二,它使研究者能够量化不确定性。而根据史学家斯蒂芬·施蒂格勒的说法,第二个好处正是费舍尔提倡随机化的主要原因。他是量化不确定性的大师,为此研发出了许多新的数学工具。相比之下,他对去混杂的理解则完全是直觉性的,因为在当时,他缺乏相应的数学符号用以表达他所追求的东西。