请记住这个日子。1877年,高尔顿致力于寻求一个因果解释,并认为向均值回归是一个因果过程,就像物理定律一样。他错了,但他的错误绝非个例。时至今日,许多人仍在继续犯着同样的错误。例如,棒球专家总是试图寻找球员遭遇新秀墙的因果解释。他们会抱怨,“他变得过度自信了”,或者“其他球员搞清楚了他的弱点”。他们也许是对的,但新秀墙实际上并不需要一个因果解释,这种现象单凭概率规则就足以解释了。
现代统计学的解释很简单。正如丹尼尔·卡尼曼在他的著作《思考,快与慢》中总结的:“成功=天赋+运气,巨大的成功=更多的天赋+更多的运气。”一个赢得年度最佳新秀奖的球员可能的确比一般人更有才华,但他(更)可能也有很多的运气。在下个赛季,他可能就没有那么幸运了,他的平均击球率也会因此下降。
到1889年,高尔顿已想通了这一点。在此过程中,他在统计学脱离因果关系的路上迈出了第一大步。这既让人失望,也令人着迷。他的推理过程是微妙而晦涩的,但值得我们付出努力去理解。这是作为新生学科的统计学发出的第一声啼哭。
高尔顿开始收集各种“人体测量”方面的统计数据:身高、前臂长度、头部长度、头部宽度等。他注意到,譬如当他根据前臂长度计算身高时,同样的向均值回归的现象又出现了:高个子男性通常有长度大于均值的前臂,但又不会像他的身高那样远高于均值。显然,身高不是前臂长度的因,反之亦然。如果存在一个原因的话,那么应该说二者都是由基因遗传决定的。高尔顿开始使用一个新的词来描述这种关系:身高和前臂长度是“共同相关的”(co-related)。之后,他又将这个词简化为一个更普通的英语单词——“相关的”(correlated)。
后来,他又意识到一个更令人吃惊的事实:在进行代际比较时,向均值回归的时间顺序可以逆转。也就是说,子辈的父辈的遗传特征情况也会回归到均值。即儿子的身高若高于均值,则其父亲的身高很可能也高于均值,但往往父亲要比儿子矮(见图2.2)。在意识到这一点时,高尔顿不得不放弃了寻找向均值回归的因果解释的任何想法,因为子辈的身高显然不可能是父辈身高的因。
图2.2 散点图显示了有关身高的数据集,每个点代表的是父亲的身高(x轴)和他儿子的身高(y轴)的组合。虚线与椭圆的主轴重合,而实线(我们称其为回归线)连接了椭圆最右边和最左边的点。二者之间的差异就是向均值回归的体现。例如,椭圆中的黑色星号显示,父辈身高为72英寸,则其子辈平均身高为71英寸,即图中垂直框中所有数据点的平均值为71英寸。水平框和白色星号显示的是在非因果方向(时间逆转方向)存在同样的身高损失现象(资料来源:马雅·哈雷尔绘图,克里斯托弗·布歇供稿)
这种认识乍听起来可能自相矛盾。你可能要问:“等等!你是说,高个子的父亲通常有相较他们自己而言较矮的儿子,并且同时,高个子的儿子通常有相较他们自己而言较矮的父亲——这两种说法怎么可能同时为真?儿子怎么可能既比父亲高,又比父亲矮?”
答案是,我们谈论的并不是个体的父亲和个体的儿子,而是父辈和子辈两个总体。我们从身高6英尺的父辈总体开始算起。因为他们的身高高于均值,所以他们儿子的身高将出现向均值回归的现象,我们姑且假设他们儿子的平均身高为5英尺11英寸。然而,由父辈身高为6英尺的父子组合构成的总体有别于由子辈身高为5英尺11英寸的父子组合构成的总体。第一组中,所有的父亲都是6英尺高。但第二组中,父亲身高超过6英尺的较少,大部分身高不到6英尺,他们的平均身高要低于5英尺11英寸,再次显示了向均值回归的趋势。
另一种解释向均值回归的方法是使用所谓的散点图(见图2.2)。每对父子组合都由一个点来表示,其中x坐标表示的是父亲的身高,y坐标表示的是儿子的身高。因而,父亲和儿子的身高均为5英尺9英寸(或69英寸)的组合可以由点(69,69)来表示,如图2.2所示,其位于散点图的中心。身高6英尺(或72英寸)的父亲和身高5英尺11英寸(或71英寸)的儿子的组合,则可以用点(72,71)表示,位于散点图的东北角。请注意,散点图的形状大致呈椭圆形,这一点对于高尔顿分析以及揭示两个变量的钟形分布特征而言至关重要。
如图2.2所示,父辈身高为72英寸的父子组合的点位于以72为中心的垂直框(或称“垂直切片”)内;子辈身高为71英寸的父子组合的点位于以71为中心的水平框(或称“水平切片”)内。通过观察可见,它们是两个不同的总体。如果只关注第一个总体,即父辈身高为72英寸的父子组合,我们可以问的问题是:其中子辈的平均身高是多少?这等于是在问垂直框的中心位置,通过观察可知其中心大约是71。如果只关注第二个总体,即子辈身高为71英寸的父子,我们可以问的问题是:其中父辈的平均身高是多少?这等于是在问水平框的中心位置,通过观察可知其中心大约是70.3。
我们可以更进一步考虑以同样的步骤分析每一个垂直框。这就相当于在问:对于身高为x的父辈,其子辈身高(y)的最佳预测是多少?或者,我们也可以取每个水平框,问它的中心在哪里,即对于身高为y的子辈,其父辈身高(x)的最佳“预测”(或倒推)是多少?
通过思考这个问题,高尔顿无意间发现了一个重要事实:预测总是落在一条直线上,他称这条直线为回归线,它比椭圆的主轴(或对称轴)的斜率小(见图2.3)。事实上,这样的直线有两条,我们选择哪条线作为回归线取决于我们要预测哪个变量而将哪个变量作为证据。你可以根据父亲的身高预测儿子的身高,或者根据儿子的身高“预测”父亲的身高,这两种情况是完全对称的。这再次表明,对于向均值回归这一现象,因和果是没有区别的。
图2.3 高尔顿回归直线。图中横轴显示的是子辈身高及偏差值,纵轴显示了“中亲”(mid-parents)?[5]??的身高及偏差值。如果你知道父亲的身高,则直线OM将为你提供其儿子身高的最佳预测;如果你知道儿子的身高,则直线ON将为你提供其父亲身高的最佳预测。这两条直线都不同于散点图中的主轴(对称轴)(资料来源:弗朗西斯·高尔顿,《大不列颠和爱尔兰人类学学院学报》,1886,第246–263页,插图X)
在已知一个变量的值的情况下,回归斜率能让你预测另一个变量的值。在高尔顿的父子身高问题中,0.5的回归斜率意味着父亲的身高每增加1英寸,相应地,儿子的平均身高就增加0.5英寸,反之亦然。回归斜率为1表示两个变量呈完全相关,这意味着父亲每增高1英寸,这一变化都能完全地传递给儿子,使其平均身高增加1英寸。回归斜率不可能大于1,否则高个子父亲的儿子其身高会进一步高于平均值,矮个子父亲的儿子其身高会进一步低于平均值,这将使得身高分布随时间的推移而变宽。这样一来,几代后可能就会出现身高9英尺的人和身高2英尺的人了,而这与现实并不相符。因此,只要身高分布在世代相传中保持不变,回归线的斜率就不能大于1。
即使我们将两个不同类别的量关联起来,如身高和智力,回归定律依然适用。如果你在散点图中绘制这两个变量的数据点,并对坐标系进行适当的缩放,则关于两个变量之间关系的最佳拟合线的斜率总是具有相同的属性:只有当一个量可以准确地预测另一个量时,斜率才等于1;而若预测结果几乎等同于随机猜测,则斜率等于0。无论你是根据Y预测X,还是根据X预测Y,斜率(在对坐标系进行了适当缩放之后)都是相同的。换言之,斜率完全不涉及因果信息。一个变量可能是另一变量的因,或者它们都是第三个变量的果,而对于预测目标变量的值这一目的而言,这些并不重要。
高尔顿提出的相关性概念首次在不依赖于人的判断或解释的前提下以客观度量说明了两个变量是如何关联的。这两个变量可以是身高、智力或者收入,它们可以是因果的、相互独立的或反因果的关系。相关性总是能够反映出两个变量间相互可预测的程度。高尔顿的弟子卡尔·皮尔逊后来推导出了一个(经过适当调整的)回归线斜率公式,并称之为“相关系数”。时至今日,当我们想了解一个数据集中两个不同变量的关联有多强时,相关系数依然是全世界统计学家计算的第一个数值。找到这样一种通用的方式来描述随机变量之间的关系,高尔顿和皮尔逊一定曾为此激动不已。尤其是皮尔逊,在他的眼中,与相关系数这种在数学上清晰且精确的概念相比,那些关于因果的模糊而陈旧的概念似乎已经完全过时而丧失科学性了。