相关错误:高智商的女人嫁给笨男人
这本书的其中一个主题是由于我们在任何情况下,都急于去寻找因果关系,我们很难理清技术及运气在一项活动中各自的重要性。均值回归是统计学中的一个统计假象,我们的大脑总是迫不及待地想去探究这个理论。如果一个人的实力水平不变,那么回归均值则是因为活动自身存在的随机性(从个人的角度来看,就是运气不好)造成的。没有特别的原因,因此也不需要去做任何解释。
为了说明这一点,丹尼尔·卡尼曼分享了一个故事。他建议,要想开始一段有趣的对话,你可以让人们发表一下对如下这句话的看法:
高智商的女人往往会嫁给那些没自己聪明的男士。
他指出,看到这句话后,人们的第一反应往往是去阐释这句话背后的原因。人们常常会绞尽脑汁地去思考一个女人为什么会愿意或需要嫁给一个不如自己聪明的男人。人们还可能会在脑海里搜寻自己身边是否有哪对夫妇符合这句话描述的情况,在找到某对符合这一情况的夫妇后,便努力地去解释他们之所以能步入婚姻殿堂的原因。紧接着,卡尼曼又向大家介绍了第二句话,内容如下:
配偶之间在智商上的相关关系一点也不密切。
虽然第二句话说的是大实话,但听起来却乏味无趣。实际上,卡尼曼介绍的这两句话所要表达的意思是一样的,但是第一句话会促使你去思考这一现象背后的原因,而第二句话却显得有些生硬刻板、索然无味。当人们试图为某个特定的均值回归现象寻找理由时,一个并不真实存在的因果关系也就随之产生了。因为在现实生活中,人们会发现自己所坚持的因果关系其实根本不存在所谓的相关性。[4]
如果你对有些事情是没有确定的因果关系这一点仍然抱有异议,那么你可以这么想,无论如何,均值回归规律一直在发挥着作用。那些个头高大的父亲所生的儿子可能也很高大,但是孩子的身高会更接近于所有孩子的平均身高。同样,那些个头高大的孩子的父亲可能也身材高大,然而,父亲的身高更接近于所有父亲的平均身高。自然,众所周知,儿子个头高大不是造成父亲身材矮小的原因。然而,均值回归理论告诉我们,无论如何,儿子个头高大不构成父亲身材矮小的原因是正确的。这一事实摆在那里,不需要某个特定的原因来解释。
说到均值回归,人们还有第二个错误认识,与反馈相关。人们往往认为,在出现第一个结果后,自己提供的反馈信息或采取的行为调整策略促成了随后的积极变化。事实上,人们没有认识到,均值回归规律在发挥作用,并促成了结果的变化。我们可以举一个简单的例子来说明这一点。你的儿子带着考得一塌糊涂的数学成绩单回到家里,你严厉地批评了他,恐吓说成绩再考得一团糟,就不允许他以后再玩自己最喜欢的那款电子游戏了,并命令他以后要用功读书。这种情况下,他下次考试成绩会如何呢?均值回归规律指出,总体来讲,不管你说什么,在以后的考试中,他的成绩一定会更好。然而,在现实生活中,人们会误以为孩子的成绩之所以能提高,都是批评教育的功劳。
我们可以总结一下这个观点。如果你的孩子取得了好成绩,你夸奖了他,那么平均来说,你会发现,他的成绩会下降,而不是提高。你可能会因为这个现象而得出这个结论——夸奖鼓励是不好的,因为孩子会变得骄傲自满,松懈懒散。然而,均值回归规律指出,不管你说过什么,孩子的成绩终究是要回归均值的。正如我们刚说过的,你可能会误以为是自己的夸奖鼓励导致了孩子成绩下滑。在这种情况下,你很可能会认为,既然鼓励夸奖不行,那么消极的反馈一定会改善孩子的成绩。事实上,均值回归理论对孩子成绩变动这一现象的解释简单明了。这个事情给我们的启示是,对活动结果中那些原本在人们可控范围的部分要予以重点关注,并要注意总结这部分的经验和教训,而不要去管其他无法掌控的部分。
对反馈的错误认识常常会使医生犯迷糊。在临床实践中,医生常常会测量患者的体重、胆固醇浓度及血压,并从测量数据中判定患者是否有某种疾病或有患某种疾病的潜在危险。如果这三项检测中的任何一项数据是一个极值——比如血压高,那么医生很可能会根据具体情况做相关的治疗。就拿高血压来说吧,为了使你的血压达到正常水平,他们会给你开一剂降血压的药物。不可忽视的一个事实是,一般来说,不管治疗与否,在第一次就诊时,血压测量数据偏高的人群在第二次就诊时,血压总是趋向正常水平。受测量误差及个体的生物学差异的影响,同一个人在两次血压测试中的测试结果之间的相关关系不是很紧密。因此,不管采取什么治疗方案,均值回归都是必然的结果。然而,人们常常以为,个体的血压趋向正常水平都是做针对性治疗的结果,在某些情况下,针对性治疗确实对降低血压有一定的作用。问题是,对反馈的错误认识会使人们以为——针对性治疗是原因,血压降低是效果。[5]
高尔顿关于均值回归的论文《遗传身高趋向均值》曾经名噪一时。这个论文题目让人联想到一切事物趋向各自领域的平均水准的画面。这也就是人们的又一个错觉——方差减小。现实中,根本不存在这回事。就算前后两次结果概率分布的统计属性一样,均值回归的现象依然会出现。以均值回归的方式呈现的变化和以稳定分布呈现的稳定性可以同时出现,容易造成人们分析的失误。
在这里,我们可以回过头去看一下图10-1中清楚反映的均值回归情况。从图10-1中可以看出,与个头最高的父亲和个头最矮的父亲相比,个头最高的儿子与个头最矮的儿子的身高要更接近平均水准。有些人可能会据此认为,方差减小了。现在让我们看一看图10-2的情况吧。该图使用的数据与10-1相同。从图10-2中可以看出,孩子与父亲的身高分布曲线图在顶部有些微差异,但是在尾部却惊人相似。变差系数——标准偏差除以平均值——在两个概率分布曲线图中几乎一致。这也就是说,与父亲的身高情况相比,儿子身高的个体差异更大,趋向平均身高的状况也没有父辈那么明显。事实上,图10-1与图10-2显示的情况同样准确有效。从对两个图表的分析中,我们可以知道,个体的身高差异越来越明显,并没有趋向平均身高。[6]
如果你知道运气会影响概率分布图上的身高差异,那么你会更容易理解变化和稳定性。大家跟我一起回顾一下第三章中讲到的运气实力双罐模型吧。如果你每次从罐子里抽取小球时,罐子内小球的分布状况都不会改变,那么从长期来看,聚集分布状况也会类似,然而,极值在不同的时期还是会回归均值。让我们举例来说吧。假设虽然你的实力一般,但是在上次考试中还算走运,碰到的题目刚好是自己熟悉的,因此拿到了不错的成绩。相应地,在下次考试中,如果你没那么走运,你的成绩也会趋向于你的正常水平。相对而言,另一个基础也一般的学生在考试中运气不错,就可以填补频率分布图上你凑巧腾出的位置。
图10-2
父亲和儿子身高频率分布图
来源:数据来自卡尔·皮尔逊和爱丽丝·李合写的书籍《人类遗传规律:1.身体特征的遗传》,生物统计学第2卷,第4期(1903年11月):357-462页。
竞争性市场的一个原则是超额收益在竞争中逐渐消失殆尽。如果一家公司从自己的投入资本中赚取了20%的利润,并且机会成本(测量最低期望收益或如果你拿着投入资本做其他事情所期望获取多少回报的一种方式)为投入资本的10%,那么这家公司就会吸引外界的竞争。有着相同机会成本的竞争对手或许愿意以更低的价格出售产品或提供服务,并且从中获取15%的利润回报。因为利润回报依然高于机会成本,于是,就会有其他竞争对手愿意进一步降价,从中获取12%的利润。依此类推,最终,从理论上来说,所有的竞争者获取的利润回报都只可能等于机会成本。这一过程看起来与均值回归现象有点像,只不过,在这里,均值是资金的机会成本。
1933年,美国西北大学的统计学家霍雷斯·塞克里斯特写了一本名为《商业中平庸的胜利》的书。这本书共有468页,里面包括140个表格及100多个图表。塞克里斯特的研究非常细致入微,他在研究中得出的结论也与竞争性市场的原则一致:“在竞争性商业活动中,平庸往往会占据上风。”他也意识到高尔顿的重大贡献,在书中引用了高尔顿的话语来阐释自己的结论:“成本和利润都趋向于平均数,或者用弗朗西斯·高尔顿先生的话来说,就是‘回归到某个典型模式’。”霍雷思解释说:“在存在竞争的市场里,非均匀性往往为同质性所取代。有利的条件和不利的条件不断被削弱——均衡化一直在进行中。”[7]
图10-3显示了塞克里斯特创制的图表类型的现代版本。从图中可以看到,在针对1000多家公司的样本分析中,介于投资收益及资本成本之间的中位数在截止到2010年的过去十年里回到了五分位数,出现均值回归的现象。尽管收益没有跌至资本成本的水平或是塞克里斯特所说的“均衡化”水平,在2010年的离差远远小于在2000年的离差。
图10-3
企业投入资本的回报呈现回归均值的倾向
(2000~2010)
来源:作者分析
塞克里斯特的研究结论——结果趋向平均值——是导致人们产生方差减小错觉的一个著名例子。正如我们已经知道的,均值回归并不代表结果都会趋向平均水平。只要各个年份之间在投资收益上的相关关系不密切,那么回归均值就是一种必然会出现的现象。变差系数(标准偏差除以平均值)显示——从长期来看,用投入资本的回报来衡量的企业绩效的频率分布基本保持一致。
世界知名的经济学家们普遍容易犯这个错误——凭借均值回归理论得出方差会减小的结论。1976年获得诺贝尔经济学奖的米尔顿·弗里德曼还曾经就此写过一篇文章。在提到一本由几名知名经济学家合著的书籍及该书的评论者时,他写道:“让我吃惊的是,虽然这本书的几个作者和该书的评论者都是举世闻名的经济学家,对现代统计方法也了如指掌,他们居然没有意识到自己的回归谬误(因没有考虑统计学上随机起落的回归现象,造成不恰当的因果推理)。”[8]
我说了这么多,并不是说从长期来看,结果不会出现方差下降的现象。方差减小是实力悖论背后的核心理念。然而不能因为你发现了均值回归的规律,就想当然地以为结果都会趋向平均水平。你必须仔细分辨系统发生的变化与系统内部的变化之间的区别。我们容易混淆这两种变化形式。
弗朗西斯·高尔顿认识到,相互关系和均值回归是同一个理念的两种解释。这对分清实力和运气在一项活动中各自的权重十分关键。两个变量之间的相关系数决定均值回归的比率,也可以为我们做预测时提供重要的指导信息。