代表性
人们考虑的许多概率问题都包含在以下某个类型当中:物体A属于类别B的概率是多少?事件A起源于过程B的概率是多少?过程B引起事件A的概率是多少?人们在回答这些问题时,会典型地依赖于代表性启发法,即通过用A来代表B,也就是通过比较B与A的相似程度来对概率进行评估。例如,如果A能高度代表B,人们就会认为A源自B的概率高。但如果A与B并不相似,人们就会认为A源自B的概率低。
若想通过代表性对判断进行阐述,请考虑下面这个情况,若有某个人被他原来的邻居描述为:“史蒂夫非常腼腆,少言寡语,很乐于助人,却对他人或这个现实世界没多大兴趣。他谦恭有礼,做事井井有条,中规中矩,关注细节。”人们如何从一个可能的职业列表中(例如农民、售货员、飞行员、图书管理员或是医生)评估他从事某个特定职业的概率?又如何根据可能性的大小来将这些职业进行排序呢?在代表性启发法中,例如,史蒂夫是个图书管理员的概率是通过其与典型的图书管理员形象的代表性或相似性来进行评估的。事实上,对于这类问题的研究已经表明,人们对职业概率的排序与对职业相似性的排序方法完全是相同的。而这种关于概率的判断方法会导致严重的错误,因为相似性或代表性不会受到某些因素的影响,而这些因素却能影响对概率的判断。
对结果的先验概率(prior probability)不敏感。对代表性没有任何影响而对概率有重要影响的其中一个因素是结果的先验概率,或基础比率。例如,在史蒂夫的那个例子中,在我们作出史蒂夫是个图书管理员而不是农民的理性评估时,是应该将农民比图书管理员人数更多的事实考虑在内的。然而,对基础比率的考虑并不会影响史蒂夫与图书管理员以及农民的典型形象的相似性。因此,如果人们通过代表性来评估概率,先验概率就会被忽视掉。我们在运用了先验概率的实验中检验了这个假设。在实验中,我们向受试者简要概述了几个人的性格,这几个人是从100位工程师及律师的样本中随意抽取出来的。而受试者需要通过对每个人的描述来评估其是工程师还是律师。在某个实验情境中,受试者被告知这些被描述的100人中,有70位工程师、30位律师。而在另一个实验情境中,受试者被告知这100人中,有30位工程师、70位律师。在第一种情境下,受试者判断任意一个描述是关于工程师的而不是关于律师的概率都应该高于第二种实验情境。因为第一种情境中工程师更多,第二种情境中律师更多。值得注意的是,我们通过贝叶斯定理还能知道每个描述的概率比率应该是(0.7、0.3)2,或是5.44。然而,这些受试者在这两个实验情境中都得出了同样的概率判断,这严重违反了贝叶斯定理。很明显,受试者认为某个特定的描述是在说工程师而非律师是通过描述对于这两个典型职业的代表程度而来的,而很少或根本就不考虑其所属类别的先验概率。
当这些受试者没有其他信息来源时,他们会正确地利用先验概率。在没有人物描述的情况下,受试者判断某个人是工程师或律师的概率分别是0.7和0.3,这与基础比率正好符合。然而,当某个描述存在,就算这个描述没有任何信息,先验概率还是会被彻底忽略掉。对于以下描述的回应就阐明了这个现象:
迪克是位30岁的男性,已婚,但无子女。他能力强,干劲足,承诺一定要在自己的领域功成名就。他很受同事的欢迎。
这个描述所传达的信息与迪克是工程师还是律师的问题完全没有关系。因此,迪克是工程师的概率应该与工程师占样本总人数的比率相同,就如同我们没有得到任何有关迪克的描述时一样。然而,受试者却将迪克是工程师的概率判断为0.5,并不关注工程师占总人数的比率是0.7还是0.3。很明显,在没有任何证据和得到了一些无用的证据之后,人们的回应是不同的。在没有任何特定证据的情况下,先验概率能够被合理地应用;而在得知一些无用证据的情况下,先验概率就会被忽略。
对样本大小的不敏感。在某个指定大小的样本中,评估获得某个特定结果的概率时,人们总会应用代表性启发法。即他们会通过某个样本结果与相关参数的相似性来评估这个结果的概率。例如,人们会认为随机抽取的10位男性的平均身高是6英尺,而这个结果就是由与相应参数(这个参数即是男性人口的平均身高)的相似性得来的。某个样本的统计数据与人口参数的相似性并不是由样本的大小来决定的。其结果就是,如果我们通过代表性来评估概率,判断出的某个样本的统计数据实质上就是独立于样本大小的。的确,当受试者评估大小不同样本的平均身高分布时,他们得出的分布是相同的。例如,人们在评估平均高度高于6英尺的概率时,无论样本大小是1000、100还是10位时,其得出的分布都是相同的。另外,即使样本大小的重要性在问题形成之时就被强调过,受试者还是不能体会其所起的作用。请考虑下面的问题:
某个城镇有两家医院。在较大的那家医院里,每天大约有45个婴儿降生,而在较小的医院里,每天有15个婴儿降生。如你所知,其中50%的婴儿应该是男婴。然而,男婴实际的百分比每天都会有所变化,有时会高于50%,有时会低于50%。
在一年的时间里,每家医院都记录了新生婴儿中男婴比率大于60%的天数。你认为,哪一家医院记录的天数更多?
更大的医院:(21)
更小的医院:(21)
大致相同:其天数的不同在5%的范围内,(53)
括号中的数值表示的是选择该答案的大学生人数。
无论是大医院还是小医院,多数受试者判断出的60%以上新生儿是男婴的概率都是相同的。这可能是因为这些事件都来自于同样的统计资料提供的描述,因此关于总体情况的代表性相同。相反,以样本理论进行分析的话,在小医院里,超过60%的婴儿是男婴的天数肯定应该比大医院的多,因为大样本的男女比率不太可能偏离50%。很明显,这个统计学的基本概念与人类的直觉不相符。
在对后验概率(即从一个整体而不是另一个整体中抽取样本的概率)的判断中,人们对样本大小的问题也不是很敏感。
请考虑下面这个例子:
想象有个装满球的罐子,其中有三分之二的球是一种颜色,三分之一的球是另一种颜色。某个人从罐子里取出了5个球,发现有4个是红色的,1个是白色的。另一个人取出了20个球,其中有12个是红色的,8个是白色的。这两个人中,谁更会认为罐子里三分之二的球是红色的,三分之一的球是白色的?每个人给出的概率各是多少?
在这个问题中,假设两次抽取的先验概率相同,那对于4:1的那个样本来说,其正确的后验概率应为8:1;而对于12:8的样本来说,其后验概率为16:1。然而,大多数人却认为第一个样本为罐子里主要是红球的这个假设提供了更为有力的证据,因为第一个样本的红球比例要比第二个样本的高。这再次证明了,直觉性判断由样本比例主导,本质上并不受样本大小的影响。然而,样本大小却对实际的后验概率起着至关重要的作用。此外,对后验概率的直觉性评估比起正确的值来说并没有那么极端。在这类对概率的评估中,低估证据的影响反复出现。这种情况被称为“保守主义”。
误解机会。人们期望由随机过程产生的事件序列能够代表这个过程的基本特征,即使这个序列很短。例如,人们在考虑抛硬币看正反面的问题时,总会觉得其顺序更可能是正,反,正,反,反,正,而不是正,正,正,反,反,反,因为后者并不能体现出抛硬币的公正性。因此,人们期望过程的基本特征不仅表现在整个序列中,还表现在局部的序列中。然而,局部代表的序列系统地脱离了概率的期望:因为局部代表的序列中选择很多,但可供选择的项却很少。抱有局部代表性这个想法的另一个后果就是有名的赌徒谬误。例如,在看到轮盘赌的指针长时间连续指向红色以后,大多数人就会错误地认为现在该是指向黑色的时候了。这是因为,相比再次出现红色,出现黑色会使序列更具代表性。人们普遍将概率视为可进行自我纠正的过程。在这个过程中,某个方向的偏离能引起其相反方向的偏离,以达到恢复平衡的目的。事实上,在概率的结果揭晓之时,偏离并不是被“纠正”了,而只是融为一体了。
不只是天真的受试者才会误解概率。一项关于统计直觉的研究以有经验的心理学家为受试者,揭示了人们长期抱有的“小数法则”这一信念。这些受试者认为,他们抽取的样本即使很小,也具有很强的代表性。他们这样的回应反映了一个有效的假设:某个具有统计意义的样本结果可以代表样本所属的整个群体的性质,这与样本大小并无关联。因此,研究人员过于信任小样本的结果,高估了这些结果的可复制性。在实际的研究中,这些偏见会导致研究人员选择的样本不够大,并对仅有的发现作过多的阐释。
对可预测性的不敏感。有时,人们需要作一些数值上的预测,例如,预测某只股票的走势、某种商品的需求量或是某场球赛的最后比分。这样的预测经常是通过代表性作出的。例如,假设有个人在听了关于某家公司的描述之后,需要预测这家公司的未来收益。那么,如果这个人听到的描述是正面的,他就会预测这家公司将有非常高的收益,因为高收益最能代表那个描述;如果描述是普通的,这个人就会觉得公司的表现也会很普通。描述的好坏程度并不受该描述的可信程度以及精确程度的影响。因此,如果人们仅仅依靠描述的好坏来预测,那么他们的预测就会对证据的可靠性和预测的预期精确度不敏感。
这种判断模式违反了标准的统计理论。在标准的统计理论中,出于对可预测性的考虑,极端和预测范围受到了控制。当某件事的可预测性为零时,该预测的结果在任何情况下都应该是相同的。例如,如果在一些公司的描述中,没有听到有关其收益的信息,那么对所有这些公司未来收益的预测都应该是相同的。当然,如果某件事的可预测性非常高,那么预测值就会符合实际值,预测的范围也会等同于实际结果的范围。总之,可预测性越高,预测值的范围就会越广。
一些关于数值预测的研究表明:直觉性预测违反了这条规则,因为受试者很少甚至没有考虑过可预测性的问题。在其中一项研究里,受试者看了几段文字,每段文字都描述了一位实习老师在特定实习课上的表现。一些受试者需要根据那几段文字描述以百分制来评价特定总体的课堂质量,其他受试者则需要预测这些实习老师在5年以后的成就,同样要以百分制来打分。这两种情况下作的判断是相同的,即预测某一未来事件(老师在5年以后的成就)与评估当前事件所依据的信息(实习课的课堂质量)是相同的。作这些预测的人肯定也意识到了用某位老师5年以前的实习课来预测她的教学能力过于局限。不过,他们的预测与评估一样极端。
效度错觉。前面已经介绍过,人们常会挑选输入信息(例如对某个人的描述)中最具代表性的特点(例如职业)来进行预测。他们在预测时的自信程度主要取决于相关信息代表性的高低(即所选特点与输入信息的吻合程度),与限制预测准确性的因素关系不大。因此,人们在听到与图书管理员的典型形象相符合的性格描述后,就会极有自信地作出所描述的人就是一个图书管理员的预测,即使这个描述是片面的、不可靠的或是过时的。由于预测特点与输入信息非常吻合而产生的没有保证的自信就被称为效度错觉。即使当判断者意识到限制其预测准确性的因素时,这种错觉仍然存在。许多文献已经证实:甄选面谈的出错率很高,但即使心理学家知道这一点,在甄选面谈时,他们还是常会在预测中表现出很大的自信。尽管不断有证据表明甄选面谈是不恰当的,但临床上仍然持续依赖这种访谈方式,这也充分说明了效度错觉强大的影响力。
预测需要依靠输入,而输入模式的内部一致性就是决定人们在预测时自信程度的主要因素。例如,相比某个在一年级得了许多A但也得了许多C的学生来说,人们在预测一年级得了许多B的学生的平均绩点时会更有自信。高度一致的模式最常出现在输入变量过多或相关度高的时候。然而,相关统计学的结果证实,若规定了输入变量的效度,基于几个这种输入的预测会比输入过多或相关情况下的准确性高。因此,输入变量过多虽然可以增加自信程度,但却会降低预测的准确性。而人们在预测时所抱持的信心常会超出他们的能力范围。
误解回归性。假设让一群儿童做两套等效的能力测试题。如果你挑选出了在其中一套能力测试题中表现最好的10个人,那么他们在另一套测试中的表现通常会让你失望。相反,如果你挑选的是在其中一套能力测试中表现最差的10个人,你就会发现,他们在下一次测试中平均都比前一次测试表现得好。一般来说,假设变量X和Y有相同的分布。如果你挑选的X的平均分数偏离了X的均值K个单位,那么,Y的平均分通常偏离Y的均值的程度就会少于K个单位。这些观察表明了一个普遍的现象,即回归平均值现象。这个现象是高尔顿在100年前首次证明的。
在正常的生命过程中,你会遇到许多回归平均值的例子。例如,在比较父亲与儿子的身高,丈夫与妻子的智力水平或是某个人连续测试的不同表现时。不过,人们没能对此现象产生正确的直觉。首先,人们不能预料一些肯定会发生回归平均值的情境。其次,当他们辨别出回归平均值的发生时,总会捏造出虚假的因果解释。有这样一个信念:预测结果应该最大程度代表输入信息,因此,结果变量的值也应与输入变量的值一样极端。我们提出,回归平均值的现象之所以难以掌握就是因为与上述信念不相容。
未能意识到回归平均值的重要性将会带来严重的后果。下面这个例子就说明了这一点:在一次关于飞行训练的讨论中,有经验的指导员注意到,若赞扬某位飞行员着陆非常平稳,该飞行员下一次着陆就会表现得糟糕;若某位飞行员着陆较差,该飞行员下一次着陆就会有很大进步。这些指导员总结道,口头表扬对学习是有害的,而口头批评却大有益处,这与广为接受的心理学定律相左。由于回归平均值的存在,这个结论是没有根据的。就像其他重复的测试一样,每次表现糟糕以后总会有进步,而表现优异以后又总会变得糟糕,即使指导员没有对学员的第一次表现给予任何回应。指导员形成了惩罚比奖赏更有效这个错误且有潜在危害的结论,因为他们正好在着陆表现优异后表扬了这些学员,在着陆表现糟糕后批评了这些学员。
因此,未能理解回归效应会导致人们高估惩罚的有效性,低估奖赏的有效性。无论是在社会交往中,还是在训练中,表现得好都会有奖赏,表现得差也都会有惩罚。因此,行为最有可能在惩罚之后得到改进,在奖赏之后变得更坏,这其实就是一种回归现象。其结果就是:人们碰巧因为惩罚他人得到了奖赏,因为奖赏他人得到了惩罚。然而,人们通常不会意识到这种偶然性。事实上,难以掌握回归性主要是因为奖赏与惩罚带来的结果非常明显,因此,这个领域的学者也没有注意到它。