现在讨论多样性对人类做出准确预测的帮助,也就是所谓的“群体的智慧”。许多人往往会在一些特定的情境中才会想到预测。例如,在看到天气变化时预测是不是会下雨,或讨论体育比赛结果时预测老虎伍兹能不能赢得比赛,但是预测其实是无所不在的。公司要预测销售额,大学要预测会有多少学生报考,政府要预测政策变化的影响。如果不能合理、准确地进行预测,社会就会无法正常运行。
许多人都倾向于认为,知情程度比较有限、知识水平不是太高的人组成的群体无法做出非常准确的预测。但是这种看法不一定正确。大量证据表明,多样性的人群往往可以预测得相当好。如果不是这样的话,又怎么能期望市场和民主制度能够很好地运转下去呢?说到底,股价难道不是一种预测吗?选举或公民投票难道不是一种预测吗,例如对政治家将会推出什么提案、全民投票将会推动什么政治力量上台的预测。
当然,价格的预测和投票结果的预测都不一定与市场和民主制度的实际结果完全一致,但是即便有所偏离,也不会太过离谱。否则,肯定会看到更加频繁的股市崩溃和更多的政治混乱。当然,也不能说股市崩溃和政治混乱完全不存在。它们确实也存在,但是并非特别广泛,不然也就等于实质上已经放弃了市场或民主制度。事实上,有人指出,以市场为基础的民主制度标志着“历史的终结”。
股票市场价格和大型选举结果都是大规模人群给出的预测。除了这些社会层面的预测之外,还在中小型团队的层面上进行大量的预测,例如陪审团、公司管理层、董事会、工资谈判小组以及院系员工,等等。在本章和下一章中将考虑许多但不是全部来自真实世界的例子,这些例子都是描述由相当多的人组成的群体是如何做出预测的。我们似乎觉得,1 000个人的群体做出的准确预测比3个人一起做出的准确预测更加令人惊异。而且,在群体规模达到了数千人甚至更多的情况下,内在逻辑仍然是一样的。群体预测依赖于平等个体的准确性和群体的多样性。也正是因为这个原因,这里也举了几个“不太现实”的、只包括几个人的例子。
在本章中,将考虑几种不同类型的信息集结模型,这些模型不是基于我们的框架。相反,这些信息集结模型是社会科学家构建的相关模型的代表。社会科学家为什么要构建这类模型,将在下文中给出解释。在这里,首先需要了解什么是信息集结(information aggregation),以及它与预测模型集结(predictive model aggregation)有什么不同、为什么不同。关键在于,在信息集结时,人们可以得到一些关于结果的“信号”。可以把这些信号看作信息,也可以直接把它们看作预测。但是我们将会发现,如果把它们看作预测,那就是等于认同粗略的思考和草率的结论,而这正是我们试图避免的两件事情。至于预测模型集结的概念,将在下一章介绍。
在本章和下一章中,我们强调个体多样性及其在群体预测准确性中的核心作用。如果个体预测不是多样性的,那么要得到准确群体预测的唯一可能途径就是保证绝大多数个体预测必须是准确的。在那种情况下,可能会得到这样的结果:好的个体预测导致了准确的群体预测。但是,这并不是一个令人意外的结果。然而另一方面,有很多例子可以证明,人们在个体预测时并不准确,但是他们的群体预测却非常准确。这个结果所隐藏的奥秘才是我们想要解释的。
索罗维茨基提出了一群人做出准确预测的三个必要条件。这些条件是:有多样性的预测模型;人们是相互独立的,不允许人与人之间产生相互影响;预测过程是分散的,人们不会相互交流。所有这三个条件都意味着,存在多种预测模型。如果人们不是相互独立的,他们拥有多样性预测模型的可能性就会降低。如果集结预测的过程不是分散的,那么参与者就可能共享同样的预测模型,从而减少所用模型的多样性。因此,从某种意义上说,第三个条件可以说是隐含在第二个条件中的。
为了给“认知工厂”提供一些材料,先给出一些人们做出了准确预测的例子。其中一些是趣闻轶事,大多数例子都给出了系统的证据,它们足以表明,由人组成的群体可以做出准确的预测。这是一个很重要的区别。可以提出一个理论,说男人来自金星,女人来自火星。即使这个理论只能准确地预测10%的男性和女性的行为,它也与数以百万计的“事例”相符。因此,需要系统的证据。在系统地审核了证据之后,再来回答如下问题:来自社会科学的信息集结模型能否完成解释这些例子的任务?答案是不能!
群体的智慧
在很多具体的例子中,人们群体做出的预测非常准确,准确到了几乎令人难以置信的程度。在这里介绍的一些例子来自索罗维茨基所著的《群体的智慧》一书。需要指出的是,这些例子不是来自只有十几个被试参加的实验室实验。它们来自拉斯维加斯、大型集市和游戏节目。还有一些证据则来自股市,股市价格包含了一大群人对未来股息流的预测。这些预测确实可以说是非常准确的。1986年,在“挑战者号”航天飞机失事后不久,莫顿聚硫橡胶公司(Morton Thiokol)的股票价格就一路下降,但是直到很久之后才发现,正是该公司生产的O型环导致了这个空前的航空大灾难。可以将这种准确的预测视为纯粹的运气,但是这种情况已经多次出现,事实一再证明,市场是相当有效的预测器。1
期货市场上的交易者所确定的橙汁价格走势,往往比气象学家对未来会不会出现冰冻灾害天气的预测更加准确。2当然很显然,市场价格并不是一个完美的预测指标,因为市场泡沫和市场崩溃会不时发生。但是,正如索罗维茨基所指出的那样,市场之所以会产生泡沫,部分原因在于市场本身并没有一个预先确定的结束交易日期,这就给那些趋势交易者提供了强大的激励,他们以为自己可以逐浪而行,从不断上涨的价格中持续获利。
除了股票市场之外,还有很多市场也是预测性市场,比如好莱坞证券交易所(HSX)、艾奥瓦电子市场等。3在好莱坞证券交易所中,投资者购买的是一种特殊的股票,根据电影的票房收入来支付股息。人们还会买入以某些明星未来将上映的电影票房收入为担保的债券。例如,安吉丽娜·朱莉主演的电影的票房收入可能比伯特·雷诺兹主演的电影更高。一项研究表明,对于2000年3月至9月间上映的50部电影的票房收入,好莱坞证券交易所通过证券价格“给出的”预测,几乎与业内最顶尖专家预测的一样好。好莱坞证券交易所预测的平均误差大约为31%,而票房专家布兰登·格雷(Brandon Gray)预测的平均误差则为27%。4
稍后,还会讨论足以证明艾奥瓦电子市场以及体育博彩行业预测准确性的系统性证据。这种证据很重要。总能找到两三个事例,说明一群人奇迹般地预测到了某个结果,但是这种事例本身并不能证明群体真的拥有“智慧”。我的父亲在20世纪90年代中期曾经打出过一杆入洞的好成绩,但是这并不能证明他的球技与老虎伍兹的不相上下。
必须有系统性的证据才能说服社会科学家,但是这并不意味着有趣的事例完全不重要。趣闻轶事往往更加令人着迷。我曾经让很多学生猜我的体重,他们猜测的平均误差一直在1磅(约为0.454千克)之内。一磅之内啊!当我重194磅时,他们的平均猜测结果是193磅。第二年,当我的体重下降到了185磅时,学生们的猜测是186磅。类似这样的趣闻或轶事提供了展开分析的入口和知识上的激励。
在《群体的智慧》一书中,轶事就很好地发挥了这两个作用。在这里不妨再简略地引述一下。1906年,英国科学家弗朗西斯·高尔顿(Francis Galton)分析了西英格兰肉畜肉禽展的肥牛竞猜大赛的参赛者对一头肥牛体重的猜测结果。787名参赛者对那头肥牛体重猜测的平均值为1 197磅,而它的实际重量则为1 198磅。当然,关于这头肥牛的味道究竟如何,则没有得出一致意见。顺便提一下,高尔顿本人对索罗维茨基的分析是不满意的,因为他主张以中位数为预测基准而不是平均值,原因是仅仅一个疯狂的猜测就可以操纵平均值。
尽管高尔顿提出了上述反对意见,但是讨论的关于群体如何做出准确预测的信息集结模型,一般都要利用索罗维茨基那种基于平均值的分析。社会科学家投入了大量的时间和精力,试图模拟人们在各种各样的经济和政治环境中是怎样进行预测的。这些模型突出了人们所拥有信息的重要性以及让他们真实地揭示信息的激励的重要性。但是,这些模型都没有去尝试解释那头肥牛自身的性质,下一章中介绍的基于预测模型框架的模型则给出了很好的解释。
此外,我还想补充一点,以免被上面这个例子带歪了,因为猜测一头肥牛的体重并不是一个“难问题”。作为一个前业余牛仔,我和妻子曾经在一段时间内拥有过9头牛,我的经验告诉我,一个不懂得伽罗瓦理论、也不会解微分方程的人,也能估计一头牛的体重,而且误差不会太大。这就像能够估计一个又高又壮的人的体重一样。而且,高尔顿并不是在进行一个很难给出答案的随机实验,例如,站在街头随机地问经过的人,一定比例的果冻和机油的混合物的粘度是多少。参加肥牛竞猜大赛的那些人知道一头肥牛大概多重,因为他们很清楚,肥牛比人要重,但比大象要轻。然而,正如著名经济学家托马斯·谢林(Thomas Schelling)曾经指出的那样,这种结果还是会令人啧啧称奇。
信息集结的四大模型
上面举的这几个例子,都是社会科学领域内标准的信息集结模型例子。信息集结与预测模型集结之间的区别是相当微妙的,而且通常是模糊的。如果问一个人,俄勒冈州的首府是哪里,那么我们是要求他们提供信息或事实,而不是给出预测。如果要求同样的人预测一下俄勒冈州下一次参议院竞选的结果,这就是在要求他们用模型来预测未来。
在信息集结模型中,人们得到的是与答案有关的信号。从根本上说,各种类型的信息集结模型涉及的都是对人们所知的假设,关于人们所知共有三个假设。最终,它们都会成为关于信号的假设,但是在这里从它们提供的信息角度来进行描述。这些模型假设人们知道答案的概率,或者一部分答案,或者得到关于答案的模糊信号。
第一个假设是指有些人知道答案,其他人则不知道。信息集结过程允许知道答案的人去揭示它。
第二个假设则指不同的人分别知道一部分答案,而且各部分答案可以被集结到一起,以揭示整个答案。很早以前,亚里士多德就看到了这一点。有人把这种情况称为“合取法”(summation argument),著名法学家、政治哲学家杰里米·沃尔德伦(Jeremy Waldron)则用了一个更加堂皇的术语——众“智”成城原理(doctrine of the wisdom of the multitude)。5亚里士多德在《政治学》一书中是这样描述的:
人人贡献一分意见和一分思虑;集合于一个会场的群众就好像一个具有许多手足、许多耳目的异人一样,他还具有许多性格、许多聪明。群众(多数)对于音乐和诗人的作品的批评,常常较[少数专家]更为正确,情况就是这样:有些人欣赏着这一节,另些人则被另一节所感动,全体会合起来,就完全领略了整篇的得失。(8)
在这段话中,亚里士多德所讨论的是诗歌和音乐,而不是微软公司股票的价格或政治家的能力,但是他的见解也适用于后者。亚里士多德认为,因为每个人都知道解决方案的一部分,所以全部人聚在一起就可以把握整个解决方案。这个“整体为各部分之和”的逻辑确实可以解释某些类型的群体智慧,但是它并没有描述人们是如何在模型的基础上做出预测的。
第三个假设是,人们通常只能看到一些关于现实的模糊画面,这些画面只能刻画出视线被阻挡或被扭曲时的某些东西。对这个假设加以变换和延伸,可以得出一个关于预测的假设。可以把上面说的这种扭曲看作预测模型中的误差,并假设噪声只是真实状态的附着之物,或者说,只是给正确答案“画蛇添足”。当然,在实际的预测中,这种情况不太可能是真的:预测是完全准确的,只不过被添加了或遗漏了什么东西。因此,这个假设只能刻画人们看不清结果或事件本身的那些情形。6
在前面列出的所有来自现实世界的例子中,人们都要预测未来或者未知的事件,比如未来的某个价格,或眼前这头肥牛的体重。为了做出预测,人们不仅仅要回忆起一些信息,尽管有时确实会发生这种情况,下文要考虑的一个游戏节目的例子就是如此。但这只是例外,而不是市场环境和政治环境中的规律。有些人试图这样来捍卫关于信息集结的社会科学模型,宣称它们的抽象性,并假设人们能够获得信号,使它们能够被重新改造成关于正在进行预测的人的模型。这确实可以做到。但是,正如将会看到的,这样做其实已经隐含地假设了多样性的预测模型。如若不然,这些人怎么会收到不同的信号呢?
在下文中,将通过一些简化的信息集结模型来分析关于信号的各种假设。这些模型揭示了信息集结方法的局限性,但是,揭示这种局限性并不是要研究它们的目的。我们不想先扎一些稻草人,然后把它们打倒了事,这有些小题大做了。恰恰相反,我们想让这些稻草人走下木头架子,沿着正确的“黄砖路”走向问题的答案。通过分析这些简单的模型,将学会如何添加信息。一个信息一个信息地添加并不困难,而以信号形式添加信息则有点困难,添加预测模型比前面的方法还要困难得多。事实上,如果不先学会添加信号,那么添加预测模型是不可能的。因此,首先要看一看现有模型是怎样的,然后才能发现它们缺少什么。通过这种做法,就能获得理解信息如何集结所必需的专业知识,也就是各种工具。
模型1:“百万碎片”模型
在这里,先给出第一个模型:玩具信息集结模型。在这个模型中,人群中的每个人都拥有关于要解决的问题的正确答案的部分信息。他们集结各自拥有的部分信息的途径是投票。我将使用《群体的智慧》一书中的另一个例子来构建这个模型,该例子涉及一个非常热门的游戏节目《谁想成为百万富翁》。在这个节目中,参赛者必须在四个可能的答案中进行选择。如果某位参赛者连续选对的次数足够多,那么他就可以赢得100万美元。如果某位参赛者被某个特定的问题难住了,他还可以使用自己的“救生索”,救生索有两条,一条是打电话向他人求助,但只能使用一次。通常来说,参赛者求助的对象一般是一个专家,而不会是从初中玩到大的“死党”。另一条救生索是让参赛者请现场观众投票选出正确的答案。顺便说一下,现场观众中,会有《大不列颠百科全书》的编辑或加州大学伯克利分校的教师。
这个电视游戏节目的数据表明,参赛者求助对象的选择,只有不到2/3的准确率。在这里假设,这些求助对象至少表面上是一个专家。还可以假设参赛者只有在遇到难题时才会求助于“专家”,因为不会有人愿意浪费一次宝贵的机会去问“杰克逊五人组”这个乐队有几个成员这样的问题。尽管,用20世纪80年代的摇滚偶像密特·劳弗(Meat Loaf)的话来说,在困难的问题上,2/3的准确率也算是不错的了。但是,这种准确率与观众群体预测的准确率却完全无法相比。当被要求投票决定哪个选项时,现场观众10次中有9次是正确的,9/10的准确率是惊人的。事实上,这样高的准确率不仅仅是令人震惊的,有时甚至可以说是非常神奇的。
虽然有人可能会认为群体预测的准确性是从某个既深奥又神秘的过程中浮现出来的。但是,这里其实没有什么神秘的东西。错误的答案相互抵消了,从而让正确的答案像奶油一般浮出了水面。为了说明这到底怎么发生的,我构建了如下这个模型。
门基乐队是20世纪60年代的一支“因电视而生”的乐队,现在假设有个问题与门基乐队(The Monkees)的四名成员有关。
问:下面哪个人不是门基乐队的成员?
A.彼得·托克(Peter Tork)
B.戴维·琼斯(Davy Jones)
C.罗杰·诺尔(Roger Noll)
D.迈克尔·内史密斯(Michael Nesmith)
由于时代关系,可以假设不是每个人都很熟悉门基乐队,事实也是如此!能够认出上面这个名单上有三个门基乐队成员的那些观众,应该很容易看出罗杰·诺尔不是门基乐队的成员。观众投票把他选了出来。当然,这些人应该没有多少人知道,罗杰·诺尔是斯坦福大学的经济学家。接下来假设,那些不认识门基乐队成员的观众,会从上述四个名字中随机选择一个;而对于那些能认出两个门基乐队成员的人,假设他们会在另外两个名字之间进行随机选择;而对于那些只认识一个门基乐队成员的人,假设他们会在其他三个名字之间随机选择一个。
接下来想象一个规模为100人的假想群体,其中有7人认得出给定名单上所有三个门基乐队成员、10人认得出两个门基乐队成员、15人只能认出一个,其他68人则认不出任何一个门基乐队成员。因此平均而言,这个群体算不上非常了解情况,因为只有不到10%的人知道答案,2/3以上的人则完全不知道。
现在,让这些人投票。7个知道答案的人会给罗杰·诺尔投7票,10个认得出两个门基乐队成员的人平均会给罗杰·诺尔投5票,因为这10个人会在两个名字之间随机进行选择,15个只认得出一个门基乐队成员的人则平均会给罗杰·诺尔投5票,因为这15个人会在三个名字之间随机选择。最后,那68个完全不知道答案的人也会将1/4的票投给罗杰·诺尔,那将有17票。把这些票数全部加起来,平均而言,罗杰·诺尔会得到34票。7
如果假设人们的投票是随机的,那么另外三个名字中的每一个都应该得到剩下的66票的1/3,即每个名字得到大约22票。因此,罗杰·诺尔应该会“胜出”,毫无疑问34比22大。不太聪明的人组成的群体却充满了智慧!更令人惊讶的是,即使人群中没有任何一个人知道正确的答案,罗杰·诺尔也有可能“胜出”。要说明这一点,不妨假设每个人都知道正确的答案是罗杰·诺尔或另三个名字当中的某一个。如果每个人都参加投票,随机选择罗杰·诺尔或另一个名字,那么平均而言,罗杰·诺尔可以获得一半的选票,而其他三个人则每人各得到1/6的选票。在这种情况下,群体知道哪个人不是门基乐队的成员,但组成群体中的个人却没有一个人知道。
当然,在现实世界的电视游戏节目中,并不是每次投票的结果都是罗杰·诺尔。第一个原因是,请记住,观众预测10次,正确的只有9次,而不可能是做到每发必中。由于如此随机选择的票数实在太多,另一个名字是有机会获得更多的选票的。正如抛硬币一样,有可能抛10次就有8次朝上,随机选择也有可能“特别钟爱”某个错误的选项。不过,这种类型错误发生的概率是可以使用统计方法来预测的。以这个例子中的数字来说,观众组成的群体出错的概率是10%左右。8罗杰·诺尔没有被选中的第二个原因是,不知道正确答案的那些观众可能不会随机做出选择。他们可能会受到某种共同的偏见或偏差的影响,因而频繁地预测某个名字。例如,如果这个问题是与海员有关的,就可能出现一个相关错误。在这种情况下,戴维·琼斯这个名字可能被认为与“葬身鱼腹”(Davy Jones's locker)这个与大海和海员有关的俗语相关,从而可能导致相关错误。
上面这个模型很简洁很优雅,但是它只是片面地解释了“群体的智慧”。它告诉我们,如果人群中的某些成员拥有正确的信息而其他人没有,那么不正确的信息就可以被随机性抵消。它用数学的方法描述了亚里士多德的逻辑,但不是全部。而且不幸的是,它并不能解释本章一开始就给出的那几个例子。在那些例子中,群体成员中没有任何一个人知道正确的答案。例如,据我们所知,在高尔顿观察的那种公开竞猜肥牛体重的活动中、在赛马比赛中、在政治选举中,从来没有人预先知道准确的答案。我本人也非常确定,我的班上从来没有人见过我称体重。
模型2:“区域销售”模型
第二种类型的信息集结模型适用于群体中每个成员都知道答案的一部分的情形,它可以说是亚里士多德的“整体为部分之和”原理的正式表示。假设一家企业的销售服务部门分别服务于欧洲、亚洲、非洲、北美洲和南美洲五个大区。每个大区经理都知道自己所辖地区的销售状况,但是对其他地区的销售情况却知之甚少或完全不了解。再假设这些经理现在面临的任务是预测总销售额。这个问题表面上看起来很简单,只要每个经理都如实地将他所辖地区的销售额报告出来,然后对各个地区的销售额进行加总,不就得出正确的答案了吗?但是真正的内在逻辑要比这复杂得多,因为经理们要预测的是总销售额,而不仅仅是报告各地区的销售额。以具体数字为例,假设每个地区的实际销售情况如表7-1所示。
这些经理怎么进行预测呢?将考虑两种情况。在第一种情况下,经理们对过去的销售情况有一些了解。假设在过去,每个地区的销售额平均为5万,总销售额平均为30万。这些假设意味着每个经理都会预测总销售额等于30万加减他所在地区的实际销售额与5万之间的差额。例如,亚洲大区经理将预测总销售额为30万+(6万–5万)=31万。将这种预测方法称为按过去销售额预测法(Past Sales Scenario)。在这种情况下,这5位经理的预测将如表7-2所示。
表7-1 实际销售情况
?
表7-2 各大区经理按过去销售额给出的预测
?
表7-2最下面一行表明,平均预测总销售额为31.4万。这个预测并不完全准确,因为实际销售额高于预测销售额。他们对过去平均销售额的依赖拉低了预测。不过,他们预测的方向是正确的。实际销售额高于平均水平,他们给出的预测销售额也高于平均水平。事实上,按过去销售额预测未来销售额时,都会出现这种结果。对总销售额预测的方向永远都会是正确的,只不过有时预测额不够准确。
在第二种情况下,假设经理们没有可以作为预测依据的过去销售额。因此,他们直接假设其他地区的销售额与他们所辖地区的销售额相同。将这种预测方法称为相关销售额预测法(Correlated Sales Scenario)。于是,亚洲大区经理预测总销售额为30万,欧洲大区经理预测总销售额为25万,等等。表7-3列出了所有大区经理的预测。
表7-3 各大区经理根据相关销售额给出的预测
?
对总销售额的这个预测是完全正确的。而且,只要经理们使用这个方法进行预测,那么结果总是会如此。这个结果背后的逻辑很容易理解:直接对预测求平均值。9虽然这个方法总能够产生正确的答案,但是如果经理们知道过去的销售额,他们很可能不会使用这种方法。非洲大区的销售额达到了9万,非洲大区经理知道这是一个很高的数字,因此他可能不会预测其他大区也能做到这一点。同时,他可能也会预测其他地区的销售情况与他自己所辖地区的销售情况有一定的相关性。所以他实际采取的预测方法可能介于按过去销售额预测与相关销售额预测之间。其他大区经理也可能像他一样进行预测。由此产生的群体预测则可能介于31.4万到32万之间。这个预测也是相当准确的。10
虽然说这是一种预测,但是这个例子所涉及的其实主要是如何集结多样性的信息。每个人都知道答案的一部分,而且这些不完整的答案可以拼到一起,形成一个完整的答案。这个逻辑可以解释很多情况,但是仍然不足以解决其他一些问题。在这个例子中,每个经理都知道相关信息的一部分,而在高尔顿的例子中却不是这样。对于这头肥牛,一个人知道蹄子的重量,另一个人知道尾巴的重量,还有一个人知道头的重量……每一个部分的重量都被某个人知道,这怎么可能?
当然,这样说绝不意味着这种集结信息的方法是完全行不通的。这种方法其实很有效。它的内在逻辑很强大,而且很有用。假设你是一名经理,你可能不时会遇到这样的情况:你需要回忆起某些深藏在公司档案中的信息,例如两种产品设计中哪一种生产成本更低。你可以去搜索公司档案中的信息,也可以向你的下属询问。或者,你也可以在公司内部群发电子邮件,询问哪种产品设计生产成本更低。那些回忆起正确答案的人会为你提供正确的信息,那些不记得正确答案的人则会随机提供答案,而这种随机化正是你需要的。总而言之你会找到正确的信息。
仍旧假设你是一名经理,你需要知道在周末前一天打电话请“病假”的员工总数。你可以要求下属各个部门的主管报告有多少人打电话请了“病假”。但是他们可能不愿意告诉你这些信息,因为这可能会暴露出他们所在部门的糟糕状况。但是,你可以反过来,让他们做个预测:在全公司范围内,他们认为有多少人打电话请了“病假”。在这种情况下,主管们也许仍然有动机说谎,但是这种动机将会弱得多。而你则可以从他们预测的平均值中得出一个相当准确的估计。
模型3:“真相引力”模型
最后给出的两个模型略有不同。在第一个模型中,将假设信号是离散的,例如硬币是字朝上还是花朝上,答案是对的还是错的,等等。而在第二个模型中,假设信号是连续的,它们可以取任何一个实数值,例如一个人或一头肥牛的体重。这两种模型在概率论课程中都有讲授,经济学家和政治学家用它们来解释为什么市场和民主制度会如此运行。但是,大多数人都觉得概率模型令人困惑,而且没有多少趣味。确实如此。概率模型涉及使用p和(1–p)等符号进行大量计算。也正因为如此,在有些时候,为了让更多人理解,我们必须带领他们穿透复杂计算的迷雾。
下面要考虑的第一个模型依赖于两个可能的离散信号。一个是准确的,另一个是不准确的。一个人获得准确的信号的概率是3/4。假设的预测任务是,确定刚刚从危地马拉进口的一批毛衣究竟是用羊毛(wool, W)制成的,还是用人造纤维(artificial fibers, A)制成的。为了更加容易理解,进一步假设,所有的毛衣实际上都是用人造纤维制成的,尽管在衣领后面缝有“100%羊毛”的标签。在这里,假设这些标签都是用真的羊毛制成的,所以“从技术上讲”,标签是准确的。
在这个模型中,三个产品检验人员分别拿起一件不同的毛衣,并都可以得到一个关于它的组成成分的信号。那么这个信号是什么呢?这里没有铃铛,没有警报器,也没有神奇戒指,所以直接假设这些产品检验人员根据自己的皮肤会不会对毛衣产生过敏反应来预测,也就是说,每个人都拿毛衣在自己的手臂上擦一下,如果皮肤起了红疹,他就认为毛衣是用羊毛制成的;否则,他就认为毛衣是用人造纤维制成的。但是,这种“皮肤测试”的结果并不总是准确的。假设,在测试真的羊毛毛衣时,产品检验人员有25%的可能性不会出现过敏反应;而在测试人造纤维制成的毛衣时,产品检验人员有25%的可能性会出现过敏反应,这可能是由于羊毛标签导致的。那么根据这些假设,在75%的概率内,产品检验人员可以从人造纤维制成的毛衣上得到信号A,从羊毛制成的毛衣上得到信号W。或者,换成概率论的语言来说,得到准确信号的概率为75%。
进一步假设这些信号是相互独立的:任何一个产品检验人员获得的信号都不依赖于另一个产品检验人员获得的信号。用规范的语言来说,这个性质被称为世界状态的独立性条件。在这个例子中,世界的状态就是指毛衣是用什么材料制成的。假设独立性就意味着多样性,而且是非常丰富的多样性。如果人们对毛衣的反应相同,那么他们也会得到相同的信号。因此,为了获得不同的信号,他们必须做出不同的反应或者测试不同的毛衣。
用不着多少高深的数学技巧,就可以计算出所有可能信号组合的概率。接下来给出了详细的数学计算过程,这种数学计算是工程师的挚爱,但是却可能会导致诗人读者略过整个段落。假设这三个产品检验人员分别是霍华德、米塔和里克。其中一个可能性是这三个产品检验人员都获得了信号A。根据假设,每个人得到正确信号的概率均为3/4。由于这些信号都是相互独立的,所以第一个和第二个产品检验人员都得到信号A的概率等于(3/4)×(3/4)、全部三个人都得到信号A的概率则等于(3/4)×(3/4)×(3/4)。类似地,可以计算出所有可能信号组合的概率,如表7-4所示。
表7-4 个体信号与群体预测
?
为了证明群体的智慧,可以让霍华德、米塔和里克对他们必须买下的一大批毛衣进行投票;在投票的时候,他们将会透露所接收到的信号。11表7-4表明,群体预测在前四种情况下是正确的,而在后四种情况下则是不正确的。从表中还可以看出,前四种情况比后四种情况更有可能出现。简单地计算一下,我们就可以看出,这个三个人的群体做出正确预测的概率高达54/64,即大约84%。这个数字超过了人们分别得出正确预测的概率,后者只有75%。
由个体组成的群体的预测更加准确,因为有一种力量“拉着”群体趋向正确的答案。对于这种力量的基础,可以用一个比喻来说明。请你想象两个房间。一个房间的门上标着代表人造纤维的字母A;另一个房间的门上标着代表羊毛的字母W。再想象一下,两扇门外排着一个长长的队伍。两个房间中的某一个代表正确的答案。假设给每个人都发了一张卡片,它以概率p告诉他们哪扇是正确的门,以概率1–p告诉他们错误的门,同时假设p大于1/2。这些信号是进入房间的通行证。进入门上标了A字母的房间需要A通行证,进入门上标了W字母的房间需要W通行证。这样一来,当有10个人进入两个房间后,进入正确房间的人数预计为10p人,进入错误房间的人数预计为10(1–p)人。平均而言,进入正确房间的人比进入错误房间的人多。
如果p接近1/2,那么就可能会有更多的人进入错误的房间,只要原来排队的人不是太多。然而,假设有100万人进入了这两个房间,那么即使p接近1/2,100万乘以p的结果也会比100万乘以(1–p)的结果大得多,所以会有更多的人进入正确的房间。统计学家用大数定律来解释这个现象。随着更多独立信号的产生,p的真实价值就显现出来了。如果假设p大于1/2,那么一个由很多人组成的大群体最终将会得出正确的答案。
这种推理还有一个不太明显的含义,那就是,应该在群体规模与准确性之间进行一些权衡。具体地说,一个由3个人组成的群体,每一个人都有3/4的概率获得正确的信号,这个群体预测的准确性,将不如一个由11个人组成,且其中每一个人都有3/4的概率获得正确信号的群体。加州大学数学教授伯尼·格罗夫曼(Bernie Grofman)将这个规律称为准确性与群体规模间的权衡。如果能在群体中增加更多的人,是可以牺牲一点准确性的。12
这个模型似乎可以解释群体的智慧,真理的引力终将胜出。有人可能会说,这个结论似乎来得过于容易了。确实如此,凭什么可以假设人们会得到独立的信号?虽然社会科学家经常假设这种形式的独立性,但是为什么一定要相信它的存在?群体中的每个人真的都可以获得独立的信号吗?我们将在本章结尾处和下一章中考虑这些问题。就目前而言,只需要认识到,这个模型隐含地假设了信号之间丰富的多样性,而且这种多样性使整个人群更有智慧。这也就是有些人所说的“大胆的假设”。
而且,在这种严格的假设条件下,这个模型也不适用于在本章开头所举的任何一个例子。那些预测任务都不是关于二元选择的,它们都要求预测者给出一个数值。在竞猜肥牛体重的那个例子中,没有任何人以概率p接收到正确信号,也没有人以概率(1–p)接收到错误信号。然而,尽管如此,这个模型仍然有助于加深对群体智慧的理解,因为它表明,独立的随机误差错误是怎样被抵消的。如果能找到某种方法,保证群体成员所出的错误都是随机的,那么就可以得到一个智慧的群体了。
模型4:“噪声平均”模型
接下来给出本章最后一个模型。它也假设人们可以接收到模糊的信号,但是这些信号具有真实的价值。像之前一样,通过一个具体的假想例子来分析这个模型。假设一个6人的群体被分配了这样一个任务:确定麦当劳是否有必须将咖啡的温度保持在77℃的制度。一群人到麦当劳去喝咖啡,条件是他们不会同时去同一家麦当劳,假设每个人都会接收到一个接近于世界真实状态的独立信号,也就是指麦当劳关于咖啡温度的制度。
如果麦当劳咖啡机装备的恒温器确实将咖啡温度设定在77℃,那么咖啡温度的分布应该是,其均值为77℃,再加上一些小小的误差,实际温度可能会高一点,也可能会低一点。将第i个人购买的那杯咖啡温度的误差记为Ei。这样一来,这个人接收到的信号就等于麦当劳关于咖啡温度的制度所设定的真实温度T加上这个误差项。再令Si表示第i个人收到的信号,那么可以得到Si=T+Ei。这些下标可能会让有些读者觉得困扰,但是一会儿就会明白为什么它们是必不可少的。在这些假设都成立的条件下,去麦当劳喝咖啡的那群人就可以非常准确地揭示出麦当劳关于咖啡温度的制度。每个人对真实温度的认定等于制度规定的温度加上一个小小的误差。在这里,假设这个群体的预测是每个人预测的平均值,并记为Tpred,它等于这个群体个人预测值之和除以6:
把分子中所有的T提出来,则得到:
如果各误差项之和接近于零,那么这个预测值就接近T。如果某些误差项为负数,某些误差项为正数,那么所有误差项的平均值应该小于任何个别误差项的绝对值。如果假设这种误差的均值为零且它们是相互独立的,那么这6个误差项的平均值将接近于零。如果有更多的人参与预测,那么误差项的平均值将更接近于零。这种减少误差大小的方法可以用大数定律来加以形式化,但是在这里不打算这样做。我们要关注的是根本性的内在逻辑。卢梭在讨论所有人的意志即“众意”与“公意”的区别时,相当准确地描述了这一点。
众意(will of all)与公意(general will)之间经常有很大的差异;公意只着眼于公共的利益,而众意则着眼于私人的利益,众意只是个别意志的总和。但是,除掉这些个别意志间正负相抵消的部分之外,剩下的总和仍然是公意。(9)
在上面引用的这段话中,卢梭用“误差抵消”这几个字就概括了所有社会科学家用一大堆数学符号试图阐述的道理。如果每一个人都能观察到由真实的答案加上一个误差项,误差即使相当大也没有关系,只要各误差均值为零且相互独立,那么群体就是智慧的。独立性假设的作用是,它保证只要有足够多的人,各自的错误就可以相互抵消。但是,这真的有可能发生吗?有时确实能。预测麦当劳咖啡温度的那个例子可能就是如此。13
最后这个模型尽管非常优雅,而且很综合,但是,它是不是真的能很好的描述群体的智慧呢?它是否能解释人们如何预测选举结果、股票价格、体育赛事的冠军以及某个人的体重?如果要将这个模型应用于肥牛竞猜那个例子,就得回答这个问题:为什么应该假设人们的猜测服从某个有适当均值且误差相互独立的分布?麦当劳的员工可能是训练有素的,因为麦当劳的创始人雷·克罗克(Ray Kroc)调教有方。但是,在肥牛竞猜大会上,却没有人会拿出纸条来写下那只肥牛的真实体重(再加一点或再减一点)。
因此,这个模型所缺少的是对信号源的解释,信号似乎是直接从黑盒子里出来的。这个模型也没有解释做出预测的人们的头脑中发生了什么。事实上,这个模型并不包含解释和预测模型。相反,该模型只描述信号。而且,就像魔法一样,每个信号都有恰当的均值,并且都独立于其他信号。这些事情到底是怎么发生的?在现实世界中会不会发生?可能不会,即使发生,也只是在极少数情况下。因此,这个模型也不能成为一个预测模型,尽管它是模糊视界下的一个相当不错且容易应用的模型。
多样性让群体预测更准确
前面四个信息集结模型都提供了很有价值的结果。现在快速回顾一下。我们看到,群体可以预测正确的答案,即使群体中只有一小部分人知道正确的答案(模型1)。由于可能不知道群体中哪些人知道答案,因此可以选择依靠群体来揭示信息。还看到,如果每个知道信息的人都根据过去信息进行预测,或者都假设其他人拥有的信息与自己的一样,那么他们作为一个群体就能做出准确的预测(模型2)。这两个模型都可以解释群体准确地做出预测的情况,但是不能完整地解释在本章一开头给出的例子。还看到,如果人们能够接收到独立的、生成的信号,无论这些信号是离散的(模型3),还是连续的(模型4),它们的误差都会被抵消。因此群体预测非常准确。最后这两个模型适用于人们能够观察到的质量或价值再加上或减去一个小误差的情况。它们不太适用于人们根据模型进行预测的情况。
重要的是,所有这些模型都隐含假设了一定的多样性。这就是我们一定要记住的:即使没有明确地认识到,所有关于独立性的假设也都是关于多样性的假设。然而,这两个概念,即多样性预测模型和独立的预测之间的联系并不是正式的。只能依靠直觉来判断这些预测是否相互独立、平均而言是否正确。在某些情况下,这些统计假设可能是有效的。但是在另外一些情况下,做出这种统计假设却可能把类似于“伟大而强大的奥兹”(10)藏在了薄薄的窗帘后面。因此,要理解多样性在促进群体智慧方面的作用,必须对这些预测来自哪里以及它们之间的差异进行分析。我们需要直接审视这些差异。一旦完成了这个任务,就可以更加深入地了解这些模型何时合理、何时不合理。
总而言之,如果希望理解群体的智慧,就需要构建一个关于人们如何进行预测的模型。这样一个模型到底是怎么样的?作为一个预览,回过头去看肥牛竞猜大赛的例子。但是每个竞猜人都从不同的角度看到了称这头大肥牛的秤,每个人都预测它的体重是真实体重加某个误差,这种情况不太可能发生。更有可能的是,每个人都有一个原始的关于那头肥牛的模型。这些模型导致了对肥牛体重的预测。当然,这种预测并不是凭空瞎猜。1906年,人们对肥牛已经有了很多了解。参加那次展览会的农民可能根据肥牛的各种特点,如大头、瘦臀、高肩、大胸等进行分类,然后再进行猜测。从高尔顿的数据来看,这些模型都是稍有所不同,否则,人们的预测将会是一样的。
但是,当然,这些人预测的多样性并不能解释为什么他们的群体预测如此准确。真正令人惊讶的是,加上他们适当的能力,他们的多样性使群体预测非常准确。所以我们似乎既需要一定程度的个人预测的准确性,也需要一定程度的群体多样性,这样才能组成一个有智慧的群体。但是,这只是一个粗略的直觉,我们需要的是逻辑。