在本章中,将运用预测模型框架来解释“群体的智慧”。我们分析的最终结果是如下两个定理:“多样性预测定理”和“群体优于平均定理”。第一个定理说的是,群体准确率等于个体的平均准确率减去群体预测的多样性。1因此,就预测任务而言,“多样性有多重要”这个问题的答案是“与能力一样重要”,不多也不少。第二个定理说的是群体预测的准确性不可能比其成员预测的平均准确性低。这也就是说,群体必然比其一般成员预测得更准确一些。所以,群体预测的平均水平要高于个体预测的平均水平。此外,群体多样性的程度越高,群体预测优于其成员平均水平的概率也越大。
在这一章中,一方面将会看到,运用不同解释框架的人组成的群体预测,为什么会比基于独立信号模型的预测更加准确。独立性假设尽管可以带来很大方便,但是这种假设也可能会低估小型群体的预测能力。另一方面,还会看到,这种假设夸大了大规模群体的能力。除了分析群体的智慧之外,还会对群体与专家预测的准确性进行比较。我们将确定,在哪些条件下群体的预测会优于专家,而在哪些条件下则不能。甚至还会考虑由专家组成的群体,也可以简单地称之为模型的群体(crowd of models),这类群体给出的预测可能是最好的。最后,将阐明有效的激励机制如何提高群体预测的准确性,从而在一个侧面为信息市场的有效运行提供正当的理由。
我们将把本章的讨论限制在由人组成的群体上,尽管也可以将其他“物种”组成的群体包括进来,例如,蚂蚁、乌鸦和野牛,甚至机器和算法。以野牛为例,它们的行为提供了人类之外的其他物种是如何利用多样性线索。野牛在翻山越岭的时候会走不同的线路。每头野牛都会留下一条小路,事实上是两条,一条由连续的足迹构成,另一条则由被忽略的离散足迹构成。走同样线路的野牛越多,那条线路就会变得越明显,这样的线路体现了野牛的群体智慧。随着时间的推移,野牛群体留下的足迹将变得越来越有效率。诺曼·约翰逊(Norman Johnson)构建了描述这种现象的模型,有兴趣的话可以看一看。2
本章的主题牵涉甚广,为了阐明有关内容,需要在若干种不同类型的模型之间来回切换。这对许多读者来说可能会是一个不小的挑战。本章的分析包括了一些数学计算。这些计算其实都不是太难,其中最难的计算是求两个数之差的平方,但是计算的数量确实不少。最后的结果将证明这种努力是值得的,我们推导出了两个定理。这两个定理不是政治宣言,而是数学真理。为了理解这些定理,必须下点功夫,使自己不会被几个相当简单的公式吓到。
但请记住,我们已经隐含地假设只考虑有挑战性的预测任务,而且只讨论有智能预测者的预测。简单的预测任务,例如明天中午明尼苏达州的国际瀑布城和加利福尼亚州的圣地亚哥市,哪里天气更暖和一点,这样的预测任务既不需要群体,也不需要专家。同样,如果预测者个体几乎什么都不懂,那么群体的预测也可能好不到哪里去。例如,如果要求10 000名一年级小学生猜测一架满载的波音747的重量(大约40吨),那么应该料到他们的平均猜测结果不会很准确。有的小学生可能会猜测它的重量只有45千克,而有的小学生则可能会猜测它的重量为数10亿吨。毕竟,“巧妇难为无米之炊”!
一个关于“群体智慧”的例子
作为本章其余部分的基础,先回过头去讨论一下“筛选成功”的例子(在“多样性预测模型”一章中已经讨论过),这一次让雷、玛里莲和德博拉组成一个群体。我们将发现,这个群体确实是有智慧的。接下来,将说明为什么群体必定比组成群体的个体更加聪明,以及为什么这个群体表现得如此出色。现在,且先领略一下他们智慧的奥秘吧。
请你回想一下,“筛选成功”任务要求人们预测某个给定的电影剧本是否能够成为一部创造利润的电影。预测者雷要考虑的是剧本“性”的程度,玛里莲则考虑剧本的暴力程度。“性”与暴力是他们对剧本的两个基本解释。德博拉使用了一个更加复杂的解释,也就是考虑“性”和暴力的内容是否平衡。我们将在下一段中重新审视德博拉的预测模型,以及雷和玛里莲的模型。表8-1给出了从电影剧本性质到电影是有利可图(即“好”,用字母G表示)还是无利可图(即“坏”,用字母B表示)的映射。
表8-1 剧本性质与电影质量的映射
?
现在请先记住,雷的预测是,包含了中等或高等水平的“性”内容的剧本是好的,其他剧本则是坏的。玛里莲的预测是,那些中度或高度暴力的剧本将会成为好电影。而德博拉的预测则是,只有那些平衡的剧本才是好剧本。他们三个人的预测模型如表8-2、8-3和8-4所示。
表8-2 雷的预测模型
?
表8-3 玛里莲的预测模型
?
表8-4 德博拉的预测模型
?
为了说明由这三个人组成的群体如何做出预测,假设他们根据自己的预测进行投票。由于每个人都只能预测电影是好的还是坏的,所以不会出现平局。假设雷和玛里莲都认为一个剧本是好的,那么德博拉对这个剧本的看法就无足轻重了。根据假设,雷和玛里莲会在“性”和暴力内容相对较少的剧本以及“性”和暴力内容相对较多的剧本上达到一致意见。可以把这种情况称为雷和玛里莲的共识集合(见表8-5)。这个新增的术语可以带来不少帮助。
表8-5 雷和玛里莲的共识集合
?
在他们的共识集合里,雷和玛里莲可以掌控话语权,德博拉的意见是无关紧要的。但是,在这个共识集合之外,德博拉就变得举足轻重了。如果在政治学领域,政治学家会称她为关键投票者,因为她的预测决定了群体的预测。从表8-5中不难看出雷和玛里莲在8种情况下都做出了不同的预测,这些格子不在他们的共识集合内。只要在这8个空白处填入德博拉的预测,就可以给出群体的预测,如表8-6所示。
表8-6 群体的预测
?
你应该觉得表8-6看上去很熟悉。是的,它就是从属性到结果映射的原始表格。这也就是说,群体每一次都给出了准确的预测。惊人吧!但是,这里的雷是我父亲的名字,玛里莲是我的母亲的名字,德博拉则是我的姐姐的名字。难道这全是偶然?我故意精心设计了这个例子,目的只有一个,就是告诉大家,多样性预测模型能够以非常微妙的方式集结起来,远比亚里士多德所说的不同部分组成整体更加微妙。前面所说的大数定律不能让你100%准确地做出预测,将误差抵消的方法也不能。
为了理解这个群体的预测是如何能够精确到100%的,不妨对这个例子与检验毛衣的例子(见“信息集结”一章)进行一番对比。在这两个例子中,每个人都能以3/4的概率做出准确的预测。不同的是,在检验毛衣的例子中,整个群体只能在84%的时间里做出准确的预测。那么,这种区别是什么原因导致的?在毛衣的例子中,我们假设了独立的个人信号:每个产品检验人员对羊毛的反应都是相互独立的。而在筛选成功这个例子中,却没有给出这样的假设。筛选成功模型中的预测不可能是独立的。他们的预测应该比独立的预测更好,事实确实如此。在雷预测错误的情况下,玛里莲预测准确的概率超过了3/4。因此,她是有目的地消去了雷的错误。我的父母在日常生活中也是这样的。这就减少了群体出错的可能性。统计学家将这种情况称为负相关。本书下文将会阐明,群体的智慧恰恰部分体现于存在负相关或不存在正相关的情况下。
为了在数学上证明负相关性,需要证明当雷预测正确时,玛里莲不太可能正确预测;同时负相关性也意味着当雷预测不正确时,玛里莲更可能正确预测。只有这样,她才能抵消掉雷的错误。为此,先把雷预测正确的剧本记下来,然后再把其中玛里莲也预测正确的剧本予以强调显示(见表8-7)。
表8-7 雷给出的正确预测
?
从表8-7可见,雷每预测16个剧本,就有12次是准确的。而玛里莲在雷预测准确的这12次当中,只有8次是准确的,或者说,玛里莲的准确率只有雷的2/3。如果玛里莲预测准确的概率不依赖于雷预测准确的概率,那么她的预测准确率将会达到3/4,也就是在12次预测当中有9次是准确的。显然,8<9。这就是说,现在玛里莲预测的准确率与独立于雷的时候相比,已经低于预期了。用正式的统计学语言来表示,这就说明他们预测的准确率是负相关的。3
投影性质(the projection property)
如果两个人基于同一视角下的不同变量构建预测模型,在形式上,这意味着他们使用了不重叠的投影解释,那么他们在进行二元预测时的准确性是负相关的。
这个例子是人为给定的,但这并不影响它对更深层真相的揭示。雷和玛里莲预测之间负相关性是这里的关键所在。请注意,他们两人关注的是同一视角下的不同属性,也就是上文中所称的投影解释。雷和玛里莲的投影解释不包含任何相同的属性,所以精确起见,应该称之为不重叠的投影解释(nonoverlapping projection interpretations)。4在那些答案为“是”还是“否”、“好”还是“坏”的预测任务中,不重叠的投影解释总是会导致负相关的预测。这里这个例子就是如此。5
要理解投影性质,需要花些心思。这个性质说的是,如果两个人考虑的是同一视角下的不同属性,也就是不同维度,并且如果要完成的预测任务是预测好还是坏、成功还是失败这样的二元结果,那么当其中一个人的预测是正确的时候,另一个人就可能不是正确的。因此在这种情况下,他们组成的群体的预测,就会比他们在独立情况下的预测更准确。
乍一看,这个结果似乎难以令人置信,或者至少不是那么直观。然而,只要真正理解了,其实也是挺简单的。我们知道,这两个人既然是进行二元预测,那么他们的预测一定有可能出现当一个人更准确时另一个人不那么准确的情况。而要做到这一点,最显而易见的一个方法就是做出不同的预测。还有什么比依据不同属性来进行预测更容易做出不同预测的吗?
投影性质意味着,在群体中将多样性特征的人包括进来,是一种明智的做法。然而,这种观点很难像所希望的那样得到充分利用。视角的维数决定了不重叠的投影解释的数量。假设某个视角只能创建一个关于事件或情况的五维表示,那么该视角就最多只能支持五个不重叠的投影解释。同样,创建了十个维度的视角最多只可以支持十个不重叠的投影解释。
因此,为了避免群体随着人数的增加而出现正相关性,人们必须使用聚丛解释,或者说,他们必须以不同的视角为基础来进行解释。德博拉的解释就是前者的一个例子。虽然也基于相同的视角,但是聚丛解释并不是投影解释。事实上,在政治学和经济学领域,许多论文甚至包括一些开创性论文,都假设存在无数可以得到独立信号的人。因为无穷性假设在数学上处理起来更加容易。如果这些信号是来自预测模型的,那么这种假设就是没有逻辑基础的。构建能够导致独立信号的聚丛解释是可能的,但是这样的例子都是人为构造的。这确实很方便,但是这与假设面包会自动烘烤没有什么区别。要想构建一个好的模型,就不应该把方便的假设和真正好的假设混为一谈。由于假设了信号的独立性,上述那些论文的作者实际上假设了比现实更大的多样性的存在。6
多样性预测定理
上面是通过一个人为构造的例子来说明的,接下来将开始转而阐述若干更普遍的定理。这些定理充分揭示了群体存在不同预测模型的重要性。事实上,这些定理的不同版本在计算机科学、统计学和计量经济学中都可以找到。7为了叙述这些定理,需要两个指标:第一个指标用来刻画一组预测模型相互之间在多大程度上存在不同,另一个指标刻画各个模型的准确性有多高。幸运的是,这两个指标都基于同一种度量准确性的方法:平方误差法。在统计学中,误差要取其平方,以保证负的误差和正的误差不会相互抵消。如果直接将各误差相加,那么人们就可能高估或低估数据,将有误差的情况误以为没有误差,例如–5+5=0。如果先对误差进行平方,那么正负误差就不会相互抵消,例如(–5)2+52=25+25=50。
为了更容易理解我们的定理,还是先构造一个例子。假设米歇拉和朱利安娜开发了一些模型来预测三名学生玛吉、科尔和布罗迪在即将开始的鲁迪·朱利安尼小学拼字大赛中取得的名次。表8-8给出了他们的个人预测、平均预测以及拼字大赛的实际结果。
表8-8 对鲁迪·朱利安尼小学拼字大赛名次的预测
?
首先要计算出米歇拉和朱利安娜预测的平方误差。米歇拉预测玛吉将会得第六名,误差为零;她又预测科尔拿第三名,结果科尔得了第五名,误差为两名;她还预测布罗迪拿第五名,但是他拿了第一名,误差为四名。先求这三个误差(0、2、4)的平方,再求出它们的和:
米歇拉的个体平方误差:(6–6)2+(3–5)2+(5–1)2=0+4+16=20
接下来用同样的方法计算出朱利安娜预测的平方误差。她对玛吉的名次预测错了四名,对科尔的名次预测错了两名,而对布罗迪的名次预测则是完全正确。朱利安娜的平方误差和也是20。
朱利安娜的个体平方误差:(10–6)2+(7–5)2+(1–1)2=16+4+0=20
米歇拉和朱利安娜的平方误差和都等于20,所以她们的平均平方误差和也等于20。我们称之为平均个体误差。到目前为止,似乎没有什么特别的,因为两人的误差是一样的。
平均个体误差,也就是个体平方误差的平均值:
接下来再计算两人群体预测的误差,也就是她们个人预测的平均值。她们的群体预测是,玛吉将取得第八名,结果她拿了第六名,误差为两名。她们对科尔将取得第五名的群体预测是正确的。而她们对布罗迪的预测误差也是两个名次。对这些误差的平方相加总和为8。我们把这称为群体误差。
群体误差,也就是群体预测的平方误差:(8–6)2+(5–5)2+(3–1)2?=4+0+4=8
不难看出,她们的群体预测比个体预测更加准确。这可以用她们预测的多样性来解释。当其中一个人预测得太高、另一个人预测得太低时,她们的误差虽然不一定完全能相互抵消,但也会将误差缩小一些。为了更清晰地呈现预测多样性与群体预测准确性之间的关系,可以计算一下两人的预测究竟有多么不同。为了做到这一点,将分别计算出米歇拉和朱利安娜的个人预测与她们的群体预测之间的平方距离,然后再求出各自的平均值,这就是统计学家所称的预测的方差,不过在这里,则称之为预测多样性。
先计算米歇拉与群体预测之间的平方距离。米歇拉和朱利安娜对玛吉的群体预测是第八名,米歇拉对玛吉的预测则是第六名,差了两名。对科尔的群体预测是第五名,米歇拉对科尔的预测是第三名,差了两名。最后,对布罗迪的群体预测是第三名,米歇拉则预测他为第五名,也差了两名。这些差距的平方总和为12。
米歇拉的平方距离:(6–8)2+(3–5)2+(5–3)2=4+4+4=12
由于在这个例子中只有两个预测者,所以朱利安娜的预测与平均值之间距离必定与米歇拉的相同。其计算过程如下所示:
朱利安娜的平方距离:(10–8)2+(7–5)2+(1–3)2=4+4+4=12
预测多样性等于上述两个距离的平均值。在这个例子中,预测多样性等于12。
预测多样性,也就是个体预测与群体预测之间的平均平方距离:
由此不难看出群体误差8、平均个体误差20与预测多样性12之间的关系:群体误差等于平均误差减去多样性。值得注意的是,这个等式并不是所构造的例子特有的,它总是真实存在的,而且,甚至还有更好的。这个等式适用于存在任何数量预测者的情形,而不仅仅适用于像这个例子这样只有两个预测者的情形。因此,我们将其称为多样性预测定理。
定理
多样性预测定理:
由一组预测模型组成的一个群体,必定有群体误差=平均个体误差-预测多样性
在应用这个定理的时候,必须非常小心,既不能高估它的重要性、也不能低估它的重要性。这个定理所说的,并不是我们不希望群体由预测完全准确的人组成。如果每个人都能完美地进行预测,他们就不可能是多样性的。如果平均个体误差等于零,那么多样性也必定等于零。还要注意的一点是,预测多样性等于群体预测的平均距离,所以增加一个会给出不同预测的人并不一定会增加整体预测的多样性。只有在增加的人的预测平均来说比其他人的预测更加不同时,预测多样性才会增加。这就意味着,能够拥有的预测多样性是有限度的。如果一个群体成员的平均个体误差为1 000,那么他们的预测多样性就不能超过1 000。不断加入更多的多样性让群体误差为负是不可能的。
上面给出的这些警告恰恰揭示了这个定理的微妙之处,必须牢记这个定理的核心:个体能力(平均个体误差)和群体多样性(预测多样性)对群体预测能力有同样的贡献。“不同”与“好”同样重要。按单位增加预测多样性与平均预测能力,对减少群体误差的贡献完全一样。
如果对多样性优于能力定理与多样性预测定理进行一番对比,还可以发现一些重要的区别。在进行预测时,由随机选择出来的预测者组成的群体做出的预测,既可能会、也可能不会比由最好预测者组成的群体更加准确。随机选择出来的预测者一般来说更具多样性,但是他们同时也不太准确。这两个效果是相反的。所以,我们不能期望,一个随机组的预测一定比精英组的预测更加准确。
但是,就解决问题而言,多样性优于能力这个强大的结论是成立的。之所以会这样,是因为表现不好的人在问题解决团队中不会“拖后腿”。举例来说,如果把社会科学家加入到奶酪制造工厂里来,虽然他缺乏相关的工具,但是并不会影响奶酪的生产,这时可以直接无视他。如果让他去搞生产,他可能会造成延误或损失;但是如果他只是提出了诸如生产薄荷味奶酪之类不好的设想,只需要不采纳他的想法就行了。但是,如果任务是预测需要生产多少奶酪,则不能肯定他有没有这方面的能力,当他的预测与其他人的预测一样用于计算平均值时,他也许会令整个群体变得不那么聪明。
多样性预测定理的基本含义是,多样性的群体预测总是比个人预测的平均值更加准确。这个规律与我们的直觉背道而驰;在这里,将它称为“群体优于平均定理”。
定理
群体优于平均定理:
任意一个多样性的预测模型集合,群体预测必定比平均个体预测更加准确,也就是说:群体预测误差<平均个体误差。
群体优于平均定理可以从多样性预测定理推导出来。多样性预测定理告诉我们,群体误差=平均个体误差–预测多样性。同时,只要预测不同,预测多样性就必定是正的。因此,群体误差必定小于平均个体误差。虽然得出这个定律不需要什么高深的数学推理,但是它非常强大。
现在,对于群体的智慧,已经可以给出合乎逻辑的解释了。在一个理想世界里,这些正式定理无疑可以取代诸如“三个臭皮匠,顶个诸葛亮”此类的谚语警句,但是在日常生活中,它们还不够琅琅上口。不过,可以尝试让它们变得更通俗一些。或许可以用“群体的智慧平等地依赖于能力和多样性”来取代“多样性预测定理”,用“群体的预测比群体中个人的预测更准确”来取代“群体优于平均定理”。这样不但不难记,而且也相当准确。
选秀专家的例子
为了巩固对上述内在逻辑的理解,分析一些来自真实世界的数据。纯粹的理论家更喜欢人工构造出来的例子,因为它们非常“干净”且清晰。但是,在有些时候,即便是理论家也忍不住要偷偷看一眼窗外的世界。不过,既然要分析真实数据,最好还是看一些比较有意思的东西,例如橄榄球选秀。表8-9显示了7位选秀专家对2005年美国职业橄榄球大联盟选秀的前10名球员的预测。球员是按照他们被选中的顺序排列的。每个选秀专家都给出了参加选秀的球员的排名。之所以采用美国职业橄榄球大联盟的选秀数据,是因为这个数据集看上去非常“干净”,只包含整数值数据,同时也因为可以将它看作前面那个朱利安娜和米歇拉的例子的一个增强版,还因为这些选秀专家都是在细致的分析的基础上进行预测的,选秀专家的名字可不是白叫的。这些人要花很长时间去评估各支球队的需求、球员的技能以及其他一系列因素。
表8-9 选秀专家对2005年美国职业橄榄球大联盟选秀前10名球员的预测
?
只要看一看他们给出的预测就可以发现,他们预测的准确性截然不同。从表8-9可以看出,有些选秀专家的预测比其他人准确得多。顺便说一下,该表的最后一栏显示了群体的预测。8当然,在这个例子中,所谓群体,就是指所有7位选秀专家的集合。
表中给出的数据有力地证明了群体优于平均定理是成立的。个体误差的平均值等于137.3。如该表最后一栏所示,群体误差只相当于平均个体误差的1/4,只有大约34.4。而且,在这个例子中,群体的预测甚至比它最准确的成员还要准确,尽管群体优于平均定理并不要求这一点。9这个例子也同样证明了多样性的力量。这些选秀专家是多样性的,因此他们组成的群体能够做出很好的预测。
更加值得注意的是,将群体的预测与它最准确的成员的预测进行对比,其实是不公平的。事后再来选择预测最准确的人,这实际上是对群体玩了弄虚作假的把戏。除了克拉克·贾奇自己,没有人会有比他更准确的预测,但是在未来,他可能不是最好的预测者。
再举另一个与金钱直接相关的例子。在投资中取得成功的投资基金,每年都有所不同。如果在年初就可以选出年底投资成绩最出众的基金,那么投资就会很轻松且效益可观了。但这是不可能的,所以我们需要多样性。通过与群体一起前行,就只需承担较小的风险。只有当我们知道,一个专家比其他专家准确得多且其他专家也做出了类似的预测时,才应该跟着这位专家一起行动。
点和面
到目前为止,我们一直只讨论预测和结果之间的区别。然而,在许多情况下,我们可能想知道最好的情景和最坏的情景是怎样的,想了解可能的范围有多大。例如,在建立股票投资组合的时候,投资者可能会关心价格的变动范围。股价可能会上涨多少?可能会下跌到什么价位?在预测潜在的政治动荡时,政策分析师可能不太在乎能不能得出一个准确的局部预测,而是想搞清楚最糟糕的结局和最好的情况。这里可以把最好和最坏的预测与实际结果列出来(见表8-10)。很显然,在任何情况下,结果都在预测的范围之内。
表8-10 对2005年美国职业橄榄球大联盟选秀前10名球员预测的范围
?
这个结果令人惊异吧?其实不,考虑到预测的多样性,这不值得惊异。
群体的疯狂
到目前为止,还没有讨论过群体成员之间的沟通。如果人们可以分享各自的预测,那么他们就可能会变得不那么多样性。用苏格拉底的话来说,群体很容易“随大流”,也就是说,人们经常改变自己的预测以便与他人的预测保持一致。因此,不一定能观察到群体智慧的涌现,反而会观察到群体的“疯狂”。是的,可能会看到投机者以疯狂的价格购买郁金香。我们也可以用多样性预测定理来解释群体的疯狂。不过在这里要明确的是,当说一群人陷入了群体疯狂的时候,所说的是一群人都采取了同一种行动,而且那种行动在反思时会被认为完全没有道理。
说一个群体陷入了疯狂,意味着这个群体的成员系统性地做出了同样的错误决定。如果人们是在某种非常紧迫的情况下做出了这种决定,比如说在沙发起火燃烧时,或许可以把这种情况归结为人类的某种倾向,下文将讨论这个问题。如果人们在有时间去构建他们认为合理的预测模型时做出了这种决定,那么就可以归因于群体缺乏多样性了。多样性预测定理意味着,只有当群体成员既缺乏准确性又缺乏多样性的时候,才会产生这种令人震惊的错误。
因此,这个定理表明,深思熟虑也是一把双刃剑。如果人们彼此交流、相互分享信息和评估彼此的模型,那么他们可以提高模型的准确性。但是,这样做同时也会减少模型的多样性。事实证明,人们经常抛弃准确的预测模型,而偏爱不那么准确的模型。在一个经典的实验中,美国社会心理学家所罗门·阿希(Solomon Asch)让参加实验的被试比较几条线段的长度。被试看的每幅图片上都有一条参照线和另外三条分别标记为A、B和C的线段。10图8-1给出了阿希所用的其中一幅图片。
?
图8-1 阿希的线段
被试们排队进入一个房间,主试按顺序问他们哪一条线段比参照线长、哪一条线段与参照线的长度相同、哪一条线段比参照线短。第一个回答问题的被试是阿希事先安排好的,他按照阿希的授意,故意给出错误的答案。结果发现,大约1/3的被试都给出了错误的答案。在这个实验中,人们放弃了他们对线段长度的判断。因此,当他们在预测股票市场走势、房价上涨趋势和彩票中奖号码时放弃了自己的判断,我们也不必感到惊讶。
当然,导致群体疯狂的不仅仅是从众心理。事实上,在群体环境中,人们在大多数意见的方向上往往会走得太远。所以,如果人们普遍认为价格会上涨的话,那么这个群体就可能会陷入疯狂:他们会开始相信,因为大多数人都认为价格将上涨,所以价格会大幅上涨。
多样性的免费午餐
为了进一步深入分析为什么群体是有智慧的、群体是如何变成有智慧的,还可以利用前文阐述过的另一个观点:多样性解释会导致多样性预测模型。在“筛选成功”那个例子中可以看到,多样性解释是如何通过投影性质导致负相关预测的。这个事实告诉我们,群体有时可能会比所预期的要聪明得多。
为了进一步阐明这种联系,接下来先分析一些人们使用多样性投影解释的例子。在这些例子中,所有的解释都依赖于一个共同的视角。然后,还将分析一个不同的例子,在这个例子中,群体的成员以多样性的视角为基础进行解释。我们将会看到,在某些情况下,基于多样性视角的解释可以使预测性任务比使用基于某个视角解释的预测模型时更容易。我们好像有某种神奇的力量,事实上,这种神奇的力量就来自多样性视角。
同一视角的不同部分
在做出一个重要预测的时候,比如预测谁将赢得大选、经济是否会增长,或者发生武装冲突的可能性有多高,肯定要考虑许多变量或属性,不然就无法做出准确的预测。确实,我们头脑中一直都保持着很多变量。也许会先试一试某个单变量模型,但是这种模型成功的机会不大。《纽约时报》记者托马斯·弗里德曼(Thomas Frieman)曾经注意到,如果两个国家拥有麦当劳餐厅,那么它们之间就不会爆发战争。这个“金拱门定律”直到1999年才被推翻,在那一年,北约轰炸了南斯拉夫联盟。11由此看来,根据快餐店的位置来决定外交政策并不是一个好主意。
然而,人们通常并不愿意花费数小时去开发一个有许多变量的复杂模型,而更愿意使用简单的单变量模型或双变量模型。例如,我们可能会认为,经济形势大有好转了,因此现任总统有可能再次当选。或者,也可能会认为,现任总统从来没有采取过什么重大的政策举措,所以他很可能会落选。这两个模型似乎都有一些道理,而且每个都只考虑一个变量。
要搞清楚这些简单的模型是如何集结到一起给出准确的(或者至少是相当准确的)预测的,不妨想象一下,当想要预测一个位于泽西岛上的热狗摊的年销售额时会发生什么。假设,当前的销售额可以表示为10个属性(在统计中,它们被称为变量)的一个线性函数。这些属性包括平均夏季温度、降雨量、天然气价格、道路状况等,甚至包括牛肉价格。假设热狗中有牛肉;在某些情况下,这是观念的一个飞跃。
接下来,召集一大群人,让每个人都在上一个夏天的销售额的基础上进行预测。在这个群体中,每个成员在预测时都可能会考虑上面所说的这些属性中的某几个属性。假设这些群体成员对属性的选择是随机的。这样一来,群体就可能包括、也可能不包括所有的属性。12为了方便,假设群体中的每个人都使用线性回归模型。线性回归模型的特点是,将结果预测为一个常数再加上每个相关变量乘以某个系数后的积。例如,基于温度的变化来预测销售额的线性回归模型的形式可能如下所示:
销售额=0.3+1.2×温度
在这个例子中,销售额是上述10个属性的线性函数。为了使模型尽可能简单,假设每个变量的系数都等于1。进一步假设每个属性的取值都介于–1和1之间,这个假设使销售额的期望变化等于零。如果用a1、a2、…、a10表示各属性,那么总销售额变化表示如下:
S=a1+a2+…+a10
接下来,再假设群体中的每个人都根据自己随机选择的三个属性来进行预测。用稀疏数据来运行回归时,系数估计值都是近似值。因此,基于属性1、属性4和属性8来做出预测的群体成员i的预测模型可能如下所示:
个体i的预测模型:Si=1.1a1+1.08a4+0.991a8
将群体各成员的预测模型加起来,并对它们的预测进行平均,就可以得到群体的预测模型,如下所示:
群体的预测模型:SC=0.32a1+0.42a2+0.28a3+0.37a4+0.36a5+0.35a5+0.33a7+0.38a8+0.29a9+0.34a10
群体的模型预测包含了所有的属性,但是各属性的系数却远远算不上准确。这种准确性的缺乏不仅仅是因为个体在近似时的误差,尽管这种误差确实是存在的。更重要的原因是,平均而言,群体中只有30%的成员会把每一个属性都考虑进去。因此,对所有预测进行平均时,即使每个群体成员对系数的估计都是正确的,群体预测也会低估每个属性的影响。这种求平均值的过程弱化了每个人预测模型的影响。
覆盖性(coverage property)
群体任何一个成员的预测模型所包括的任何属性或属性组合,必定被群体的预测模型所包括。
这个例子揭示了多样性的群体给出预测的两个特征:覆盖性和粗略近似性。
这两个性质结合在一起,可以保证群体做出平均来说准确性相当高的预测。但是,它们同时也意味着,我们不能期待完美的准确性。因为群体包含了太多变量,所以如果变量的某些子集的出现了意外的值,也用不着太过惊奇。即使群体的系数只能接近实际值,但是大多数时候群体都不会犯下很大的错误。在热狗摊的例子中,可能只有一部分人考虑到了道路交通状况这个因素。如果进行大规模的道路建设,那么这些人对销售额的估计值就会很低,从而会降低整个群体的估计值,使之更加准确。
粗略近似性(crude approximation property)
群体预测模型粗略地近似于任何属性或属性组合对结果的影响。
这个人为构造的例子看上去似乎不如真实世界中群体智慧的例子那么“性感”,比如对一头肥牛体重的估计误差在一磅之内,对一个罐子里糖豆数量的估计误差在一两粒之内。但是,本来就不应该期待每次都能得到这样的结果。我们的分析表明,多样性的群体预测相当准确,但不是在所有情况下都会非常准确。有的时候,群体很幸运,它们的预测极其准确。下面就来看看这种情况是怎样发生的。是的,在过分强调临床和统计意义之前,得先把魔法收回瓶中。
瓶中的魔法
在那个预测热狗摊销售额的例子中,假设每个人都是在同一个变量集合中进行选择的,这样就限制了多样性的程度。可以这样说,这些人都是用同样的视角来解释的。但是,没有理由认为人们在所有情况下都会这样做。只要人们不这样做,就可以拥有更多的“魔法”。在下一个例子中,覆盖性和粗略近似性都仍然保持不变,而且会以一种更有趣的方式表现出来。
在这个例子中,考虑一个相当复杂的函数,它根据三种化合物的存在或不存在,给出由化学反应产生的能量。对于A、B、C三种化合物,如果任何一种化合物存在,就赋值为1;如果不存在则赋值为0。将化合物存在与否映射到结果的函数如下所示:
产生的能量:E=2A+B+C–2AB–2AC–2BC+4ABC
就是类似这样的函数,使数学蒙上了晦涩难懂的坏名声。但是,俗话说得好,“各花入各眼”,有人以为丑陋的,旁人却可能认为很美丽。在下文中,这只丑小鸭就会变成美丽的白天鹅。但是在这里,还是先将就着用一下这个“丑陋”的函数吧,只需代入A、B、C的值即可。幸运的是,这些变量都只取0和1这两个值。如果A=0,B=1,C=1,则该函数的值等于B+C–2BC,即1+1–2=0。
假设有两个孩子,名为奥里和库珀,他们对科学现象有着浓厚的兴趣。假设他们并不了解这个复杂函数的具体形式,只是试图预测结果。奥里的预测模型只考虑了第一种化合物A的存在。为了确定奥里对总能量的预测,必须先确定每一种化合物组合产生的总能量(见表8-11)。
表8-11 化合物的存在所产生的能量
?
在存在化合物A的情况下,化学反应产生的平均能量等于1.5。在化合物A不存在的情况下,化学反应产生的平均能量等于0.5。因此,奥里的预测模型如下:
奥里的预测模型:EO=0.5+A
这看上去似乎与原来的函数完全不像。但是再强调一次,奥里只是一个孩子啊。
库珀则依赖不同的视角,他向来以用独特的方式看待事物而闻名。他没有考虑单一的化合物,而是研究了化合物的组合。然后他又使用了一个独特的解释,只考虑组合中包含的化合物的数目是偶数还是奇数。基于此,他建立的预测模型的形式将会是:
库珀的预测模型:如果A+B+C为偶数,那么EC=0.5;否则EC=1.5
这与他们试图预测的那个“丑陋”的函数表示完全不相似。奥里和库珀的联合预测等于他们两人预测的平均值。对于他们联合预测的准确性,似乎不应抱太高的期望。表8-12给出了他们两人对每种化合物组合的预测值和每种化合物的实际能量水平。
表8-12 实际生出的能量与预测的能量的对比
?
令人难以置信的是,奥里和库珀完全准确地预测了8种组合中的4种能量水平,而且另外4种也只错了一半。尽管他们的预测模型非常简单,同时他们试图预测的函数却非常复杂,但是却得到了如此不错的预测结果。这种情况是怎么发生的?在这里,群体似乎比任何一个成员都要聪明得多。
这种惊人的准确性可以用他们视角的多样性来解释。奥里的视角考虑的是化合物的存在,而库珀的视角则关注化合物的组合。13当将库珀的预测模型转化为奥里视角下的预测模型时,可以清晰地看到多样性视角的神奇力量。它看起来就像一只白天鹅。
库珀的预测模型:EC=0.5+A+B+C–2AB–2AC–2BC+4ABC
要推导出这个式子需要费点心思,但是只要验算一下就不难发现,任何奇数化合物的组合都会给出1.5的取值,任何偶数都会给出0.5的取值。尽管这个公式看起来似乎非常复杂,但是库珀其实并没有做什么复杂的事情。他只需要计算一下化合物的数量,确定是不是偶数。然而,如果转化为另一个视角下的预测模型就非常复杂了,而且确实与真正的函数很相似。如果对这个预测模型与奥里的预测模型进行平均,就可以得出群体的预测模型:
群体的预测模型:E=0.5+A+0.5B+0.5C–AB–AC–BC+2ABC
就像热狗摊销售额的例子一样,在这里,各系数也是其实际值的粗略近似值。但是,只要有了这些粗略近似值,群体就能以相当惊人的准确度进行预测了。14
刚刚看到了,如果将基于不同视角的两个简单的预测模型组合起来,那么群体的预测模型就可能变得非常复杂。这就进一步加强了第一章中提出的一个观点:在一个视角下很容易表示的东西,放在另一个视角下其表示形式可能会变得非常复杂。所以,没有什么经验的人组成的群体有时也可以预测非常复杂的函数,只要他们使用了基于不同视角的解释。
接下来还将看到,基于聚丛解释的预测模型也可以起到类似的作用,因为这类模型也能够刻画变量之间的交互关系。请你回顾一下“筛选成功”那个例子中德博拉的预测模型,那个例子中的预测模型可以转化为用数学函数来表示。要做到这一点,只需要用0~3的数字分别表示“性”和暴力从无到高的属性,然后再用S和V分别表示某个剧本的价值。如果将结果值1分配给一个有利可图的剧本,将结果值0分配给一个无利可图的剧本,那么稍微花点功夫就可以把德博拉的预测模型写成下面这样的形式:15
德博拉的预测模型:
这个函数表达式看上去非常可怕。这就是要点。基于聚丛解释的预测模型包括了很多交互项。根据定义,聚丛就是要将不同的变量结合起来。也正是因为这个原因,某些很好的聚丛解释本身可能是很难解释的。爱默生的说法是对的:与众不同的经常会被误解。
不同视角(如库珀的)和聚丛解释(如德博拉的)所拥有的将交互效应包括进来的巨大潜力,证明了多样性预测模型一个近乎神奇的性质:简单的多样性模型可能同时也是非常复杂精巧的。用前面提到过的“天下没有免费的午餐定理”,也就是没有任何一个启发式在所有问题上都比其他启发式更好作为对比,可以把这个性质称为“群体可能有免费午餐定理”。
定理
群体可能有免费午餐定理:
聚丛解释以及基于不同视角的解释可以生成包含交互效应的预测模型。拥有这样预测模型的群体有时能够预测一个复杂的函数。
之所以称之为“可能的免费午餐”,是因为不能预先保证这些交互项都是适当的,而且,根据粗略近似性,我们知道群体模型中这些交互项的系数其实是有误差的。然而,即便如此,上面这个例子和“筛选成功”例子都有力地表明,做出非常准确的预测仍然是完全有可能的。
群体VS专家
现在已经讨论了群体是如何做出准确预测的。但是,通常来说,有意义的是对群体的预测与专家的预测进行比较,下文中还会讨论这个问题。应该由谁来做出决定,是一个多样性的群体,还是一个专家?华纳兄弟公司是不是应该雇用一位专家来预测电影DVD的销售情况,还是应该在公司里找出40个人来做这种预测?政府是不是应该雇用一些专家、组建一个办公室来预测预算盈余或赤字,还是应该在网上创建一个预测市场?
到目前为止,通过分析已经掌握了一些如何在群体与专家之间进行权衡的方法。群体的预测模型不仅可以将许多属性包括进来,甚至还可以将这些属性之间的相互作用包括进来,尽管模型中这些属性及其交互项的系数只是粗略近似的。相比较而言,专家的模型则比群体中任何一个成员的模型都要精细,而且要比群体的群体模型显得更加“突出重点”。尽管专家的模型可能只包含更少的变量和更少的交互项,但是可以假设专家对系数的估计更加准确。为了加深理解,可以先来看一下,专家的预测模型在什么时候比群体更加准确。如果专家的解释是提炼了群体成员的解释结果,那么这种情况就会出现。在发生这种情况的时候,就可以说专家占优群体。如果群体任何一个成员的解释中的任何一个集合都包含了专家解释中的一个集合,就说专家占优这个群体。
上面给出的条件意味着,专家的模型包含了群体中任何一个成员的预测模型所包含的任何属性以及属性之间的交互关系。或者,换一种专业性不那么强的说法,专家在每个属性上都比群体的任何一个成员更好地解析了现实。
下面这个推论则指出,平均来说,占优群体的专家的预测,要比群体的预测更加准确。当专家占优群体时,专家的预测模型比群体的预测模型更加准确,也就是说平方误差更小。
这个结论的内在逻辑很容易理解。在专家的解释中,会把平方误差降到最小。而群体解释的子集是对专家解释的子集的归并,因此平均而言,群体所做的预测最多只能与专家的预测一样好。但是群体实际上往往做不到这一点。因此专家预测平均来说必定更加准确。16
现在,我们已经触及了真正微妙的地方。即使占优群体的专家的预测平均来说更加准确,但是专家并不会在所有情况下都能预测得更加准确。而且更加重要的是,当群体的预测更加准确时,我们可以找到其中的模式。
接下来,想象一场有15位选手参加的保龄球赛。为了方便起见,假设这15位选手的姓氏非常整齐:第一位选手姓氏的首字母为A,第二位为B,……,最后一位为O。每位选手在保龄球赛中的平均得分介于100~250分之间。为了便于讨论,在这个例子中,还假设选手姓氏的首字母越靠后,他的平均得分就越高。在这里,将比较一个专家苏珊与一个群体预测的准确性。专家苏珊,这里用一个更时髦的名字苏贝来表示,群体则由拉里、莫和柯里这三个臭皮匠组成。这里将构造一个场景,使苏贝占优这个群体。苏贝将这些参赛者分成5组,每组三人(见表8-13)。
表8-13 苏贝的解释和预测
?
拉里的解释创造了三个集合(见表8-14)。这是他把苏贝的集合2、集合3和集合4进行归并后的结果。
表8-14 拉里的解释和预测
?
类似地,莫则分别将苏贝的集合1和集合2、集合4和集合5归并到了一起,而对苏贝的集合3则予以单独考虑(见表8-15)。
表8-15 莫的解释和预测
?
最后,柯里把苏贝的所有5个集合都归并成了一个集合。因此,柯里的预测是,每位选手在比赛中的得分都是180分。这个预测其实不算太差,其他人的预测可能还会更糟,至少他得出了正确的平均数。
请注意,在拉里、莫和柯里的解释中,每一个集合都至少包含了苏贝的一个集合。因此根据我们的定义,苏贝占优这个群体。当然,这个事实并不意味着苏贝的预测总是更加准确。表8-16给出了苏贝和这个群体对那15名保龄球手得分的预测,并列出了谁才是更加准确的预测者(苏贝的各个集合以水平线划分)。
表8-16 苏贝的预测与由拉里、莫和柯里组成的群体的预测的比较
?
从表8-16可见,尽管苏贝占优群体,但是在15次预测中只有10次比群体更加准确。在这15次预测中,有两次群体的预测比苏贝的预测更加准确,还有三次是双方平手——群体和苏贝做出了同样准确的预测。因此,即便是占优群体的专家,在有些情况下也不如群体准确。
一个由不那么聪明的个人组成的群体的预测,可能比占优群体的专家的预测更加准确,这种可能性使我们对通过收集相关的趣闻轶事来证明群体的智慧的做法产生了怀疑。是的,我们总能找到群体的预测比专家的预测更加准确的例子。也可以在网上轻松地获取这些趣闻轶事,这就解释了为什么社会科学家要把重点放在系统性的证据上。
现在,再回到这个例子上来。经过更细致的分析,我们发现了一个模式,它说明什么时候群体的预测比专家的预测更加准确。只有当结果位于苏贝的预测与平均结果之间时,群体的预测才会更加准确。例如,群体预测保龄球手F的得分为165分,他的实际得分为160分,而苏贝的预测则是150分。在这种情况下,群体的预测位于180分这个平均分与苏贝预测的150分之间。这种偏向于平均值的趋势,恰恰是因为群体的解释更加粗略所导致的。
投影解释之群体对决专家
上面对专家苏贝和群体预测的分析表明,即使是只拥有准确度中等偏下模型的群体,在一定情况下也可以与专家一争高下。不过很显然,专家占优群体,平均来说肯定更有利于专家。因此,现在让群体与专家在更加平等的位置上“相互竞争”。为此,我们扩展了前面举过的预测热狗摊销售额的例子,方法是系统性地改变专家的能力和群体的规模,然后进行比较。
首先假设,这个例子中的专家根据10个属性中的E个属性构建了一个预测模型。E值越大,专家的能力越高。如果E=6,并且如果专家考虑了前6个属性,那么专家的预测模型可以表示如下:
专家的预测模型:S=0.994a1+1.02 a2+1.003 a3+0.98 a4+0.992 a5+1.04 a6
与此相反,假设群体中的每个人都基于随机选择的C个属性构建了一个预测模型。要确保C<E;否则,群体将比专家还要更“专家”。然后,改变C和E的取值,进行各种尝试。C越大,群体就越“聪明”。C的值相对于E越大,群体的预测就越可能比专家的更加准确。
表8-17和8-18对群体与专家的预测进行了比较。在表8-17中,C变化,同时E保持8不变。而在表8-18中,E变化,同时C保持4不变。17
表8-17 见多识广的专家(E=8)对能力可变的群体
?
表8-18 群体(C=4)对能力可变的专家
?
这两张表显示的结果正如预期:群体中的人越复杂,群体的预测越准确;专家越复杂,专家的预测也越准确。
过度拟合悖论
上面这些例子引出了一个有意思的问题:为什么专家不在自己的模型中包含更多的属性?专家事实上是有可能覆盖所有属性的。如果专家精确地计算出了每个属性以及属性组合的效应,那么由于群体预测模型的粗略近似性,专家应该可以比任何群体都能更加准确地进行预测。
这真的是可能的吗?似乎是。然而不幸的是,这种逻辑有三个缺陷,所以我们总是需要群体。
首先,它假设专家能够构建任何复杂程度的模型并运行详尽的回归。不然的话,由于天生的认知约束和认知偏见的存在,当专家考虑太多的信息时预测反而会变得更加不准确。其次,这种逻辑也没有考虑“可能的免费午餐”。群体成员的模型可能依赖多维视角和聚丛解释。如果是这样的话,那么专家可能无法构建出一个与群体模型同样复杂的模型。这种可能性是存在的,不过可能不是那些主张利用群体的智慧的人愿意经常提及的。免费午餐是可能的,只不过我们没有理由认为它永远存在。最后也是最重要的一点,这种逻辑假设总是存在足够的数据,而且专家总是可以获得所需数据。但是在现实世界中,专家可能无法构建包含了许多属性的复杂模型。在没有足够数据的情况下,如果专家考虑了所有的属性,他的预测模型就会出现过度拟合问题。
过度拟合意味着,相对数据而言,预测模型使用了太多的变量,并试图精确地估计这些属性的系数。这样做会导致估计不准确的风险。下面这个例子可以帮助我们更好地理解过度拟合的含义。
假设一家咨询公司从某个顶级商学院聘请了一位顶尖专家玛格达。该咨询公司指定她承担一项重要任务:预测公司早餐所需的华夫饼数量。这家公司的合伙人要求公司的年轻员工长时间工作且保持良好的工作状态。计算需要准备的华夫饼数量W的模型如下:
实际的华夫饼数量:W=4P+2A+F
其中,P表示公司的合伙人的数量,A表示公司的员工数量,F等于掉到了地板上的华夫饼数量。
我们在这里感兴趣的问题是过度拟合,所以不想给玛格达提供太多的信息,那样她构建模型就太容易了。所以假设玛格达只有两个数据点来构建她的预测模型:4月份的早餐和3月份的早餐。4月份的早餐是这样的:有10名合伙人和20名员工就餐,同时没有一块华夫饼掉落在地板上。只要计算一下,就知道早餐要准备80块华夫饼。183月份的早餐是这样的:有15名合伙人和15个员工就餐,同时有15块华夫饼掉落在了地板上。这需要准备105块华夫饼。再假设玛格达的预测模型只包括合伙人和员工的人数,但是不考虑华夫饼掉落到地板上的可能性。因此玛格达的预测模型可能采取以下形式:
玛格达的预测模型:W?=βP+αA
不难证明,只要稍作变形,玛格达的预测模型可以改写成W=6P+A。19只要代入数字,就可以看出,她的模型很好地拟合了现有的数据。但是,由于该模型过度拟合数据,所以无法成为一个合适的预测模型。真实的系数离6和1太远了。
接下来,为群体构建一个模型。这个群体的成员只有两个人:乔希和安娜。乔希的模型只考虑到了合伙人的人数,而安娜的模型则只考虑到了员工的数量。利用相同的数据,可以得到如下预测模型:20
乔希的预测模型:W=7.4P
安娜的预测模型:W=5.3A
如果对这两个模型加以平均,就可以得到群体的预测模型:
群体的预测模型:W=3.7P+2.65A
很显然,群体的预测模型更接近于实际的华夫饼数量:4P+2A+F。在绝大多数情况下,群体的预测都要比玛格达的模型更加准确。21
那么,玛格达的预测出了什么问题?在将合伙人和员工都包括进来时,玛格达低估了员工吃华夫饼的数量。之所以会发生这种情况,原因在于,在第一个数据点上,就餐的员工人数比合伙人多,而且没有什么华夫饼掉落在地板上。因此她只能推断,员工不会吃很多华夫饼。
这个例子还可以说明一个更大的问题。一些计量经济学家之所以会认为包括了太多变量的模型是值得怀疑的,也正是因为这个原因。22只有少数几个变量的模型则不会遇到这样的问题。我们可以把一系列简单的模型加起来,从而创建出一个更大的模型。而且这种总体模型不会出现过度拟合问题。它可能成为一个更好的预测器;不过,它也可能只是一个粗略的近似价。
那么,专家为什么不去平均多个模型呢?第一个原因是,专家的目标通常不仅仅限于预测,他们还想解释属性的影响。专家可能想搞清楚教育对收入的影响,同时尽可能准确地预测收入水平。第二个原因是,作为专家,他们就得这样做才能像个专家的样子,而且他们已经这样做了很长一段时间了。早在20世纪70年代,将预测与解释结合起来的做法就在经济学家当中开始流行起来了。23随着计算机功能的日益增强,将多种模型结合起来已经成为进行预测的一种行之有效的方法。这些集成方法(ensemble method),正如他们所说的那样,通常比被集成的任何一个模型都要精确得多。24根据群体优于平均定理,若干模型的平均必定比一般的模型要好,但是不能确定它一定能优于最好的模型,虽然实际上确实如此。
集成方法也不一定要假设各模型具有相同的权重,但是等权重确实是一个很好的基准。一种用于改善等权重的方法依赖于贝叶斯统计原理。这种方法被称为贝叶斯模型平均法(Bayesian Model Averaging),它对所有可能的模型进行平均,同时根据每个模型在给定数据的情况下正确的可能性来选择权重。25与由个人组成的群体不同,由统计模型组成的群体的规模不能太大,至少目前是这样。如果组合了20多个模型,那么计算所花费的时间就会太多。贝叶斯模型平均法并不是加权模型的唯一方法。另一种同样很受欢迎的方法被称为引导聚合法(bootstrap aggregation)或装袋法(bagging),它会增加那些能够捕获其他模型误差的模型的权重。26正如接下来将会看到的那样,按准确度加权的模型具有一定优势,同样正如将会看到的,市场也为此提供了足够的激励。
能力很重要,多样性也很重要
在投票中,每个人预测的权重是相同的,即便是那些不好的预测也是一样。一种更好的方法是根据模型的准确性对模型进行加权。信息市场可以赋予一些模型比其他模型更大的权重。27在信息市场中,人们要用自己的钱去“下注”。那些相信自己预测模型准确的人会下更大的注,而那些不确定的人则可能只会下小注。激励机制会把不准确的预测者驱逐出市场。市场同时还可以减少人们做出不同预测的动机。如果其他聪明人认为股票价格应该比你所想象的更低,那么你或许应该降低你对股份的预期。事实上,如果确实存在关于理性最大化行为的常识,那么市场上所有人的预测都应该是一致的。28
现在假设信息市场上有许多参与者,而且每个参与者都可以投下不同大小的注。同时假设一个人的模型越准确,他所下的注就越大。换句话说,人们知道他们自己的模型在什么时候是准确的。在某些情况下,这可能是一个过强的假设。29如果所下的注大小与预测的准确性是正相关的,那么信息市场就可能比等权重的投票更有优势;但是,这个结论也不一定总是正确的。为什么会这样?可以用多样性预测定理来说明。在假设更准确的预测模型会获得更大权重的情况下,预测的平均准确度会上升。但是,预测的多样性则可能会降低。因此,信息市场是否能产生比投票即所有模型的平均更准确的预测,取决于平均能力的增加是否超过了多样性的下降。
驱逐傻瓜法(fools rush out)
预测模型非常不准确的人可以回答民意调查中的问题,但是不能在信息市场中下注。
回想一下上面对群体与专家预测的准确性进行的比较。我们可以把专家视为一个特殊的群体,也就是把所有的权重都赋予最好的那个预测群体。在许多情况下,专家之所以无法像群体一样准确地进行预测,就是因为多样性的损失超过了准确性的增益。把所有权重都赋予某个单一的预测是一个极端,而另一个极端则是对所有预测都赋予同等的权重。信息市场介于这两个极端之间。那么,这是否意味着信息市场的预测更加准确呢?答案取决于具体的加权方法。一个经常用来确保准确性的增益超过多样性的损失的方法是,把极其不准确的预测驱逐出信息市场。我们把这种方法称为“末位淘汰法”或“驱逐傻瓜法”。
如果最不准确的预测模型被驱逐出去了,那么准确性的提高幅度可能会相当大。虽然会损失一些多样性,但是这种损失能够被精确度的增加所抵消。30作为这方面的一个例子,回过头去看一下前面橄榄球选秀的例子。假设两个最不准确的预测者都失去了进入信息市场的信心,或者说,他们被驱逐出了信息市场。接下来,考虑在放弃这两个最不准确的预测者之后采用新的加权方案。在采取等权重下注方案时,剩下的预测者下的注全都相同。而在采取加权下注方案时,每个预测者下的注与自己的排名成正比。最好的预测者得到的权重为5,次好的预测者的权重为4,以此类推,最差的预测者的权重为1。表8-19给出了投票即群体预测、最好的个体预测者克拉克大法官,我们称之为专家,以及信息市场在这两种加权情况下的预测。
表8-19 投票、专家和信息市场对2005年美国职业橄榄球大联盟选秀预测的对比
?
克拉克·贾齐的情况最糟糕,而表现最好的则是加权下注情形。特别有意思的是,7个预测者投票时的情况要比只有最好的5个预测者投票时更加好。这个例子表明,即使把最差的预测者排除出去,并赋予更准确的模型更大的权利,也有可能在减少多样性的同时降低群体预测的准确度。当然,这里必须很小心,不能对一个例子进行过多的解读,但是它确实有力地支持了我们的结论——多样性和能力同样重要。
激励的双重力量
信息市场会创造激励,一方面让那些不够自信的人留在市场外面,另一方面让那些有足够信心的人在市场中投下更大的注。只要不是过于极端,这两种激励都可以改善总体预测。否则,将只有最准确的那个预测者才会下注。因此,应该将激励措施包括在内,但是必须适度。在一些经济学家看来,调节激励机制是很困难的。经济学家喜欢激励的方式,就像植物学家喜欢植物一样。激励是很强大的力量。正是因为有了激励,信息市场才拥有了相对于投票的巨大优势。激励也是自由市场得以有效运行的原因。但是,必须控制激励,以保证适当的多样性。我们是想抛弃一些不好的模型,但是并不想抛弃全部模型。
激励机制还会以一种更深入、更微妙的方式运行,对此还没有讨论到。在许多信息市场中,效益不仅取决于自己的预测是否正确,还取决于其他人做出正确预测的概率。
许多市场都有“失望越大、效益越大”的性质。也正因为如此,这些市场的参与者有很大的激励机制去发展出多样性的预测模型。假设你可以构建一个模型,当大多数人预测错误的时候,它可以给出正确的预测,那么这个模型就会带来极其巨大的回报。因为如果预测正确的话,奖金只会被很少的几个人分享。因此,市场创造了两个投票机制无法创造的激励效应:第一个激励是追求准确性,第二个激励是追求多样性。这两个激励效应都能提高群体预测能力。正确的预测能够让一个人赚到钱;不同于他人的预测则能够让一个人赚到更多的钱。
在这里讨论这么多与金钱相关的东西,似乎显得有点怪异。当然,金钱只是这个领域通行的一种说法而已。预测市场也可以与名声有关。例如,考虑前面举的橄榄球选秀那个例子中的选秀专家。他们之所以给出与他人不同的预测,其中一个原因很可能就是上述多样性激励所致。这些预测者要建立自己的声誉,就要在市场上相互竞争,所以每个预测者都有激励给出不同于所谓“共识”的预测。
芒格是怎样做决定的
现在总结一下。本章的主要内容是:对于一个群体来说,要想有“智慧”,它的成员在个体层面必须是聪明的,或者在群体层面必须是多样性的。当然,理想情况是两者兼备。有时候,当群体成员的预测模型依赖于多样性的解释时,群体甚至可以享受到“免费的午餐”。简单的、多样性的个体预测模型可以形成复杂的群体预测模型。这些群体的表现甚至可能比专家的表现还要好,因为它们的覆盖面越来越大,有效地弥补了群体预测的粗略性。当群体已经考虑到被专家所忽略的某个属性或变量具有意想不到的价值时,这种情况就肯定会发生。
如果不让群体进行投票,而是创建一个信息市场,让人们可以自由地投入不同金额的注,那么就可以使群体的预测更加准确。市场激励可以将最不准确的预测者驱逐出去,并将更大的权重赋予更准确的预测者,只要准确的预测者知道自己是准确的。这两种效应似乎都会导致群体预测的准确度更高,但是不能将这个逻辑推得过远。如果只有最好的预测者继续留在市场中,或者将绝大部分权重都赋予最好的预测者,那么最终将会得到一个单一的专家,他的预测可能并不比群体更好。最后,如果人们知道信息市场将会发挥作用,那么他们就有充分的激励机制去追求多样性,就像有充分的激励机制去追求准确性一样。而这些将会进一步改进群体预测。
所有这一切都指出这样一个结论:在理想情况下,我们将会有一大堆模型,它们在市场上相互竞争。最好的预测应该来自多样性的模型组成的集合。这些模型应该以不同的方式解析现实。它们应该或者依赖于基于不同视角的解释,或者依赖于在同样视角下看待不同的属性的解释,又或者依赖于将同一视角分割成不同的聚丛解释。如果真的是这样,那么每个模型都将是准确的,同时模型的集合则将是多样性的。准确性和多样性的结合,将创造出一个有智慧的群体。
创建一个群体模型的方法如下:组建一个群体,其成员具有多样性的(且相关的)身份、经验和培训经历,赋予他们适当的激励,并加入一些“百搭牌”。例如,在预测5个营销计划中哪一个最好时,化学知识也许不如社会学或心理学的知识那么重要,但是让化学家加入可以保证更大的多样性。然后,要给这些人足够的激励,让他们去建立各种各样的模型,这里所说的并不是数学模型或实证模型,而是内在一致的预测模型。不要去训练他们如何思考要解决的问题,那会破坏他们的多样性。最后,设置一个入门壁垒,以保证只有那些认为自己能够做出合理预测的人才能加入到群体中来。群体规模不一定很大。有时七八个成员就足够了。不过,在成员人数较少的那些群体当中,比如说管理层、陪审团、劳工委员会、董事会,等等,必须努力确保人们会使用多样性的模型,这可能是更加重要的。而在规模较大的群体中,某种程度的多样性几乎肯定会出现。87个人不太可能想法完全相同,但是8个人却有可能。
甚至连个人也可以建立起自己的群体模型。华尔街最好的那些投资者就是这样做的。事实上,传奇投资家查理·芒格和沃伦·巴菲特就是如此。他们两人一起为伯克希尔-哈撒韦公司的投资者决定数以十亿计的美元资金的投资方向。查理·芒格的投资决策就是基于他所称的心智模型格栅(lattice of mental models)做出的。这是一系列逻辑上一致的多样性模型,芒格在它们的基础上做出了准确的预测。当然,在这里只能猜测,芒格的群体模型必定是一个有智慧的、多样性的群体。