• 精选
  • 会员

专家问题,可悲的虚有其表

2025年1月4日  来源:黑天鹅 作者:纳西姆·尼古拉斯·塔勒布 提供人:goulun70......

不论任何人告诉你任何事,对专家思考过程的错误率提出疑问都是有好处的

到目前为止,我们还没有质疑过专业人士的权威,而只是质疑他们对自己知识的有限性作出评价的能力。认知自大并不排除技能的存在。一个管道修理工几乎总会比顽固的评论员更懂得管道修理。一个疝气外科医生在疝气方面的知识几乎不可能比胃癌知识少。但另一方面,专家对概率却处于无知状态,而且你比专家更了解这一点。不论任何人告诉你任何事,对专家思考过程的错误率提出疑问都是有好处的。不要质疑他的过程,只要质疑他的自信。(作为一个被医生骗过的人,我学会了谨慎,并且我号召所有人谨慎:如果你带着某种病症走进一个医生的办公室,不要听他讲你患的不是癌症的概率。)

我会分别讨论如下两种情况:温和的情况,在拥有(某种)能力的情况下的自大;严重的情况,自大而没有能力(虚有其表)。对于有些行业,你懂的比专家还多,但你却为他们的观点付钱,而不是他们付钱请你听他们胡说。这是哪些行业呢?

变与不变

关于所谓的专家问题有大量文献,它们对专家的能力作出了实证检验,但结果最初看来有点令人疑惑。一方面,保罗·米尔(PaulMeehl)和罗宾·道斯等研究者否认专家的能力,他们告诉我们“专家”是最接近骗子的人,他们的思考能力比只使用一个变量进行计算的计算机好不了多少,他们的直觉妨碍了他们的思考,并使他们变得盲目。(举一个只使用一个变量的例子,流动资产与流动负债的比率比大多数信用分析师的作用更大。)另一方面,大量文献表明,许多人能够凭借直觉打败计算机。哪一个是对的?

有些学科的确存在真正的专家。我们考虑下面这几个问题:你愿意让某报纸的科学记者还是有执照的脑外科医生为你做脑部手术?另一方面,你愿意听某个“著名”学院(比如沃顿商学院)毕业的金融博士还是某报纸的商业版作家对经济作出预测?虽然对第一个问题的回答非常明显,但对第二个问题不是。我们已经认识了“技术”和“知识”的区别。

心理学家詹姆斯·尚蒂(James Shanteau)研究了哪些学科有真正的专家,哪些学科没有。请注意这里的证实问题:如果你要证明没有专家,那么你需要找到一个专家无用的领域。你也可以以同样的逻辑证明相反的观点。但有一个问题:有的领域专家是起作用的,有的领域则无法证明存在特定技能。这些各是什么情况呢?

是专家的专家:牲畜检验员、宇航员、飞机试驾员、土壤检验员、国际象棋大师、物理学家、数学家(研究数学问题而非经验问题)、会计师、谷物检验员、图像分析员、保险分析师(研究钟形曲线统计问题的)。

不是专家的专家:证券经纪商、临床心理医生、精神病医生、大学招生负责人、法官、顾问、人事官员、情报分析师(虽然花了那么多钱,但美国中央情报局的历史表现很令人遗憾)。我还要加上我自己分析文献的结果:经济学家、金融预测者、金融学教授、政治科学家、“风险专家”、国际清算银行员工、国际金融工程师协会的傲慢成员以及个人金融咨询师。

很简单,因变化而需要知识的事物,通常是没有专家的,而不变的事物似乎会有专家。也就是说,与未来有关,并且其研究是基于不可重复的过去的行业则通常没有专家(天气预测以及从事短期物理活动,而非社会经济活动的行业除外)。我并不是说任何从事未来预测的人都不能提供有价值的信息(如我之前指出的,报纸能够非常准确地预测剧院开门的时间),而是说那些无法提供具有可见价值信息的人通常从事预测行业。

认识这一点的另一个角度,就是看到变化的事物通常易于受黑天鹅事件的影响。专家就是一群习惯“筛选”的思维狭隘的人。在筛选不导致错误的情况下,因为黑天鹅事件的影响很小,专家会表现不错。

进化心理学家罗伯特·特里弗斯(Robert Trivers)是一个有着非凡洞察力的人,他有不一样的答案。(凭借他在努力进入法学院期间形成的思想,他成为自达尔文以来最有影响力的进化思想家。)他用自欺来解释。在存在古老传统的领域,比如掠夺,我们非常善于通过衡量力量对比预测结果。人类和黑猩猩能够立即感知对立的双方哪边处于上风,对是否发动袭击抢夺物资和配偶作出成本收益分析。一旦发动袭击,你会使自己进入忽略额外信息的错觉思维状态——在战斗中最好避免摇摆。另一方面,与偷袭不同,大规模战争不属于人类天性,我们是新手,所以我们经常错误估计它们的持续时间,而高估我们的相对实力。回忆一下人们对黎巴嫩战争持续时间的低估。参加世界大战的人以为它只是一场小争端。越南战争、伊拉克战争以及几乎所有现代战争都是如此。

你不能忽视自我欺骗。专家的问题在于他们不知道自己不知道什么。知识的缺乏与对你所掌握的知识的错觉是相伴而行的,你在知识减少的同时也变得对自己的知识更加满意。

而且,我们不是作范围预测,而是喜欢作精确预测,也就是相信自己预测精确数字的能力。

怎样笑到最后

我们还可以从交易活动中研究预测错误。数理专家掌握着大量经济和金融预测数据,从宏观经济变量的一般数据,到电视“专家”和“权威”的预测数据。这类数据的充足性以及我们用计算机处理它们的能力,使得这个问题对经验主义者毫无意义。假如我是一名记者或者一名历史学家,我评价起这些口头预测的有效性来就会困难得多。你无法用计算机处理口头评论,至少没那么容易。而且,许多经济学家会犯一种天真的错误,那就是针对许多变量提出许多预测,这使我们形成了一个关于经济学家和变量的数据库,让我们能够看出哪些经济学家比其他经济学家优秀(没有很大差别),或者是否存在一些他们较为擅长预测的变量(唉,可惜没有)。

对于近距离观察我们的预测能力,我处于一个近水楼台的位置。在我全职从事交易的日子里,我的电脑屏幕每周都会有一两次在早上8点半闪现美国商务部、财政部或其他体面的大机构公布的数字。我一直不明白这些数字是什么意思,也一直看不出花精力弄明白它们的必要。所以,我不会对它们有任何兴趣,只除了一点,那就是人们非常热衷于这些数字,热情地谈论它们的隐含意义,大作预测。这些数字包括消费者价格指数(CPI)、非农业从业人数(就业人数的变化)、先行经济指标指数(Indexof Leading Economic Indicators)、耐用品销量、国内生产总值(最重要的一个)以及许多其他依出现时机不同而制造不同兴奋水平的指标。

这些数据贩子让你能够了解“顶尖”经济学家的预测,他们是为J·P·摩根和摩根士丹利这类令人敬畏的大机构工作的(穿西装的)人。你会看到这些经济学家夸夸其谈,以一种雄辩而肯定的语气大谈理论。他们大部分人赚7位数的收入,俨然一副明星的派头,他们背后则有成群的研究员处理数据和预测结果。但这些明星却很愚蠢,竟会在大庭广众之下大谈这些预测数字,让他们的子孙能够看到并评价他们的能力。

更糟糕的是,许多金融机构每到年底都会发行名为“20××年展望”的书,对来年作出预测。当然,他们不会检查他们之前的预测在事后的准确性。公众不进行下面这个简单的测试就购买这些预测则更为愚蠢——虽然这个测试很简单,但很少有人做过。这个简单的实证检验就是把这些明星经济学家与一个假想的出租车司机(就像第一章中的司机米哈伊尔)作比较:假想一个对比对象,他把最近公布的数字当做对未来的最佳预测,而他本人什么也不知道。接下来你只需要把明星经济学家的错误率与假想的对比对象作比较。问题在于,当你被各种故事弄得晕头转向时,你会忘记作这个测试的必要性。

重大事件出人意料

预测的问题更为微妙。它产生的原因主要在于我们生活在极端斯坦,而非平均斯坦。我们的预测者可能更善于预测常规事物,而不是非常规事物,这就是他们预测失败的原因。你只需要犯一次对长期趋势的预测错误,比如错误地预测利率从6%到1%的长期变化(2000~2001年的实际情况),你就会使所有接下来的预测都无法修正你的累积错误。重要的不是你预测正确的频率,而是你的累积错误有多大。

预测的累积错误在很大程度上来自大的意外事件。不但经济、金融和政治预测无法预测它们,这些预测还羞于提及任何非常规的事,而事实上重大事件几乎总是非常规的。而且,如我们将看到的,经济预测者习惯于互相重复观点,而不是接近未来的真相。谁也不愿意突出自己。

由于我的测试是非正式的,以商业和娱乐为目的,是供我自己消遣而不是为发表而设计的,下面我将引用其他研究者更为正式的结果,它们经历了漫长的发表过程。我惊异于人们对这些行业的有用性的反省如此之少。针对三个行业——证券分析、政治学和经济学存在一些正式测试,但不多。在未来几年毫无疑问会有更多测试(也许没有,因为这类论文的作者或许会被他们的同事排挤)。在近100万份政治学、金融学和经济学论文当中,只有极少部分对这些知识在预测方面的作用提出质疑。

像牛一样结群

一些研究者研究了证券分析师的工作状况和态度,结果很令人吃惊,尤其是他们的认知自大。塔德乌什·蒂什卡和皮耶·捷隆卡把他们与天气预测员作了比较,发现他们的预测能力更差,但对自己的技能却更为自信。出于某种原因,在预测失败之后,这些分析师的自我评价并没有降低他们的错误率。

2006年6月,我去巴黎拜访让·菲利普·鲍查德时,曾向他哀叹这类研究的稀少。他是一个孩子气的人,看上去年纪只有我的一半,实际上却只比我年轻一点。我半开玩笑地将这归因于物理之美。实际上他并不是严格意义上的物理学家,而是一名数理科学家,运用统计物理学方法研究经济变量,这一领域由贝诺特·曼德尔布罗特在20世纪50年代末开创。该学科不使用平均斯坦的数学,所以他们似乎对真理感兴趣。他们完全在主流经济学和商学院金融学之外,他们在物理和数学院系谋得了一席之地,并常常在证券公司谋得一席之地(交易员雇用经济学家很少是为了自己的消遣,而是为了给不那么精明的客户讲故事)。与穿西装、编造理论的经济学家不同,他们使用经验方法来观察数据,并且不使用钟形曲线。

鲍查德拿出了一篇令我吃惊的研究论文,是一个在他指导下的暑期实习生刚刚写完的,并且即将发表。这篇论文仔细研究了证券分析师的2000项预测。研究结果是这些证券公司的分析师什么也没预测,一个随便把某一期的数字当做对下一期的预测的人也不会比他们做得更糟糕。但分析师们掌握了各家公司的订单、未来合约、计划支出等信息,所有这些信息优势应该能够帮助他们打败某个只看过去数据而没有进一步信息的无知预测者。更糟糕的是,这些预测者的预测错误比单个预测之间的平均差异大,这表明存在结群现象。正常情况下,单个预测之间的平均差异应该与平均预测错误一样大。但为了理解他们如何保住工作,以及为什么他们没有出现严重的崩溃现象(体重减轻、行为怪异或者酗酒),我们必须看一看菲利普·泰洛克的研究。

我“几乎”是对的

泰洛克研究了政治和经济“专家”。他让不同的专业人士判断某个特定的时间范围内(大约5年之后)一些政治、经济和军事事件发生的可能性。他一共获得了大约27000份预测,涉及近300名专业人士,经济学家占样本的近1/4。这项研究表明,专家的错误率是估计水平的很多倍。他的研究揭示了一个专家问题:一个人拥有博士学位或学士学位是没有区别的。发表文章众多的教授相对于记者没有任何优势。泰洛克发现的唯一正常的事实就是名望对预测的消极影响:拥有高度名望的人比没有名望的人预测得更糟糕。

但泰洛克并不是只想揭示专家的实际预测能力(尽管该研究在这一点上相当具有说服力),而是更希望解释为什么专家们没有意识到他们不太擅长本行,也就是说,他们是如何编造故事的。这种不自知是存在某种逻辑的,主要是信仰维护,或者对自我评价的捍卫。于是他更深入地研究了他的受试者为事件编造事后解释的机制。

我将不谈一个人的自我意识如何影响他的认知,而是讨论预测盲点更广泛的方面。

你对自己说你在玩不同的游戏。假设你没能预测到苏联的衰败和突然瓦解(没有哪个社会科学家预测到了这一点),你可以声称你对于理解苏联的政治运转很在行,但这些极具俄罗斯特点的俄罗斯人善于向你隐藏关键的经济因素。假如你掌握了这些经济情报,你本可以预测苏联政权的终止的。错不在你的能力。假如你曾预测阿尔·戈尔压倒性战胜乔治·W·布什,原理也是一样。你不知道经济陷入了如此可怕的境地;实际上,似乎所有人都没有发现这一事实。嗨,你不是经济学家,而这场游戏实际上是关于经济的。

归因于意外。有一些超出系统、超出你的科学范畴的事情发生。鉴于它是不可预测的,你没有什么错。它是一个黑天鹅事件,而你没有责任预测黑天鹅事件。黑天鹅事件本质上是不可预测的。这些事件是“异类”,来自你的科学之外。或者是发生概率非常非常低的事件,如千年一遇的洪水,我们恰好不幸碰上了。但下一次,它不会再发生。这种把眼光局限于狭窄的范围和既定教条的做法,正是数学在社会问题上失败的原因。模型是正确的,但游戏不是人们预期中的那一个。

下面这个例子揭示了一般的思维缺陷。这些“专家”具有偏向性:如果他们对了,他们将其归功于他们的洞察力和专业能力;如果他们错了,他们要么怪具体形势超出常规,要么根本不知道自己错了,还继续编故事。他们很难承认自己的知识有限。但我们的所有行为都有这种特点:我们体内有一种维护自我评价的东西。

人类在对随机事件的认识上容易犯不对称的错误。我们把成功归因于能力,把失败归因于在我们控制之外的事物,比如随机性。对好结果我们感到有功劳,对坏结果却不感到有责任。这使我们以为我们在谋生的领域比其他人都在行。94%的瑞典人相信他们的驾驶技术在瑞典司机中排在前50%,84%的法国人认为他们的调情技巧在全法国排在前50%。

想一想有多少家庭对未来进行筛选性假设,他们把自己锁在牢固的房产中,以为会在那里生活一辈子,而不知道人们过稳定生活的记录很糟糕。

这种不对称性的另一个结果是,我们以为自己不同于那些没有这种不对称性思维的人。我已经提过结婚者对未来的不现实预期。想一想有多少家庭对未来进行筛选性假设,他们把自己锁在牢固的房产中,以为会在那里生活一辈子,而不知道人们过稳定生活的记录很糟糕。他们难道没有看见那些衣冠楚楚的房地产经纪人开着漂亮的德国轿车到处转吗?我们是极为漂泊不定的,比我们计划的不稳定得多,而且不得不如此。想一想有多少突然失去工作的人料到了这一点,即使只提前几天,或者想一想有多少瘾君子在一开始是打算长期吸毒的。

泰洛克的实验还提供了另一个教训。我之前已经提过,他发现许多大学明星或者“顶尖刊物的撰稿人”并不比普通的《纽约时报》读者或记者更善于发现世界的变化。这些过于专业的专家们通常无法通过他们自己领域里的测试。

泰洛克根据评论家以赛亚·伯林(Isaiah Berlin)提出的分类方法,将预测者分为两类:刺猬与狐狸。在伊索寓言中,刺猬只知道一件事情,而狐狸知道许多事情,生活中需要这两类人。许多预测错误来自刺猬,它们在观念上只倾向于一个低概率而影响巨大的事件,从而落入叙述谬误的陷阱,被一个可能的结果蒙蔽,而无法想象别的结果。

由于叙述谬误,我们更容易理解刺猬,他们的观点听起来很不错。名人中有大量刺猬存在,因此名人比其他人的平均预测能力更差。

我在很长一段时间内避免接触媒体,因为每当记者听到我的黑天鹅理论时,都会让我预测未来具有影响力的事件。他们希望我预测这些黑天鹅事件。出于某种奇怪的巧合,我在2001年9月11日前一周出版的《黑天鹅的世界》 [32] 一书中提到了一架飞机撞入我所在的办公楼的可能性,所以人们很自然地请我解释“我是如何预测的”。我没有预测,那只是巧合。我不是假装圣哲!我最近还收到一封电子邮件,请我列出即将发生的10件黑天鹅事件。大部分人没有理解我所说的具体错误、叙述谬误和预测问题。与人们所以为的相反,我并不是在建议所有人都成为刺猬,而是希望人们成为思想开放的狐狸。我知道历史将被低概率事件主宰,但我不知道到底是什么事件。

现实?有什么意义?

我在经济学刊物中没有找到泰洛克式的正式全面的研究,但是我也没有找到鼓吹经济学家进行可靠预测的能力的论文。于是我浏览了能够找到的经济学论文和论文草稿。它们并没有提供具有说服力的证据来证明经济学家有预测能力,即使他们有一定的能力,他们的预测至多只会比随机预测好一点点,但没有好到对重要决策有帮助的程度。

关于学术方法在现实中的作用,最有意思的测试来自斯派罗斯·马克利达基斯。他把一部分时间花在管理竞争上,那是一种使用计量经济学的“科学方法”进行的预测竞争,计量经济学是一种把经济学理论与统计方法相结合的学科。简而言之,他让人们对现实生活作出预测,并对他们的准确性作出评价。这就是他的一系列“马氏竞争”。在米歇尔·海本的帮助下,他于1999年完成了第三次(也是最近一次)竞争实验。马克利达基斯与海本得出一个令人沮丧的结论——“统计学上高深与复杂的模型不一定能比简单模型提供更为精确的预测”。

我在从事数理工作的时候有过完全相同的体验,整晚在计算机上进行复杂数学运算的科学家很少能比使用最简单的预测方法的出租车司机预测得更准。问题在于我们只看到这些方法奏效的少数情况,而几乎从不注意它们数量更为庞大的失败。我不断问那些愿意听我讲话的人:“嗨,我是来自黎巴嫩艾姆云的毫不世故且明事理的人,我不能理解为什么人们认为那些需要计算机整夜运行但不能帮助我更好地作出预测的东西是有价值的。”我从这些人那里得到的全部回答都与艾姆云的地理和历史有关,而从未得到一个和他们的专业沾边儿的回答。再一次,你看到了叙述谬误的影响,只不过现在你看到的不是新闻故事,而是更糟——你看到的是有俄罗斯口音的“科学家”在后视镜中观察事物,用方程式描述事物,并拒绝向前看,因为那会使他头晕目眩。计量经济学家罗伯特·恩格尔是一位具有魅力的绅士,他发明了一种非常复杂的统计方法,取名GARCH,并因此获得诺贝尔奖。没人测试过它对现实生活是否有效。更为简单朴素的方法比它有效得多,但无法带你去斯德哥尔摩领奖。在斯德哥尔摩存在专家问题(我会在第十七章谈到)。

在几乎一切领域,复杂方法对现实都不适用。另一项研究对博弈论的实践者进行了分析,其中最著名的人物是约翰·纳什(因电影《美丽心灵》而出名的患精神分裂症的数学家)。不幸的是,尽管博弈论在学术上很有魅力,并获得了媒体的大量关注,其实践者预测的能力甚至比不上普通的大学生。

还有一个问题——一个更令人烦恼的问题。马克利达基斯与海本后来发现,他们的研究所提供的强大经验证据被理论统计学家忽视了。而且,他们遭遇了对他们的实证检验成果的激烈反对。“相反,统计学家把精力放在建造更为高深的模型上,而不考虑这类模型是否能够更为准确地预测现实生活。”马克利达基斯和海本写道。

人们或许会遇到下面这个观点:经济学家的预测可能会招致使其无效的反馈(这被称为卢卡斯评判,名称取自经济学家罗伯特·卢卡斯)。假设经济学家预测将发生通货膨胀,而根据这些预测,美联储作出反应,使通货膨胀降低。因此你无法像在其他领域那样对经济学领域的预测作出准确性评价。我同意这一观点,但我不认为这是经济学家预测失败的原因。世界对他们的研究领域而言太复杂了。

当一名经济学家未能预测到意外事件的发生时,他通常会提到地震或革命,声称他不是从事大地测量学、大气科学或政治学的,而不是把这些学科纳入他的研究并承认他的学科不是孤立存在的。经济学是最孤立的学科,是最少引用本学科以外观点的学科!它或许也是目前拥有市侩学者最多的学科,这些市侩学者涉猎不广泛,也不具备天然的好奇心,思维封闭,最终会导致学科的分裂。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000