• 精选
  • 会员

三、阿克塞尔罗德“囚徒困境重复博弈计算机程序奥林匹克竞赛”结果及理论意义

2020年6月19日  来源:合作的复杂性:基于参与者竞争与合作的模型 作者:(美)罗伯特·阿克塞尔罗德 提供人:yanjia82......

这里,首先让我们介绍一下阿克塞尔罗德所指导进行的三次重复囚徒困境博弈实验的模型设计和试验结果,然后再综合评价这三届博弈实验结果的理论意义。在下一小节中,我们再来讨论阿克塞尔罗德的《合作的复杂性》这本著作的主要理论贡献及其现实意义。

稍熟悉现代博弈论的读者会知道,囚徒困境(the Prisoner Dilemma,简称“PD”)一般有以下简单直观的形式:

图1 囚徒困境博弈的一般形式

其中,按照英文字符所代表的缩略词的一般意义来解释:R,对博弈双方合作的报酬支付报酬(reward for mutual cooperation);T,博弈者采取背叛策略的诱惑(temptation to defect);S,对策略选择中自己采取合作策略,而对方采取背叛策略的“愚蠢策略”(sucker's payoff)的回报;P,对双方背叛的惩罚(punishment for mutual defection)。根据上述定义,囚徒困境博弈的一般方程式为:PD=T>R>P>S。根据囚徒困境的这种一般形式,为了简便计算,阿克塞尔罗德为其博弈竞赛设计了一个如图2所示的有限次重复博弈的支付矩阵。

图2 阿克塞尔罗德重复囚徒困境博弈支付矩阵

设计好了这个支付矩阵后,阿克塞尔罗德为他的整个重复囚徒困境博弈奥林匹克锦标赛的目标设计了这样一个标准:找出在这种重复囚徒困境博弈“锦标赛”中哪种策略是最好的(即能收到的总支付最大)。为了达到这一点,阿克塞尔罗德想出了一个聪明的办法,就是向博弈论专家们发出广告,让有兴趣参赛的博弈论专家和一些社会科学家各自设计一种自认为是最好的策略,来参加他的“博弈策略”比赛。在第一次实验中,阿克塞尔罗德共收到14个“策略参赛者”。为了便于评判,阿克塞尔罗德增加了自己的第15个策略程序“随机策略”,也就是“没有策略的策略”:随机地出“合作”(C)和“背叛”(D)牌。阿克塞尔罗德还把他的“随机策略”作为“比赛”的底线。因为,如果有哪一个策略比“随机策略”的总得分还差,那一定是糟糕透了的策略。

在决定这15个参赛策略后,阿克塞尔罗德把它们都转换成同一种电脑语言并在一台大型计算机中让它们一一对垒。既然有15种策略,就有225场“比赛”,其中包括每个策略程序也与自己对垒(同一种策略程序对垒)。阿克塞尔罗德还让每场“比赛”玩200个回合。通过这225场200个回合的博弈“比赛”,看哪一个策略参赛者能获得的支付最多。如图2所示,支付的点数是这样计算的:在每次博弈中,相互合作(C,C),得支付R=3;此方背叛对方合作(D,C),得T=5;互相背叛(D,D),双方都受到惩罚,得P=1;此方合作对方背叛(C,D),得被欺骗的回报S=0。在此博弈弈局安排中,理论上只有一种策略组合能达15000分,那就是15场200个回合的比赛全是(D,C)(每个回合全得T=5分)。反过来,如全部(C,D),得最低总分S=0。但这两个极端不会发生。因为没有一个策略会在对方全出背叛牌(D)时而自己全出合作牌(C)。实际上,任何一种策略平均每场“比赛”所得支付不会超过600。这是两个参赛程序在一场200个回合对抗赛中全出合作牌(C,C)自己所能得的分数。所以,阿克塞尔罗德把600分作为基准分,而将所有参赛策略的比赛成绩换算成这一分数的百分比。

由于阿克塞尔罗德的“重复囚徒困境博弈”比赛的参赛程序全由博弈论专家所提供,有些参赛程序看来设计得非常精明。但是,令人出乎预料的是,第一届博弈对抗赛的冠军竟是在所有策略中最简单(除了阿克塞尔罗德本人的“随机策略”外)且表面上看来非常“憨直”的“一报还一报”(tit for tat,简称“TFT”)策略。这个策略是由加拿大多伦多大学的著名博弈论心理学家阿纳托尔·拉波波特(Anatol Rapoport)教授提供的。“一报还一报”策略非常简单:第一回合取“合作”,然后每一回合都重复对手的上一回合的策略。

阿克塞尔罗德第一届“重复囚徒困境博弈”比赛的结果出来了:“一报还一报”得第一,平均得分504.5,即600基准分的84%。其他8个好的策略中,得基准分介于28.6%和83.4%之间。令人跌破眼镜的是,在阿克塞尔罗德的第一次“博弈比赛”中,最失败的就是最复杂的那一个策略。

为什么简单平直的“一报还一报”策略会获胜?道理似乎很复杂,也似乎很简单。当遇到“合作对手”时,它永远合作。即使遇到同类“一报还一报”时,由于大家都是从合作开始,也就保持了永远合作,故所得“合作剩余”也总是最高。当“一报还一报”遇到“狡诈的”策略程序时,你怎么来,我就怎么往,一报还一报,故也不会比你差。从中,阿克塞尔罗德得出一个基本结论:好的策略的标准是永远不先背叛。“一报还一报”就是一个例子。它会背叛,但只是在报复时才如此。这似乎令人相信,“善于合作的好人”在社会博弈的长期比赛中得分结果会很好,而不管遇到的博弈对手是“善良型”的,还是“诡诈型”的。阿克塞尔罗德的第一届博弈大赛也表明,好的策略必须有三个特征:“善良”、“宽恕”和“不嫉妒”。所谓“善良”,就是从不主动地先背叛。所谓“宽恕”,就是指很容易忘却对方过去的“错误”。一旦对方“改过”,即以合作对待。这两点“一报还一报”均具备,故占这次博弈比赛的榜首。所谓“不嫉妒”,就是当别的参赛者“赚”得和你一样多时,你仍然很高兴,而且乐于同时从“庄家”那里赢钱。很显然,“一报还一报”也是一种不嫉妒的策略。因为,它从来没有真正地赢过任何一场比赛。由于“一报还一报”从不先背叛,它从来没有在任何一场比赛中比对手获得的支付更高。它似乎倾向于与对手分享高分。相比之下,博弈论常识中由所谓“倒推法”所推出的“有限重复囚徒困境博弈不会产生合作,而只有无限重复的囚徒困境博弈才会产生合作”的“俗定理”,就是基于一种“嫉妒”心理而进行推理的。[5]因为,它总是假定每个博弈者总想取得比对手更高的支付分数。事实上,“俗定理”所展示的是最理性、最精明但也是“最愚蠢”(聪明反被聪明误)的博弈推理。这种博弈推理所导致的重复囚徒困境博弈的比赛结果肯定是最差的,因为它导致了永远背叛的策略对(D,D)。实际上,这种倒推推理的逻辑也表明,新古典和博弈论理性最大化理论阵营所派出的博弈参赛者只是短视地看到它在与对手进行博弈,而没有意识到它是与对手一起在与“庄家”博弈。[6]

在第一届重复囚徒困境博弈对抗赛的结果出来之后,阿克塞尔罗德又组织了第二届比赛。这次比赛他共收到62套策略程序,加上他的“没有策略的策略”即“随机策略”,共63套策略参赛。第二次,每局比赛也不再是每场200个回合了,而是更多,因而基准分数也不再是600了。在征集第二届博弈对抗赛的参赛策略时,阿克塞尔罗德还把第一届比赛结果告诉了所有第二届博弈对抗赛的参赛策略程序设计者,并附有他自己的分析,说明为什么善良及宽恕的策略会在第一届博弈对抗赛中表现得如此优秀。但第二届博弈对抗赛的策略设计者们在收到第一届对抗赛的结果和阿克塞尔罗德的说明后,在设计他们的新参赛策略时有两种思路。一派博弈论专家根据“善有善报”推理送来了善良且宽恕的策略。著名的生物学家、演化博弈论的奠基人约翰·梅纳德·史密斯(John Maynard Smith)甚至还送来“超级宽恕”程序“两怨还一报”的策略。另一派专家则推想到大多数同仁会进一步提供善良和宽厚的策略而反其道而行之,设计出更加“细腻”、“精明”、“狡诈”和“不友善”的策略,以旨在“整整”这些来参赛的“愚笨好人(策略)”。

然而,第二届对抗赛结果出来了:狡诈的策略再度失败,阿纳托尔·拉波波特的“一报还一报”策略再度获胜,并且得了基准得分的96%。而且,“善良”的策略再次普遍表现得比“狡诈”的策略好。在前15名中只有一个不是“善良”的策略,最后15名中只有一个不是“狡诈”策略。不过,史密斯的“两怨还一报”策略在这一届博弈对抗赛没有赢。这可能是因为它过于“善良”和“宽厚”因而被那些“精明”而“诡诈”的策略所“无情捕杀”。阿克塞尔罗德从第二届博弈对抗赛中甚至还发现,“一报还一报”这一“善良”、“憨直”的策略之所以获胜,是因为参加第二届博弈对抗赛的策略大部分是“善良型”的。他还推断到,如果参赛的其他62个策略全是“诡诈型”的,“一报还一报”策略可能就不会赢了。因为,它也会像史密斯的更加“善良”和“宽厚”的“两怨还一报”策略一样被狡诈的策略“群狼”所“捕杀”。

事实上,阿克塞尔罗德后来又进行了他的第三届“重复囚徒困境博弈对抗赛”。但这次他并没有征集新的策略,而是在改变电脑程序后,让第二届的所有参赛策略重新进行比赛。在第三届对抗赛中,阿克塞尔罗德主要沿着演化博弈(或译进化博弈)的理论思路,想从对抗赛中找出史密斯的“演化稳定策略”(Evolutionary Stable Strategies,ESSs)。为了达到这一目的,阿克塞尔罗德先将63套策略程序存入电脑,让其作为演化博弈的第一代。在第一代之间的对抗赛结束时,每一种策略的胜利不是由所得分数来评判,而是根据由每种策略产生多少“后代”来决定。当一个子代生成后,有些策略逐步变得稀少起来,有些甚至完全消失了,而其他策略则变得多了起来。经过1000代,策略的比例和环境都不再改变而达到了一定程度的稳定。第三届“重复囚徒困境演化博弈”的实验结果表明,几乎所有“诡诈型”策略都在200代左右完全消失了。“一报还一报”策略仍然在第三届演化博弈比赛中表现得很出色。其他5种“善良而不懦弱”的策略也和“一报还一报”同样成功。阿克塞尔罗德最后还发现,当演化博弈竞赛中所有“诡诈”策略都绝迹后,已无法区分“一报还一报”和别的“善良型”策略,也无法区别出任何两种竞赛策略之间的差异了。因为,他们全是“善良”型的,即只会向对方出“合作牌”。对于这一演化博弈结果,生物学家道金斯(Dawkins,1989,p.233)感慨地归纳道:“即使有自私的基因掌权控制,好人仍能得好报!”

阿克塞尔罗德这三届“重复囚徒困境的博弈比赛”说明了什么?通过三届重复囚徒困境的博弈比赛,阿克塞尔罗德有如下发现:第一,善良的策略总不首先背叛。他的研究发现,这一点非常容易理解:当两个善良的策略相遇时,它们每一步都得到回报R,这是一个单个博弈者与另一个采用相同策略的个体相遇所能得到的最高平均分,当然,如果过于宽容和善良,就会被那种只图“贪占便宜”的“小人”策略所欺负。就“一报还一报”策略而言,它本质上是善良的,但遇到对方背叛,它马上报复,又不“可欺”,故在几次比赛中总是获最高分。[7]第二,阿克塞尔罗德的研究甚至发现,友谊对于基于回报的合作的产生并不是必要的;在合适的环境下,合作甚至可以在敌对者之间产生。[8]第三,在阿克塞尔罗德(Axelrod,1984;罗伯特·阿克塞尔罗德,2007年,第126页)的《合作的进化》一书中,它还提出了非常容易被读者忽视的一个重要的理论发现:“合作的基础不是真正的信任,而是关系的持续性。当条件具备了,对策者能通过对双方有利的可能性的试错学习、通过对其他成功者的模仿或通过选择成功的策略剔除不成功的策略的盲目过程来达到相互的合作。从长远来说,双方建立稳定的合作模式的条件是否成熟比双方是否相互信任来得重要。”这一重要的理论发现,也许探及了市场经济——或言哈耶克眼中的人类合作的扩展秩序——自发生成和不断成长的最深层的运作原理?把以上理论发现总结出来,阿克塞尔罗德(Axelrod,1984;罗伯特·阿克塞尔罗德,2007年,第14页)总结道:“这些竞赛的结果表明,在适当的条件下,合作确实能够在没有集权的自私自利者的世界中产生。”阿克塞尔罗德的这一重复囚徒困境博弈试验似乎部分推翻了霍布斯的“利维坦”和卢梭的在社会“公意”下专制独裁统治的必要性和必然性,并部分证明了哈耶克所预见的人类合作的扩展秩序可以自发生成的可能性!换言之,在一个小的社会范围中,没必要一定要制造出来一个独裁者,才能达致人们之间的社会合作。通过其研究计算,阿克塞尔罗德(Axelrod,1984;罗伯特·阿克塞尔罗德,2007年,第101页)甚至得出这样一个重要的政治学结论:“政府不能只靠威胁来统治,而必须使大多数被统治者自愿服从。”作为一个博弈论政治学家,阿克塞尔罗德的这一理论发现实际上在某种程度上证否了霍布斯“利维坦”以及卢梭的“人民公意”形式集权专制的必要性这一思想。

合作 / 竞争

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000