处理噪音 在重复囚徒困境中如何处理噪音(1)
吴坚忠、罗伯特·阿克塞尔罗德
[内容提要]所谓噪音,表现为实施一个选择中的随机错误,这是我们处理真实世界中交互行为时常会遇到的问题。最近的研究提供了三种处理噪音的研究方法:为互惠策略增加宽容;为互惠策略增加悔悟;使用一种完全不同的策略,称之为“巴甫洛夫方法”,主要思想是当过去收益偏低时会调整选择。我们使用了竞赛研究、生态模拟和理论分析,结果表明:(1)宽容的一报还一报策略是一个极为有效的策略,特别当对手并没有故意使用噪音时;(2)当对手故意使用噪音时,带有悔悟的一报还一报策略是更为有效的策略,因为它能够迅速回到互惠合作又能避免被利用的风险;(3)巴甫洛夫策略并不稳定(robust)。
真实世界里交互行动的一项重要特征就是选择的实施难免会发生错误。因为对方不大可能确信地知道一个行为是无意的错误还是故意的选择,一个无意的错误有可能引发严重的后果。比如说,1983年9月1日,一架韩国客机错误地飞到了苏联领土上空(Hersh,1989),被苏联军方击落,飞机上的269人全部遇难。美国和苏联的冷战关系迅速紧张起来,相互做出愤怒的反应(Goldstein,1991,p.202)。
我们用“噪音”这个标题来表示错误的作用。处理噪音的最好工具,就是用博弈论来研究虚拟的问题,特别是在基于囚徒困境博弈的环境下。[1]很显然,引入噪音以后,就会发生一些无意的背叛,这会影响简单互惠策略的有效性。比如说,莫兰德(Molander,1985)就证明若只有存在很小比例的噪音,从长期来看,两个使用一报还一报策略的博弈者和两个使用随机策略的博弈者的收益没什么差别。
目前已经有三种处理噪音的研究方法被提出。
1.宽容。允许一定比例的背叛的博弈者不受到惩罚,很多学者认为这是处理噪音的一个好办法(Molander,1985;May,1987;Axelrod and Dion,1988,Bendor et al.,1991;Godfray,1992;Nowak and Sigmund,1992)。比如说,一种宽容版本的一报还一报策略,被称为GTFT(generosity TFT),有10%的情况下面对背叛还会合作。这就可以不确定地回应一次简单的错误。
2.悔悟。像一报还一报这样的互惠策略可以设计成,如果自己无意中造成了背叛引来对手的背叛,那么自己就不要再背叛下去。这使得博弈可以迅速地从错误中摆脱出来。它的主要思想是,如果自己无意的背叛遭到对方的报复,那么自己不能被激怒(Sugden,1986,p.110;Boyd,1989)。这种策略就被称之为CTFT(Contrite TFT),它有三个特征:“悔悟”,“满意”和“激怒”。它首先基于满意的合作状态,一直维持到出现单方面的背叛。如果自己是博弈中受害的一方,那么它就会被激怒,一直背叛,直到对方出现合作行为从而使得自己满意。如果是自己首先背叛,那么就进入悔悟状态。在悔悟状态的时候,只有当成功地发生一次合作时才会转入满意。
3.赢者存留,输者消失。还可以使用一种完全不同的策略。一方面,如果近期的收益足够高的话,那么相同的策略选择就会被重复。但是如果近期收益不够高的话,策略选择就会被调整。这种策略是对存在噪音的演化过程的模拟,但允许行动者对过去的行动保留记忆(Nowak and Sigmund,1993)。这种策略被称为巴甫洛夫策略,它一般采取合作,除非过去一轮刚被欺骗(即它合作而对方背叛)或者它的对手刚被欺骗。
为了保持完整性,我们也分析了第四种策略,即加入宽容性的巴甫洛夫策略。这种策略和巴甫洛夫策略完全一样,只是加入了10%的宽容,即刚被欺骗后有10%的可能不惩罚对方。