• 精选
  • 会员

第二章 处理噪音

2020年6月19日  来源:合作的复杂性:基于参与者竞争与合作的模型 作者:(美)罗伯特·阿克塞尔罗德 提供人:yanjia82......

无论人与人之间还是国与国之间,误解别人的行动都会导致危险的结果,长期以来这一直是我的研究兴趣之一。1962年的古巴导弹危机之后,我认识到感知或者执行中的错误会引发严重的冲突。作为一个孩子,我对一个童话故事印象极深。说的是一个小男孩遇到两个沉睡的巨人,被拦住了去路。他就偷偷对其中一个头上打了一下,挑动两个巨人打了起来,小男孩则趁着他们分心的时候穿了过去。

当我开始用计算机竞赛的方法研究囚徒困境博弈时,我就想到要检验一个最简单的机制,即随机发生错误的机制。我事先通知所有的参赛者,他们的程序在竞赛中会碰到一个纯粹采用随机策略的程序。随后我意识到,这种形式上的随机性并不能真的表达互动时的误会,你可能会误解对方的选择行动,同样你的选择意图也可能被对方误解。事实上,这对于一报还一报策略是一个严重的问题,因为它对系统中的每一种噪音都很敏感。比如说两个都采用一报还一报策略的博弈者碰到一起,其中一个偶尔犯了一次错误,那么错误引发的相互惩罚就会无穷无尽。博弈双方会在合作与背叛行为之间波动,再不可能重新建立一个维持相互合作的模式(Downs et al.,1986)。

在《合作的进化》一书中,我建议采用两种办法来处理这种反馈效应。第一种是对被欺骗的反应不要那么强烈。第二种方法是,对于无意中背叛对方的人来说,要注意到对方的反应,不要再次背叛(Axelrod,1984,186-87)。这两种方法分别被称作宽容(generosity)与悔悟(contrition)。

1988年,当时正是戈尔巴乔夫对西方国家十分友好的时候,我有一个很好的机会可以观察美国和苏联双方的防御分析,这是一个包含了噪音的囚徒困境博弈。在一次美苏相关的会议上,我邀请两位两方的参会人在众多的社会科学家面前进行这个博弈。苏联的博弈者是瑟奇·布莱格沃林(Sergei Blagovolin),他是世界经济和国际关系研究所的核策略专家。美方的博弈者是凯瑟琳·凯莱赫(Catherine Kelleher)女士,前白宫官员,也是国际安全事务的专家。我告诉他们,每个人的选择都有六分之一的可能性被错误地实施。每一轮博弈后,双方都可以了解自己的选择是否被错误实施,但他们永远无法知道对方的每一次行动是有意而为还是无意中被错误实施。博弈双方也不知道博弈会进行多少时间。

美国代表准备了精心检查的背叛策略,在总共的九次博弈中采用了六次背叛。而苏联代表更多地采取合作,只背叛了四次。在总结之后,他把美国人的多数背叛行为归结为错误实施。当我们问他为什么时,苏联代表解释说他预期美国人会更加合作,而妇女尤其会合作。另一方面,美国人解释说,她猜到对方会这么想。于是她精心准备背叛,准确地预期到她会被仁慈的苏联政策所原谅。[1]这个故事给我们一个重要的教训:噪音导致原谅,但是太多的原谅会被利用(Axelrod and Dion,1988)。

我并没有系统性地研究如何处理噪音,直到我读到一篇题为“赢者存留,输者消失的策略在囚徒困境中比一报还一报好”的文章(Nowak and Sigmund,1993)。这篇文章报告了在特定噪音环境里的一个模拟研究结果,[2]最成功的策略就是,只有基于过去情况得分可能更高的策略才会被重复。也就是说,它会引诱欺骗对方,而对相互合作予以回报。它与一报还一报策略不同,它在对方被欺骗利用后采取背叛,并且在相互欺骗后采取合作。我对这项研究的反应是要保卫一报还一报策略的价值。我很好奇,一个新策略在我的计算机竞赛中,当环境具有噪音时,它会表现得怎样?

幸运的是,这时候吴坚忠博士来到我身边,帮助我一起进行这项研究。吴博士是中国北京自动化研究所的博弈论专家,到密歇根来工作。我们一起在麦金托什机(Macintosh)上重新实施63种策略的计算机竞赛。当1978年最初进行研究的时候,竞赛模拟只可能在大型机上实现。而1994年,个人计算机已经具备足够的能力进行这项研究了。我们发现,在一报还一报策略里加入宽容或者悔悟可以非常有效地处理噪音。而“赢者存留,输者消失”的策略在我们的竞赛里,并不像在复杂环境模拟中表现得那样好。

本书中用来处理这个问题的源代码,包括绝大多数其他程序都可以在互联网上获得。[3]这一章涉及的源代码包括所有最初提交参加竞赛的代码,也包括了一些新的策略。

当我们的研究发表以后,克莱恩斯(Kraines,1995)发展出了新的广义学习规则模型,取代了“赢者存留,输者消失”的策略。在“赢者存留,输者消失”的策略中,人们只是根据前一步的产出来修正自己的选择决策。[4]而在克莱恩斯的模型里,有个参数就是规定规则调整自身概率的快慢速度,一切都根据最近行动的结果。克莱恩斯指出,“赢者存留,输者消失”策略至少可以追溯到拉波波特和钱默(Chammah)研究囚徒困境的经典著作(Rapoport and Chammah,1965),它太傻,具备太多太多缺陷。但我们剩下的问题仍然是,巴甫洛夫学习规则在实践中又能有多稳定呢?

注释:

[1]在博弈中,苏联代表分别在第2,3,7和8轮背叛。美国代表则在第1,3,4,5,8和9轮背叛。苏联代表在第2轮的行动被错误地实施,而美国代表在第6和第9轮的行动被错误实施、使用标准的支付,苏联代表最终得分15分,而美国代表得了25分。如果他们都采取一报还一报的策略,并且在自己行动被错误实施后采用“悔悟策略”,那么苏联代表只应该在第2和第7轮背叛;美国代表则只在第3,6,9轮背叛。这样他们的得分分别为22分和27分。使用悔悟策略,双方的结果都会比现在这样结合“利用”(exploitation)和“过度原谅”要好。

[2]这些条件包括“通行策略”(permitted strategy)的范围以及计算成功的方法,当然也包括噪音,“通行策略”将自身的选择建筑于过去行动的产出之上。这种策略是在给定四种过去行动所可能产出的结果上,用条件概率来定义合作的可能性。收益用长期博弈结果的平均数来表示,不考虑贴现。

参考文献

Axelrod,Robert.1984.The Evolution of Cooperation.New York:Basic Books.

Axelrod,Robert.and Douglas Dion,1988.“The Further Evolution of Cooperation.”Science 242(9 Dec.):1385-1390.

Downs,George W.,David M.Rocke,and Randolph M.Siverson.1986.“Arms Races and Cooperation.”In Cooperation Under Anarchy,ed.Kenneth A.Oye,Princeton University Press.

Kraines,David,and Vivian Kraines.1995.“Evolution of Learning Among Pavlov Strategies in Competitive Enviroment with Noise.”Journal of Conflict Resolution 39:439-466.

Nowak,Martin,and Karl Sigmund.1993.“A strategy of Win-Shift,Lose-Stay That Outperforms Tit-for-Tat in the Prisoner's Dilemma Game.”Nature 346:56-58.

Rapoport,Anatol.and Albert W.Chammah.1965.Prisoner's Dilemma.Ann Arbor,Mich.:University of Michigan Press.

合作 / 竞争

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000