人与人之间的合作,是人类文明社会的基础。在对人类合作生发机制及其道德基础的理论探源方面,阿克塞尔罗德教授及其合作者们的研究已经取得了丰硕的成果,并对经济学、政治学、社会学、人类学、伦理学、法学,甚至生物学等学科产生了广泛且深远的影响。这种重复囚徒困境计算机程序博弈竞赛,已把人类合作机制的一些原初动因和内在机理较清晰地揭示了出来,从而使以前人们的一些模糊的经验感悟和直观猜测(如中文谚语“善有善报,恶有恶报,不是不报,时候未到”),现在已经成了计算模型所证实的精确计算结果,这显然是人类认识史上的一个巨大理论进步。因而,这一研究不仅对经济学(尤其是其中的福利经济学和制度经济学)和政治学中的社会选择理论有着重要的理论意义,而且对伦理学或言道德哲学,也提出了一些值得深思的问题。再宽泛一点说,从阿克塞尔罗德的重复囚徒困境计算机程序博弈竞赛的结果中,每个处在现代社会的理性的个人,也可以从中学到一些如何做人和如何进行社会选择的道理,或最起码可以从中获得某些启示。
最后需指出的是,由于笔者对这种重复囚徒困境计算机程序博弈竞赛在国际上的新近发展动态没有跟踪研究,因而不敢贸然对这一研究领域里的最新理论突破和仍然存在的局限妄加评论。仅就这本书所展示的研究成果和理论进展而言,笔者认为,尽管阿克塞尔罗德及其合作者们在对规范和元规范的生成机制的研究中已经对多人博弈进行了理论思考,并建构了一些初步的计算机“仿真”模型,但迄今为止,他们的重复囚徒困境博弈比赛,还主要是在两人博弈——即一对一博弈安排中进行的。当然,他们这样做,是可以理解的。因为,从抽象层面看,即使任何一个行动者在大多数情况下是在一个多人的社会环境中进行社会选择(或言行动),但是在纯理论分析和数量模型建构层面上来看,把一个事实的多人博弈还原为一个博弈者与另一个博弈者进行博弈,在某种程度上来说尽管不能完全展示现实的全貌,但至少也能反映一定的社会运行机理,且从目前的分析技术来看,大致也只能这样处理。然而,这种抽象处理显然还有一定的理论局限。假定每一轮重复囚徒困境博弈竞赛均是一种二人博弈的格局,如果引入其他博弈者也是这一轮博弈的旁观者且下一轮会进入场地,与现届博弈中的赢者或输者进行比赛,如果再假定——而实际情况恰恰是——每一个博弈者把对手在前一轮与他人博弈中的表现留在自己的记忆中并据此作为自己博弈策略选择的重要考量,并在此基础上再与对手进行博弈(在现实中进行打交道),整个重复博弈结果可能会发生很大变化。另外,更为麻烦的是,现实的人是有理性、有记忆、易受他人影响、有着复杂的情感并且会随着个人情绪的波动或生理周期、生活环境的变化而不断变化着自己“社会博弈选择”的活生生的人,要模型化一个计算机程序容易,但要模型化现实中活生生的人和人与人之间的复杂的和不断变化着的行为互动,无疑是十分困难的。还有,在现实中,每个人都可能对另一个人有某种先入之见或观察偏见,这往往又会直接影响到与对手打交道时的博弈选择。如果把这种种复杂的但又是现实的因素考虑进来,就会发现,尽管在揭示人类是如何达致合作的社会机制方面,阿克塞尔罗德的重复囚徒困境博弈计算机仿真试验已经取得了很大的进展。但是,相对于纷纭复杂和活生生的人类生活世界而言,这种计算机程序形式的博弈试验研究,在模拟展示和不断接近描绘人类社会的真实图景方面,显然还有很长的路要走。[10]
韦森
2007年9月于复旦大学
注释:
[1]其他动物社会如蚂蚁、蜜蜂和其他动物群体也能基于其生物生存的本能达致某种分工和合作。故这里我使用“理性的合作”一词,这一特定概念是指人们通过理性思考——或用当代主流经济学的一个通用术语“理性计算”——而达致合作。人类的理性合作一般是要通过语言交流——有些则进一步通过书写文字契约的签订——来进行的,这一点尤为重要,但往往被许多研究人类合作行为的学者所忽略了。
[2]从当代经济社会思想史上来看,“囚徒困境”博弈最早是由美国两位博弈论学者梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷瑟(Melvin Dresher)于1950年在美国兰德公司的一项博弈论研究中所发现并最先将之程式化的,但当时他们还没有使用这一术语。接着,美国的另一位叫艾伯特·塔克(Albert Tucker)的学者在向斯坦福大学的心理学家介绍梅里尔·弗勒德和梅尔文·德雷瑟的这一研究成果时,最先使用了“the prisoner's dilemma”(囚徒困境)这一术语。
[3]卢梭曾明确指出:“由于契约的结果,他们的处境确实比起他们以前的情况更加可取得多;他们所做的并不是一项让渡(an alienation),而是一件有利的交换,也就是以一种更美好的、更稳定的生活方式代替了不可靠的、不安定的生活方式,以自由代替了天然的独立,以自身的安全代替了自己侵害别人的权力,以一种社会联合保障其不可战胜的权利代替了自己有可能为别人所制胜的强力。”(Rousseau,1968,p.77)。
[4]这一点在卢梭(Rousseau,1968,p.83)的《社会契约论》中得到了明确的表述:“个人有责任使他们的意志服从他们的理性;必须教会公众认识到什么是合宜的。这种公众启蒙,将产生一个认识的统一(a union of understanding),从而在一个社会体中把各方带入完美的和谐,并使整体最为强大。因而,法律的提供者(lawgiver——一译“立法者”)就是完全必须的了。”看!在公意的名义下实行专制独裁的政治逻辑,就是这样被卢梭赤裸裸地表达出来!也许毋庸赘言,读者会发现,在20世纪人类社会历史中所出现“中央计划经济”的深层运作逻辑,原来在18世纪就被卢梭如此明确地说出来了。
[5]这种倒推法的论辩逻辑是这样的:假如两个“极理性”和“非争第一”的对弈者要进行“重复囚徒困境博弈”的对抗赛,如果对抗赛是有限的——假如100个回合,他们会推理到,这最后第100回最好是背叛,因为即使对方想采取“一报还一报”的策略,也无法再“还”了。结果第100回必然是(D,D)。但这样一来,第99个回合也成了不重复的比赛,并且在第99个回合中的“理性选择”也应该是背叛。依此往回推,第98、97、96……直到第1个回合。结果,这种“极端最大化”的倒推推理的结果将是全部有限重复博弈的博弈双方均取“不合作”的策略选择。因而,新古典和博弈论的理性最大化的推论结果只能是“只有无限的重复囚徒困境博弈才会产生合作”,因为它没有“最后”。由此我们也可以看出,只有“理性最大化”而没有任何道德感的社会将是一个多么可怕的社会!
[6]从这里也可以看出人类社会“囚徒困境”博弈的更深一层的含义。“囚徒困境”实质上并不是陷入这种环环相扣的博弈安排中的“囚徒们”在博弈,而是他们在与“庄家”(“payoff”的“支付者”)博弈。如果真把它认作是弈者自己的博弈的话,那即是在“庄家”为“囚徒们”所设计的博弈安排中人的理性与道德的博弈,也是人的理性的自我博弈。一句话说完,人类社会中“囚徒困境”是人作为人的自我博弈:人能否自我超越?从宗教神学意义上来说,囚徒困境博弈看似人与人之间的博弈,但实际上却是人与上帝的博弈。
[7]正如阿克塞尔罗德(Axelrod,1984;罗伯特·阿克塞尔罗德,2007年,第36页)所言:“一报还一报的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作;它的清晰性使它容易被对方理解,从而引出长期的合作。”这里提这样一个似乎与阿克塞尔罗德的博弈论理论研究似乎无关的问题:这一结果是否也向人们昭示了一些做人的道理?
[8]为了说明和验证这一理论发现,阿克塞尔罗德举出了第一次世界大战中英军和德军在对垒时的“自己活,也让别人活”的例子。实际上,在战争中善待俘虏以及在目前国际上不使用地雷、细菌和化学武器等等战争公约,实际上也是在一定博弈格局中敌对者之间有限合作的例子。
[9]阿克塞尔罗德(Axelrod,1997,p.47)对规范的理解是:“在给定的社会环境中,个人如果总是依照某一特定方式行动,并且看到不遵循这种方式行动的人就给予惩罚,那么规范就存在了。”
[10]本书第二章在讨论元规范时,阿克塞尔罗德的考虑显然是如何把他的重复囚徒困境博弈试验结果的理论分析推进到更贴近人类真实世界,尽管出于技术困难,他的团队好像在这方面没有取得多大技术上的进展(而非技术的分析,国际学术界已有大量的研究成果了,并有了许多深刻的论文和大量专著)。在拓展其理论模型以接近人类真实世界情形的努力中,他们做了两方面的工作:“(1)为了分析这种规范博弈,我决定避免使用经典博弈理论中的理性假设。大量改变规范的经验性的例子告诉我,当人们在复杂环境中做出选择时,人们往往使用试错法而不是完全理性的计算。幸运的是,我有一种有效的工具来研究策略环境中的试错学习。我需要做的就是把过去研究两人囚徒困境中使用的基因算法改编后用于这个新的模型中去(参见第一章)。(2)规范博弈的研究结果表明,我需要另一种机制来描述规范的出现,并证明它的稳定性。我把这种机制称为‘元规范’(meta-norm)。元规范不仅是要惩罚那些违背规范的人,还要惩罚那些没有惩罚违背规范者的人”(Axelrod,1997)。
参考文献
Axelrod,Robert,1970,Conflict of Interest:A Theory of Divergent Goals with Applications to Politics,Chicago:Markham.
Axelrod,Robert,1972,Framework for a General Theory of Cognition and Choice,Berkeley,CA:University of California Press.
Axelrod,Robert(ed.),1976,Structure of Decision(Princeton,NJ:Princeton University Press Axelrod,Robert,1984,The Evolution of Cooperation,New York:Basic Books.罗伯特·阿克塞尔罗德著,吴坚忠译:《合作的进化》(第二版),上海:上海人民出版社2007年版。
Axelrod,Robert,1997,The Complexity of Cooperation:Agent-Based Models of Competition and Collaboration,Princeton,NJ:Princeton University Press.
Axelrod,Robert,2000,Harnessing Complexity:Organizational Implications of a Scientific Frontier,with Michael D.Cohen,New York:Free Press.
Dawkins,R.,1989,The Selfish Gene,Oxford:Oxford University Press.
Hayek,F.A.,1988,The Fatal Conceit:the Errors of Socialism,Chicago:The University of Chicago Press.
Hobbes,Thomas,1651/1943,Leviathan,Oxford:Oxford University Press.
Rousseau,Jean-Jacques,1968,The Social Contract,tran.by Maurice Cranston,New York:Penguin Books.
Moulin,Herve,1995,Cooperative Microeconomics:A Game-Theoretic Introduction,Princeton,N.J.:Princeton University Press.
Olson,Mancur,1980,The Logic of Collective Action:Public Goods and the Theory of Groups,Cambridge,Mass.:Harvard University Press.
曼瑟尔·奥尔森著,陈郁等译:《集体行动的逻辑》,上海三联书店、上海人民出版社1995年版,第2页。