• 精选
  • 会员

“囚徒困境”的破解:合作的约束

2019年5月28日  来源:生活中的博弈论 作者:余治国 提供人:xinggai42......

“不识庐山真面目,只缘身在此山中。”严格囚徒困境的前提条件是博弈各方不可以进行合作,也就是不能够制订有约束力的协议。但实际上,合作是文明的基础,比如兴修水利、组织国防、创建企业等都是合作而产生的,无怪乎哲学家卢梭写了本书《社会契约论》,认为契约是整个人类社会存在的前提条件之一。

如果囚徒困境只是一次性的博弈,签订协议是毫无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,就是博弈需要重复若干次,当然至少大于一次。

就恋爱博弈来看,男女双方在交往的过程中,随时都在博弈,因为相爱的过程中任何一个时点都是有可能分手的。用博弈论的术语来说,这是一种囚徒困境的重复博弈。无数爱情故事中的悲欢离合、精彩迭宕正是这个博弈模型的表现。

当然,那种素不相识一对男女,偶尔在酒吧中相遇,于是宾馆订房、春梦一场,拂晓之后就各自分道扬镳的一夜情,是理所当然的一次性囚徒困境博弈。

我们在这里要注意的是,重复博弈与我们前面所提及一般性的动态博弈是不同的。在多轮动态博弈中,参与者能够了解到博弈的每一步中其他参与者在这个参与者选择某种策略下的行动,而重复博弈的参与者无法了解到在任何一个步骤中,其它参与者的策略选择。

囚徒困境一旦从一次性博弈转变为重复博弈,情况会发生非常大的变化,博弈的结局也就是纳什均衡点可能会完全不同。

举个例子,大家都知道国外的黑手党组织严密,对待背叛者的惩罚非常残忍。一个黑手党成员告发别的黑手党成员,一定会被组织谋杀。我们假设前面的囚徒困境故事不是发生在中国,而是意大利,囚犯A和B都是黑手党成员。他们很可能宁愿被判处终生囚禁,也不愿意出狱之后被同伙干掉。

实际上,在重复型的囚徒困境中,并不是签订合作协议很困难,困难的是这个协议对博弈各方是否具有很强的约束力。一个合作契约建立的困难在于任何协议签订之后,博弈参与者都有作弊的动机。

因为至少在作弊的这一局博弈中,作弊者可以得到更大的收益。还是用爱情来打比方,常言道:“婚姻是走向爱情的坟墓”,但从博弈论的角度来看,婚姻恰恰是男女双方签订的一种协议,具有一定约束力的协议,因为一旦对方背叛婚姻,就会受到家庭的压力与社会舆论的谴责。

在博弈理论中,博弈专家已经用数学证明出,在无限次重复博弈的情况下,合作可能是稳固的。如果博弈无穷次,双方就会逐渐从互相背叛走向互相合作。

因为任何一次背叛都会招致对方在下一次博弈时的报复;而双方都采取合作态度会带来合作收益。但是在现实社会生活中又不完全这样,人总是要死的,因而人与人之间的博弈不是无限次的。当一个人知道他终将退出博弈时,他就可能不再害怕此后别人对他的报复,从而可以在博弈结束前做损害他人的事情,这就回复到有限次重复博弈的境况。

对于有限次囚徒困境博弈,美国密西根大学的罗伯特•爱克斯罗德教授(Robert Axelrod)曾经做过一个著名的博弈论试验。这个试验的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”模型中一个囚犯。他们把自己的策略编入计算机程序,然后这些程序会被成双成对地融入不同的组合。分完组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间作出选择。试验参与者连续玩上200次,于是这就更逼真地反映了日常人际关系。

试验的结果表明,囚徒困境在同样重复数十次或一百次的情况下,只要两个参与者仍然还是理性人(这可以在该试验的参加者所编程序中反映出),博弈的结果仍然是囚徒A和B都把对方招供出来。为了解释这个问题,我们不妨讨论一个博弈两次的模型。

我们首先考虑第二次博弈的情况,由于这是最后一次博弈,自然没有后面的博弈对这次博弈的影响,因此也就不必为将来打算,个人都只追求这次博弈的最大利益,于是第二次博弈的结果应该和一次囚徒困境博弈完全一样,自然是囚徒A和B都坦白,达到纳什均衡。

现在再来考虑第一次博弈的情况,博弈参与者A已经很清楚最后一次博弈时,B一定会招供,那么即使囚徒A不坦白,在下一次博弈时,B也一定会招供,这次博弈A不坦白对下一次博弈没有任何好的影响,那么作为理性人的A一定仍然选择坦白。对于B,也是一样的道理。由此可见,第一次博弈自然也和一次性囚徒困境博弈完全一样。

其实不论是两次博弈,还是3次,4次,甚至是上百次,只要是有限次数的重复囚徒困境博弈,其思路方法都是一样的。这种方法就是我们在前文中提到的倒推法(Backward induction),这在博弈论中,对于重复博弈与动态博弈是一种重要的分析方法,当然这对我们在日常生活中分析问题也不无裨益。

比如,汽车企业之间的价格战往往不是一次性降价,而是一轮一轮地降价,这种类似的问题都可以用有限次囚徒困境模型来分析,事实情况和我们前面的分析完全相同,汽车企业之间每一次的价格博弈的纳什均衡只有一个,那就是全体降价。

笔者在这里最后还要补充一个问题,就是多人重复囚徒困境的博弈。实际上,生活中的两人博弈毕竟是特例,绝大部分的情况还是多人博弈,比如上面提到的汽车价格战。在多人博弈中,只有其它所有参与者在第k-1次博弈中都是合作的,某个参与者才会在k次博弈中采取合作策略。

然而,这一策略会带来一个协调问题,任何人的一个小小失误都会导致采取背叛策略的其他参与者的数量如同滚雪球一样地愈演愈烈,最终导致所有人的背叛。更糟糕的是,一旦出现这种情况,没有任何人会主动开始合作。因此,我们可以这么说,多人重复囚徒困境(无论有限或无限)中稳定的合作几乎是不可能的。

比如1992年英镑事件前后,可以明显感觉到有关游戏各方的思路与分析、行为模式。游戏中的德国、英国、意大利等的共同利益是建立统一的欧洲共同体;而它们在考虑统一货币的利益时,均在强调自己的利益;德国在其中的地位很特殊,它具有双重身份,既是欧洲汇率机制的基础,也是德国货币稳定的保证。这就形成了“囚徒困境”的博弈模型。

索罗斯的量子基金发起攻击的主要原因在于:德国联邦银行总裁“暗示”不会放弃德国的利益。而英国、意大利等国家在本国利益受到损害时,也必然倾向于自保。而在这种分歧加剧的背景下,无疑会加重有关各方拒绝承认错误的立场,这又进一步加重了分歧,索罗斯正是利用这套机制获利的。

这个结论似乎是一个令人绝望的,但绝望之处必有希望,欧元已经成功地在欧洲大陆通行,成为可以与美元相抗衡的硬通货。这其中的道理,笔者在后面将告诉读者,什么样的游戏规则可以保证博弈各方稳定合作。

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000