◆预备知识
在博弈中,你在采取行动时,一定要考虑对方会采取怎样的行动;在博弈中,假定每个人都是理性的;每个博弈参与者都会采取最优策略反应,以使自己在博弈中的预期收益最大化。(第1章)
◆本章重要概念
◎囚徒困境:在博弈论中最常被研究的,也是20世纪最有影响力的博弈实例。它由美国普林斯顿大学数学系教授阿尔伯特?塔克提出。囚徒困境通俗化的表达就是“在一场博弈中,每个人都根据自己的利益做出决策,但最后的结果却是谁也捞不到好处。”
◎优势策略:是指在一个博弈中,不论对方采取哪个策略,我的这个策略总是显出优势。
◎收益矩阵:由著名经济学家托马斯?谢林教授提出,用矩阵的形式直观地表示两个参与者在博弈中的得失。收益矩阵在博弈论中至关重要,在本书的许多章节中都会涉及。
■囚徒困境:忠诚还是背叛?这是一个问题
在了解“囚徒困境”之前,让我们先看一下发生在我国古代的一个小故事。
春秋时期,贫士玉戭生与三乌从臣二人相交甚好,由于没有钱,他们就以品性互勉。玉戭生对三乌从臣说:“我们这些人应该洁身自好,以后在朝廷做官,绝不能趋炎附势而玷污了纯洁的品性。”三乌从臣说:“你说得太有道理了,巴结权贵绝不是我们这些正人君子所为。既然我们有共同的志向,何不现在立誓明志呢?”于是二人郑重地发誓:“我们二人一致决心不贪图利益,不被权贵所诱惑,不攀附奸邪的小人而改变我们的德行。如果违背誓言,就请明察秋毫的神灵来惩罚背誓者。”
后来,他们二人一同到晋国做官。玉戭生又重申以前发过的誓言,三乌从臣说:“过去用心发过的誓言还响在耳边,怎能轻易忘呢!”当时赵盾在执掌晋国朝政,人们争相拜访赵盾,以期能得到他的推荐,从而得到国君的赏识。赵盾的府邸前车子都排出了很远。这时三乌从臣已经后悔,他很想结识赵盾,想去赵盾家又怕玉戭生知道,几经犹豫后,决定起早去拜访。为避人耳目,当鸡刚叫头遍,他就整理衣冠,匆匆忙忙去拜访赵盾了。进了赵府的门,却看见已经有个人端端正正地坐在正屋前东边的长廊里等候了,他走上前去举灯一照,原来那个人是玉戭生。
这则颇具意味的故事出自明代学者宋濂的《宋文献公全集》。宋濂在作品中评论道:“二人贫贱时,他们的盟誓是真诚良好的,等到当了官走上仕途,便立即改变了当初的志向,为什么呢?是利害关系在心中斗争,地位权势使他们在外部感到恐惧的缘故。”或许我们要问,地位和权势是怎样使他们感到恐惧的?或许博弈论中的“囚徒困境”理论可以给出合乎情理的解答。
1950年的一天,美国斯坦福大学客座教授、普林斯顿大学数学系主任阿尔伯特?塔克给一些心理学家做讲演,为了避免使用繁杂的数学手段而能更加形象地说明博弈的过程,他提出了囚徒困境的理论模型。
塔克以下面这则小故事作为开始:
鲍勃和埃尔两个窃贼在偷盗地点附近被警察抓获,分别关押。每个窃贼必须选择是否供认并指证同伙。如果二人都不供认,将被指控非法携带武器,入狱1年。如果二人都供认并指证同伙,将入狱10年。如果一人供认,一人不供认,则鉴于供认者与警方合作的表现,无罪释放,其同伙将遭到严惩,判入狱20年。
我们用收益矩阵分析囚徒困境的情况(如下表):
埃尔
供认 不供认
鲍伯 供认 10年,10年 0年,20年
不供认 20年,0年 1年,1年
收益矩阵可以这样解释:囚犯的战略是供认或不供认,每个囚犯选择其中一种战略。竖列代表埃尔的战略,横行代表鲍勃的战略。矩阵中的每组数字是两个囚犯选择不同战略得到的相应结果,逗号左边的数字为鲍勃的收益,右边数字为埃尔的收益。以第一列为例,若两囚犯都认罪,都被判入狱10年;若埃尔认罪,鲍勃不认罪,鲍勃入狱20年,埃尔获释。
那么,到底应该如何解决这一博弈问题呢?如果二人都想入狱时间最短,什么样的战略才是理性的呢?埃尔可能作如下思考:“有两种可能性会发生:鲍勃认罪或保持沉默。假定鲍勃认罪,则我不认罪将入狱20年,认罪将入狱10年,所以该情况下最佳的选择是认罪。相反,假定鲍勃不认罪,则我不认罪将入狱1年,认罪将获得自由,认罪还是最佳选择。总之,我应该认罪。”
⊙托马斯?谢林的博弈收益矩阵
托马斯?谢林教授对博弈论的重大贡献之一就是首先用矩阵形式的表格表示两个参与者的博弈所得。谢林教授曾经说过:“假如真有人问我有没有对博弈论做出一点贡献,我会回答有的。若问是什么,我会说我发明了一个矩阵反映双方得失的做法……我不认为这个发明可以申请专利,所以我免费赠送,不过除了我的学生,几乎没有人愿意利用这个便利。现在,我也供给各位免费使用我发明的矩阵。”
上文中我们所用的用来表示囚徒困境的矩阵,就是谢林教授“免费”提供给我们的。
同样,鲍勃也将按照相同的思维确定自己的行为选择,其结果是两人都认罪,被判入狱10年。然而,如果二人非理性行事,保持沉默,每人只会入狱1年。
由此可见,对于鲍伯来说,无论埃尔采取什么策略,他坦白总是对自己有利的,两相比较,坦白是他的优势策略;对于埃尔同样如此。因此,在这个博弈中,坦白是双方的优势策略,那么,抵赖就是劣势策略。
实际上,囚徒困境正是个人理性冲突与集体理性冲突的经典情形。正因为在囚徒困境中,每个人都根据自己的利益做出决策,但最后的结果却是谁也捞不到好处。这种情形在生活中也会遇到,比如排队购物时,如果大家都在排队而只有一个人挤上前去插队,他将得到好处;可是如果大家都蜂拥而上,将会出现混乱无序的局面,此时你只能跟着大家一起挤才有可能尽快买到你想要的东西,否则你将成为最后一个——也是最吃亏的一个。
学习了囚徒困境理论,我们在回过头来看一下本文开头的小故事,相信会有豁然开朗的感觉。首先,赵盾的权势对玉戭生与三乌从臣而言是不可忽视的外在资源,赵盾是否赏识,将决定他们的仕途是否顺利。这种情形之下,巴结赵盾与不巴结赵盾的选择,就与二人的现实利益息息相关。对于二人而言,无论对方是否选择巴结,自己只有选择巴结才有可能升官。
因此我们不能说趋炎附势是性格软弱而导致的惯性举止,实际上它是为了维护自身利益而进行的一种博弈选择。如果他们信守誓言,就肯定与升迁无缘;而背叛誓言,则有可能得到现实利益。因此,在没有良性竞争的机制下,背叛无疑是利益最大化的选择。因为如果自己坚守,而又没有一种机制能保证对方也同样坚守,那么坚守者就有可能成为被牺牲的傻瓜。学习囚徒困境的理论模型,并非鼓励人们背叛,而是让我们知道,在面临一个决策时,如果没有十全十美的办法,我们不妨权衡一下利弊,从而做到“两害相权取其轻”。
⊙阿尔伯特-塔克(Alberttucker,1905—1995)
阿尔伯特-塔克出生于加拿大的安大略,1929年到普林斯顿大学从事研究工作,后来担任该大学数学系主任——当时普林斯顿大学的数学系是世界上最富创造力的数学系之一。
1950年,塔克在作为斯坦福大学的客座教授给心理学家们讲理博弈论时,创造了囚徒困境。囚徒困境的例子虽然简单到用一页纸就可以写完,但却对20世纪后半叶的社会科学产生了深远的影响,塔克本人也因其在博弈论和数学优化领域的贡献而为世人敬仰。