在斯大林时代的苏联,有一位乐队指挥坐火车前往下一个演出地点。正当他在车上翻看当晚就要指挥演奏的作品乐谱时,两名克格勃(KGB,苏联国家安全警察,实际是政治特务)将他作为间谍逮捕了。他们以为那乐谱是某种密码,这位乐队指挥争辩说那只是柴可夫斯基的小提琴协奏曲,却无济于亊。在乐队指挥被投入牢房的第二天,审问者自鸣得意地走进来说:“我看你最好还是老实招了吧,我们已经抓住你的朋友柴可夫斯基了,他这会儿正向我们交代呢。你如果再不招就枪毙了你。如果交代了,只判你10年。”
笑过之后,每个人都会思考其中所蕴涵的东西。但是如果认为这个笑话仅仅讽刺了克格勃特务的无知与无耻,那是不够的。事实上,克格勃们的花招,是想运用博弈论中囚徒困境理论,达到自己的目的。虽然他们未必知道博弈论,但是他们明显企图运用其中的布局,使乐队指挥被迫选择招供。
1950年,担任斯坦福大学客座教授的数学家图克(Tucker),给一些心理学家解释他正在研究的完全信息静态博弈问题。为了更形象地说明博弈过程,他用两个犯罪嫌疑人的故事构造了一个博弈模型,即囚徒困境模型。
这一模型的过程具体是这样的:两个共同偷窃的犯罪嫌疑人甲和乙被带进警察局。警方对两名犯罪嫌疑人实行隔离关押,隔离审讯,每个犯罪嫌疑人都无法观察到同伴的选择。
警方怀疑他们作案,但手中并没有掌握确凿证据,于是明确地分别告知两名犯罪嫌疑人:对他们犯罪事实的认定及相应的量刑完全取决于他们自己的供认。如果其中一方与警方合作,供认偷窃之事,而对方抵赖,供认方将不受惩罚,无罪释放,另一方则会被判重刑10年;如果双方都与警方合作共同供认,各被判刑5年;而如果双方均不认罪,因为警察找不到其他证据,则无罪释放。
两名囚徒面临的选择及其带来的后果组合可以用表2-1来表示。
表2-1 囚徒困境博弈收益矩阵
甲/乙 | 抵 赖 | 供认 |
抵赖 | 无罪释放/无罪释放 | 无罪释放/判刑10年 |
供认 | 判刑10年/无罪释放 | 判刑5年/判刑5年 |
哪一种选择对犯罪嫌疑人更有利呢?
从上表中可以知道:每个犯罪嫌疑人都有两种可供选择的策略:供认或不供认。而且,每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择。
如果甲选择抵赖,那么就可能会出现两种情况:如果乙选择供认,那么甲将被加重惩罚.判刑10年,而乙则无罪释放;如果乙也同样选择抵赖,那么他们两个都将因证据不足而被释放。很显然,这第二种结果对于两个人都是最有利的。但是,因为警方没有把两名嫌疑人放在一间囚室里,因而这种合作难以顺利进行,使得结果预测的不确定性加大,或者说增加了抵赖合作的风险性。
因此,基于人是理性的这一前提,由于犯罪嫌疑人不知道对方的想法,最理性的博弈策略,就是选择供认。这时的策略,我们可以称为占优策略。
而如果所有参与人都有占优策略存在,那么博弈将在所有参与人的占优策略的基础上达到均衡,这种均衡称为占优策略均衡。
在囚徒困境中“甲供认,乙供认”的占优策略均衡中,不论所有其他参与人选择什么策略,一个参与人的优势策略都是他的最优策略。不管甲乙两人谁供认,都将得到减轻惩罚的结果:如果甲供认了,乙抵赖,甲将免于惩罚,如果乙也供认了,那么罪名各担一半,从甲个人看来,也减轻了惩罚;甲乙互换位置,结果依然是一样。显然,这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。
与占优策略相对应,劣势策略则是指在博弈中,不论其他参与人采取什么策略,某一参与人可能采取的策略中,对自己严格不利的策略。劣势策略是我们在日常生活中不应该选择的行动。
有一个要注意的问题是,采用优势策略得到的最坏结果,并不一定比采用另外一个策略得到的最佳结果要好,这是很多博弈论普及书中容易出错的一个问题。应该说,参与人采用优势策略时,无论对方采取任何策略总能够显示出优势。
由于囚徒困境的模型是如此有趣和简洁,不仅给人们留下了深刻的印象,而且迅速不胫而走,成为一个被人们广为谈论和研究的博弈模型。在我们开头的那个笑话中,克格勃们的思路是这样的——乐队指挥知道我们抓住了“柴科夫斯基”,就必然会考虑:这个“柴科夫斯基”如果交代,我有两种选择——不交代被枪毙,交代则被判10年。那么此时,我的最好选择是交代。当然,如果对方不交代,我的最好选择也是交代。
如果不是这些克格勃因为过于无知,不知道柴科夫斯基是19世纪俄罗斯最伟大的作曲家,并且早在1893年就去世的话,这个设计本来是天衣无缝的。从这个角度说下下人有上上之智,也并不为过。
在囚徒困境的模型中,有一个背景需要向国内的朋友介绍,那就是辩诉交易。曾经有国内学者在批评囚徒困境时指出:“是否招供并非定罪的充分、必要条件,定罪的充要条件是证据,有了证据不招供亦可定罪,没有证据即使招供(证言),也不能定罪。”这种说法其实恰恰反映了对辩诉交易缺乏了解。
所谓辩诉交易,又称辩诉协商或者辩诉协议,是指检察官和辩护律师在法院开庭审判之前,对被告人的定罪和量刑问题进行协商和讨价还价,检察官通过降低指控或者向法官提出减轻量刑的建议,来换取被告人做有罪答辩的一种活动。1970年,美国联邦最高法院在“布雷迪诉美利坚合众国政府”—案的判决中,正式确定了辩诉交易的合法地位。此后,辩诉交易在美国、英国等西方国家广泛发展起来,并成为诉讼中解决刑事案件的一种主要方式。
在囚徒困境的案例中,均衡点是建立在两个囚徒非合作的基础上的,并且两者的非合作还可以获得一定的利益(从宽惩罚),如果没有辩诉交易提供的从宽处罚这一利益条件,那么这个严格优势策略也就不复存在。