从围棋定式谈纳什均衡

2019年5月28日　　来源：生活中的博弈论　作者：余治国　提供人：xinggai42......

我们已经知道，博弈论的基本前提是，某人或某物的行为效果如何，有赖于他人或他物的行为。由于世间的事物很少有不依赖于其他事物而存在的。非合作博弈强调利益的冲突，即非合作甚至对抗状态。

比如，“零和博弈”就是典型的非合作博弈，它是指博弈各方的所得之和为零，在特殊情况下如两人博弈时，一方所得与另一方所失相等。从严格的数学角度来看，围棋19×19的361个交叉点就是围棋对弈者所得的总和，因此围棋棋手非输即赢，可见围棋明显是数学意义上的严格的零和博弈。

世事如棋局，而棋局是可以用博弈思维加以概括的。比如过分的“骗着”，“本手”与“缓着”之间，一般都会选择本手，着法过分如不遇反击，可能占到便宜，如遇反击则可能亏损，因此如果棋力相当，则应考虑到对手的反击手段。对手也同样考虑到在追求利益中不可能占尽便宜。这就导致双方都能接受方案。

围棋定式从策略层面看，如一方的策略是抢占实地，另一方是获得外势，而结果相当，互有所得，双方就愿意那样下。抢占实地考虑现实利益，获得外势考虑将来发展，这便形成一个双方的“均衡”；另一方面，可以从具体行棋效果来看，如果一步棋能考虑到对手各种应手而依然成立，对手也运用同样法则找到应对，则可以说双方达成了“均衡”。

在经济学中，均衡(equilibrium)意即相关量处于稳定值。均衡是在分析均衡价格与数量的决定与变动的状况。供需均衡时会达到供需相等，市场出清，也就是在其他条件不变下，会维持不变的状况。

一物的供给量等于需求量的价格，就是其均衡价格，对应的数量就是均衡数量。这就是在供给线与需求线相交之处，也称为均衡点。比如在供需分析中，若某一商品的市场价格使得欲购买该商品的人均能买到，同时想卖的人均能将商品卖出去，此时该商品的供求达到了均衡。这个市场价格可称之为均衡价格，产量可称之为均衡产量。均衡分析是经济学中的重要方法。

在谈纳什均衡之前，我们先来看这样一个例子。这个例子对大家所熟知的“囚徒困境”做了一些微小的修改，结果却是发生根本的变化。

A和B是两个因盗窃而被抓的惯犯。警察局局长C正在调查该局管辖区域内的一宗悬而未决的银行抢劫案，并且他根据一系列的线索判定A和B是这桩案子的凶犯。

因为该局管辖地区治安一向混乱不堪，C的上级对C非常恼火，直接威胁C，如果银行案破不了，就要撤销C局长的职位，给予降级惩罚。C在上级的压力下不得不耗费大量时间、精力提审A和B。为了能够让两个囚犯认罪，C想让A和B明白，假如只有他们其中的一人坦白认罪则这个人可能受到的最严厉的惩罚是什么，但向他们遵守承诺，若两个人都坦白，则会从轻发落。

于是，这个警察局长C分别与A、B立下许诺：如果只有一个人坦白认罪，则认罪的一方会收到所有指控，会因抢劫银行而判无期徒刑，另一个人则不会再加刑罚。如果无人认罪，两个人都会因盗窃罪而判刑2年。如果两个人都坦白，则两个人都被判处有期徒刑5年。

这样，警察局长C给A和B构造了一个博弈。不妨假设，A和B都是极其精明的会打小算盘的自私自利不讲“江湖义气”的人，同时A和B被分别审查不能够进行沟通。

在这种情况下，A会在心里打起小算盘，他会想：如果选择坦白，那么B选择坦白时将判刑5年，B选择不坦白时将被判无期徒刑，因此选择坦白时最坏的打算就把牢底坐穿；若是选择不坦白，那么B选择坦白时将无罪释放获得自由，B选择不坦白时将判有期徒刑2年，因此选择不坦白时最坏的可能就是被囚禁5年。

两害相权，取其轻。因此在这种情况下，A必然会选择不坦白，同样的道理，B也会选择不坦白。这个时候，博弈达到了这样一种局面，这种局面就是纳什均衡（Nash Equilibrium）。

纳什均衡的思想其实并不复杂，在博弈达到纳什均衡时，局中的每一个博弈者都不可能因为单方面改变自己的策略而增加获益，于是各方为了自己利益的最大化而选择了某中最优策略，并与其他对手达成了某种暂时的平衡。

这种平衡在外界环境没有变化的情况下，倘若有关各方坚持原有的利益最大化原则并理性面对现实，那么这种平衡状况就能够长期保持稳定。

再简单一点说，一个策略组合中，所有的参与者面临这样的一种情况：当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略，他的收益将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

由此可见，纳什均衡是一稳定的博弈结果。打一个比方，如果把一个乒乓球，放到一个光滑的铁锅里，不论其初始位置在何处，最终乒乓球都会稳定地停留在锅底，这时的锅底就可称为是一个纳什均衡点。

相反，如果锅是扣在地上的，那么一个乒乓球很难在锅底部位保持稳定，因为往任何方向的一点点移动，都会使球立刻离开锅底。这时的锅底部位就不是一个纳什均衡点了。

博弈的结果并不都能成为均衡。博弈的均衡是稳定的，则必然可以预测。纳什均衡的另一层含义是：在对方策略确定的情况下，每个参与者的策略是最好的，此时没有人愿意先改变或主动改变自己的策略。

在上面的“囚徒困境”变形的博弈中，A和B都不坦白就是一个纳什均衡，这对双方来说都是最优选择。同时在这个博弈中，其均衡对双方来说是全局最优的。当然博弈达到纳什均衡，并不一定是对参与者最有利的结果，更不意味着对整体而言是最有利的结果，比如“囚徒困境”的例子导致了整体的不利。

围棋与这个博弈的例子是有所不同的。上面的这个例子是A和B双方没有信息交换下的博弈，这就是博弈论中的静态博弈概念。

围棋则是对弈双方相继按照一先一后次序行动的博弈。对于一人一步的相继行动的博弈，每个参与者都必须向前展望或预期，估计对手的意图，从而倒后推理，决定自己这一步应该怎么走。

这是一条线性的推理链：“假如我这么做，他就会那么做———若是那样，我会这么反击”，后面的步骤依此类推。也就是说，你怎么走棋，完全取决于对手的上一招。这在博弈论上叫做“倒推法”。

在动态博弈中，存在明显的马太效应，也就是说凡是拥有较少的，连他仅有的那一点点也夺过来；凡是多的，就加给他，让他更多。比如在围棋上，就有“一招不慎，满盘皆输”的谚语，当然我们也要应用马太效应原理，在获得优势的情况能够保持优势，扩大优势，直至最后成功。

而在同时行动的静态博弈里，没有一个博弈者可以在自己行动之前得知另一个博弈者的整个计划。在这种情况下，互动推理不是通过观察对方的策略进行，而是必须通过看穿对手的策略才能展开。

要想做到这一点，单单假设自己处于对手的位置会怎么做还不够。即便你那样做了，你只会发现，你的对手也在做同样的事情，即他也在假设自己处于你的位置会怎么做。

因此，每一个人不得不同时担任两个角色，一个是自己，一个是对手，从而找出双方的最佳行动方式。与一条线性的推理链不同，这是一个循环，即“假如我认为对方认为我认为……”。

这样来看，定式是一系列纳什均衡的累计直至局部达到稳定的一种变化，直到一方认为可以根据形势选择任何变化或脱先而无局部受损之虞。由于定式是在大量实战基础上不断被验证并长期积累而成。

因此在动态博弈中，纳什均衡的要义在于：即使在对抗条件下，双方可以通过向对方提出威胁和要求，找到双方能够接受的解决方案而不至于因为各自追求自我利益而无法达到妥协，甚至两败俱伤。稳定的均衡点建立在找到各自的“占优策略”(dominant strategy)，即无论对方作何选择，这一策略始终应优于其它策略。

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。