• 精选
  • 会员

重复囚徒困境的策略演化

2020年6月19日  来源:合作的复杂性:基于参与者竞争与合作的模型 作者:(美)罗伯特·阿克塞尔罗德 提供人:yanjia82......

演化新策略 重复囚徒困境的策略演化

罗伯特·阿克塞尔罗德

在复杂的环境中,个体不能完全充分地分析状况并计算出最佳的策略。[1]相反地,根据观察有效和无效的策略,可以预期他们会逐渐调整自己的策略。生物进化就是这个调整过程的一种有益的类比。在进化中,曾经相对有效的策略在群体中会变得更普及,而不那么有效的策略在群体中逐渐变得不常见。

对于适应极其丰富的环境时所需的复杂、有效的方法,生物进化机制能非常成功地发现它们。发现的方式一般是较成功个体的差异繁殖(differential reproduction)。进化过程也要求,通过一种允许发现新策略可能性的遗传机制去继承成功的特质,突变就是一种允许发现新策略的遗传机制。另一种机制是交叉:有性繁殖从一个母体取得一些基因材料,也从另一个母体取得一些。

不仅生物进化善于适应这样的机制,该机制也可以应用于人工智能领域。这种人工智能技术称为“遗传运算法则”(Holland,1975)。虽然有人也曾使用其他方法把博弈的策略表述为有限自动机(finite automata)(Rubinstein,1986;Megiddo and Wigderson,1986;Miller,1989;Binmore and Samuelson,1990;Lomborg,1991),但在此之前遗传运算法则本身未曾用于博弈理论的环境。

本文将首先描述丰富社会环境中的遗传运算法则,构成这个环境的是一个囚徒困境计算机竞赛收到的策略。结果表明,遗传运算法则非常成功地发现了完全适应于这个复杂环境的复杂、有效的策略。随后,关于用进化的方法研究适应性所遇到的重要问题,本文描述如何用该模拟实验的结果来加以阐明,比如基于父母一方或双方策略的新策略的相对优势,早期承诺在策略进化路径形成过程中起到的作用,还有进化过程最优或随意的程度。

模拟方法包含以下步骤:

1.详细说明进化过程可运行的环境。

2.遗传学设计,包括模拟染色体上的信息如何转变为模拟个体的一个策略。

3.设计实验以研究其他实际情况的影响(比如,在同样的条件下重复实验,以了解随机突变是否导致趋同或是趋异的进化结果)。

4.对计算机上指定的几代进行实验,并对结果进行统计分析。

模拟环境

包括人在内的生物追求许多利益,而合作团体可以得到特别多,这一事实提供了包含各种环境挑战的有趣集合。问题是,虽然个体可以从相互合作中得益,但每个个体也可通过利用其他个体的合作努力而有更好的表现。在一段时间内,考虑到策略互动的复杂模式,同样的个体可能再次互动(Axelrod and Hamilton,1981)。

囚徒困境把双方合作的问题简明地具体化了,因此它提供了分析的基础。在囚徒困境中,两个个体每个都能合作或背叛。参与者获得的结果影响其是否繁殖成功。不管另一个参与者如何行事,背叛这种自私的选择能比合作产生更高的回报。但是如果双方都背叛,两人的处境差于双方合作的情况。表1.1说明本研究中使用的囚徒困境的回报矩阵。

表1.1 囚徒困境

注:先列出横排选择者的回报。

在许多种设置下,同样的两个个体可能不止一次地遇见。如果一个个体能认出之前的互动者,并记起之前结果的一些方面,那么策略情景就成了重复囚徒困境。一种策略会采取这种决策规则的形式:把合作或背叛的几率指定为目前为止互动历史的函数。

在由复杂策略构成的多样性环境中,何种策略能取得成功?为了寻找答案,我组织了一场囚徒困境计算机竞赛。提交策略的参与者包括来自经济学、社会学、政治科学和数学等领域的博弈理论家(Axelrod,1980a)。大家一共提交了14个策略,加一个完全随机的策略,总共是15个策略,以循环赛的形式互相配对。其中一些策略相当复杂。比如有一个策略,它是把另一参与者的每一步行动作为马尔可夫过程(Markov process)加以模仿,然后使用贝叶斯分析(Bayesian inference)挑选长期角度来看是最好的选择。但是,竞赛的结果是,最高平均分由最简单的策略夺得,即一报还一报策略。该策略只是头一步合作,之后跟随另一位参与者的任何行动。因此一报还一报是基于互惠的合作策略。

我公布了竞赛的第一轮结果,并征集第二轮的策略。第二次共递交上来62个策略,分别来自6个国家(Axelrod,1980b)。大多数竞赛参与者是计算机爱好者,但其中也有一些教授,他们的专业领域除了第一轮中出现的5个之外,还增加了进化生物学、物理和计算机科学。第一轮的获胜者阿纳托尔·拉波波特又一次递交了一报还一报策略。该策略也又一次获胜。

第二轮计算机竞赛提供了一个更丰富的环境,可以用于测试行为的进化。结果,只有8个递交的策略能够用来解释一个特定规则在所有策略中的表现情况。这8个规则可被认作是所有规则的代表,因为一个特定规则在它们那里获取的分数,可以用来预测该规则在所有规则处得到的平均分。事实上,了解一个规则在8个代表处的表现,就可以解释竞赛分数差异的98%。所以,这些代表性策略可构成复杂的环境,用以评估进化模拟。下一步需要一种代表群体遗传物质的方法,以便详细地研究进化过程。

合作 / 竞争

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000