结论
1.在巨大可能性空间里搜索有效策略,遗传运算法则是相当有效的方法。遵循休厄尔·赖特(Sewall Wright,1977,pp.452-454)的研究成果,演化的问题可以概念化表述为:在基因组合的多维领域内寻求相对高分,这个领域内的高度与适合性相对应。当该领域存在许多局部最优时,搜索会变得相当困难。当领域的维数变大,搜索则更难。计算机模拟表明,在如此复杂的多维空间进行搜索,遗传运算法则的最小系统是很有效率的方法。第一个试验表明,即使是70维的基因领域,也能在50代内发现相当有效的策略。有时遗传运算法则发现的基因组合,违反了先前所接受的运作方式(不先行背叛),以便达到比原先设想的更大有效性。
2.有性繁殖对搜索过程的确有帮助。与无性试验相比,有性试验达到高度有效群体的可能性大许多,事实证明了这一点。[7]
3.演化的一些方面是任意的。在自然环境下,人们可能观察到,群体在特定的一个基因上没有什么变化。换句话说,该基因的等位之一在整个群体中固定不变。从这一点可能容易地推论,该等位基因比其他任何一个等位基因更有适应性,但是事实可能并非如此。演化模拟使得同样条件可能被重复,进而研究结果中到底有多大的变异性,这样就可以探讨以上的可能性。事实上,群体趋同可能是任意的,模拟结果表明其原因有两种。
a.对个体的适合性没有多大影响的基因可能在群体中固定不变,因为它们搭了有影响基因的便车(Maynard Smith and Haigh,1974)。例如,在模拟中三个步骤的某些顺序可能极少发生,于是相应基因在这些环境中支配的行为可能不太重要。但是,如果整个群体是几个个体的后代,那么这些不相关的基因可能系定于它们的祖先碰巧共享的重要性。反复运行一个模拟就可以使大家注意到,一些基因在一个群体中变成固定的,而另一个群体中则不是,或者它们在不同群体中都变成固定的,但方式却不同。
b.某些情况下,染色体的一些部分在内容上是任意的,但它们必须保持不变这一点并不是任意的。固定以后,染色体的其他部分可以适应它们。例如,个体染色体的模拟中,把6个基因用于编码博弈第一步之前三步的前提。当环境由8个代表组成,模拟的不同运行场次中,群体发展不同的前提。但在每一运行中,群体通常在前提方面相当一致:6个前提基因变成固定。而且,在每个群体内部,这些基因通常早早固定下来。有趣的是不同群体演化了差异较大的前提。对演化过程重要的,是固定开端时假设历史的前提,这样染色体的其他部分可以在给定前提的基础上进行适应。
4.由灵活性带来的益处和承诺、专门化带来的益处,两种益处之间存在平衡(March,1991)。灵活性在长期看来可能是有益的,但是在一个演化系统中,个体如果要繁殖,就必须在短期内获得生存。演化的这个特征出现在几个层次上。
a.如模拟所示,前提被早早地固定下来。这就意味着一种承诺,在头几步行动中会就此考虑染色体的各部分,这反过来意味着,随着染色体越来越多的部分在已被固定部分的基础上演化,灵活性被放弃了。这进一步表示,群体难以转换成一种不同的前提。这样,灵活性放弃了,但可以从中获取承诺的好处。
b.模拟试验中,挑选的方式上也有短期和长期好处的权衡。在任何给定的一代中,通常会有一些个体的表现远远胜过平均水平,还有一些表现只比平均水平好一点点。在短期内,把下一代的预期表现最大化的方法是使几乎所有的后代来自当前一代中最好的个体。但这就暗示群体的遗传变异性迅速降低,而且导致以后的进化过程会放慢。如果适度成功的个体也得到机会产生一些后代,这将对群体的长期前景有所帮助,但代价是牺牲了短期的最优化。所以,利用和探索之间存在内在的权衡关系,就看我们如何利用已经效果最好的个体和探索最终进化为更好个体的可能性(Holland,1975,p.160)。
5.演化承诺可能无法逆转。例如,面对8个代表构成的环境时,大多数群体中的个体演化出的策略与一报还一报策略很相似。因为一报还一报策略在计算机竞赛中本身表现最好,我不认为它有可能在演化过程中表现得更好。但正如前面指出的,在约有1/4的有性繁殖模拟运行中,群体的确进化出了更优秀的策略——而且它们与一报还一报迥异。这些高度有效的策略在第一步即选择背叛,而且常常第二步也是如此,目的是收集信息以判断另一个参与者是否属于可利用的类型。较常见的策略群体则从一开始就合作,而且使用互惠的方式进行合作,类似于一报还一报。虽然这些更常见的策略可能轻易突变,比如在比赛一开始就尝试背叛,但这样的行为将成本高昂,除非个体能有效地利用由此产生的信息。而且,一旦群体进化到与一报还一报类似的有效程度,这样的突变就必须相当有效,才能拥有足够的存活时间以完善自己。所以,一旦群体采取某具体路线(在这种情况下,主要方向是互惠),它很容易陷入局部最大化的陷阱。的确,事实上模拟运行足够多次数,才可能导致以下的发现:在某些具体环境中,互惠行为只是局部最大化,而且优于互惠的路线实际上是可能的。在一个田野环境(field situation)中,也许不可能做出这样的发现,因为实质上可能只有一个基因群。
可用模拟进行研究的主题
本章论述的遗传模拟方法可用于探索博弈-理论环境中的学习过程。下面列出可用遗传模拟进行研究的问题,这些都是在与遗传生物学类比的启发下作出的。
1.突变。此处发展的模拟方法表明,对一个基因群来说,探求各种未知可能性(高突变率是最好的方法)与利用当前基因群已经含有的可能性(低突变率是最好的方法)之间存在一种固有的均衡关系。这反过来表明,使突变率适应环境变化率是有利的。[8]
2.交叉。有性繁殖中,交叉的作用是把父母双方的遗传物质传递到每个后代。如果交叉率过低,后代经常会得到父母一方整个染色体的遗传材料。但是如果交叉率过高,常常会分开同一染色体上相互适应的等位基因系列。也许多种染色体的存在(而不是一个长长的染色体),不仅要操作方便,而且要适应以下的需要:低交叉率,而同时后代可能只从父母一方获取遗传物质时,没有不利之处。
3.倒位。倒位改变染色体上基因的次序。它可以使彼此适应的等位基因系列在染色体上排列得更紧密,这样它们不再常常因为交叉而分开。如何确定理想的倒位率呢?
4.编码原则。大家知道,生物染色体含有的某些物质不直接为蛋白质编码,而是扮演执行其他功能的角色,例如标志基因界限,或者根本没有任何功能。遗传材料也可能以极多余的形式出现在染色体上。遗传模拟试验可以为以下的理论做出新的阐述:多种编码方案在减少错误和管理方面可能起到的作用。这些模拟也有可能说明某些遗传材料如何能作为“搭便车者”存在。
5.显性和隐性基因。达尔文(Darwin)曾担忧,父母特征的混合会消除群体的变化性,而孟德尔(Mendel)的著名试验表明,显性和隐性等位基因可以消除这种担忧。在面对为达到局部最优而承受的选择压力时,我们可用遗传模拟的方法来探讨,为保持群体的变化性,这些基因以及其他遗传机制的意义。尤其应该探讨哪几种显性特征用显性和隐性基因编码最好,哪几种用其他遗传表达系统编码最好。
6.渐进式还是断续性演化。遗传模拟试验也可能辨明当代的一个争论:演化以渐进的步伐前进还是倾向于走走停停。这种工作可能需要上万代的模拟,但是如此长度的模拟运行是可行的。
7.群体粘性。随机交配存在障碍,原因可能是地理或其他影响力倾向于青睐群体中某些部分。为了研究这种模型,一些计算机模型设计工作已经完成(Boorman and Levitt,1980,pp.78-87;Tanese,1989)。一种社会特征在频度相关选择基础上传播的定量特征,可以从这些计算机模型设计工作之中得到一些线索。
8.物种形成和生态区位。当存在不同的生态区位时,一种物种可能倾向于区分为两种或更多种物种,以便利用不同生态区位所提供的不同机会。用学习的术语说,区分为两种或更多种物种,意味着一个新的策略产生于只是整个群体中一部分所表述的想法。遗传模拟可探讨这个过程,帮助确定在什么情况下专门化的好处会超过较狭窄交配机会和生态灵活性降低的不利之处。最重要的一点是,把遗传学转换成模拟问题,可以提供一个新的角度看待学习过程的功能。
本文所提供的遗传模拟基于一套相当抽象的系统。群体很小,只涉及短短的几代。更重要的是,这套遗传过程只有两个实现手段:突变和交叉。与生物遗传学比较起来,这个系统是被极度简化了。但是在复杂环境中,在演化的高级、有效策略方面,遗传运算法则表现出出众的能力。
注释:
[1]对斯蒂法妮·福里斯特(Stephanie Forrest)和赖可·塔尼斯在计算机编程方面的帮助,迈克尔·科恩和约翰·霍兰有益的建议,以及哈里·弗兰克·古根海姆(Harry Frank Guggenheim)基金和国家科学基金提供的资助,我在此一并表示感谢。
[2]互动实际开始之前三步行动的每一步中,该个体和另一个参与者假定所作的C或D选择,有6个前提基因编码。
[3]一些染色体产生相等的策略,因为在座位设定情况给定时,某些基因可能对不会出现的历史进行编码。但搜索过程不一定因此变得容易。
[4]实际上,得分是它在8个代表规则上得分的加权平均,确定加权权重时,考虑如何能最好地代表竞赛第二轮中策略的全部集合。
[5]表现大大超过一报还一报的标准是450分的平均分。与之相比,一报还一报在8个代表处获得的加权分是428。
[6]在有性繁殖运行的40场中出现了11次,而在无性繁殖运行的40场中只有5次出现这种情况。这种差异在0.05水平下单尾卡方检验,表现显著。
[7]生物学中,有性繁殖的代价是繁殖力降低。所以,如果雄性对后代很少或不提供帮助,且性别要维持稳定,那么有性繁殖的一个特性,必须是出现较高的(至少高达二成)平均额外适合性。优势可能来自重新组合,但这在生物学中一直难以确认。一个模拟模型已证明,优势很可能在于重组防御手段以击退多种寄生虫的必要性(Hamilton et al.,1990)。与生物学不同的是,在人工智能应用中,有性状态的额外(计算的)成本很小。
[8]这个启发应归功于迈克尔·科恩。
参考文献
Axelrod,Robert.1980a.“Effective Choice in the Prisoner's Dilemma.”Journal of Conflict Resolution 24:3-25.
_____.1980b.“More Effective Choice in the Prisoner's Dilemma.”Journal of Conflict Resolution 24:379-403.
_____.1984.The Evolution of Cooperation.New York:Basic Books.
Axelrod,Robert,and William D.Hamilton.1981.“The Evolution of Cooperation.”Science 211:1390-1396.
Binmore,Ken,and Larry Samuelson.1990.“Evolutionary Stability in Repeated Games Played by Finite Automata.”Center for Research on Economic and Social Theory,Working paper 90-117,Department of Economics,University of Michigan,Ann Arbor,Mich.
Boorman,Scott A.,and Paul R.Levitt.1980.The Genetics of Altruism.New York:Academic Press.
Goldberg,D.E.1983.Computer-Aided Gas Pipeline Operation Using Genetic Algorithms and Machine Learning.Ph.D.diss.,University of Michigan(Civil Engineering).
_____.1989.Genetic Algorithms in Search,Optimization,and Machine Learning.Reading,Mass.:Addison-Wesley.
Grefenstette,John J.,ed.1985.Proceedings of an International Conference on Genetic Algorithms and Their Applications.Pittsburgh,Penn.:The Robotics Institute of Carnegie-Mellon University.
Hamilton,William D.1980.“Sex Versus Non-Sex Versus Parasite.”Oikos 35:282-290.
_____.1982.“Heritable True Fitness and Bright Birds:A Role for Parasites.”Science 218:384-387.
Hamilton,William D.,Robert Axelrod,And Reiko Tanese.1990.“Sexual Reproduction as an Adaptation to Resist Parasites.”Proceedings of the National Academy of Sciences(USA) 87:3566-3573.
Holland,John H.1975.Adaptation in Natural and Artificial Systems.Ann Arbor:University of Michigan Press.
_____.1980.“Adaptive Algorithms for Discovering and Using General Patterns in Growing Knowledge Bases.”International Journal of Policy Analysis and Information Systems 4:245-268.
_____.1992.“Genetic Algorithms.”Scientific American 267(July):66-72.
Lomborg,Bjorn.1991.“An Evolution of Cooperation.”Masters thesis,Institute of Political Science,University of Aarhus,Denmark.
March,James G.1991.“Exploration and Exploitation in Organizational Learning.”Organizational Science 2:71-87.
Maynard Smith,J.,and J.Haigh.1974.“The Hitch Hiking Effect of a Favorable Gene.”Genet.Res.,Camb.23:23-35.
Megiddo,Nimrod,and Avi Wigderson.1986.“On Play by Means of Computing Machines.”IBM Research Davision,BJ 4984(52161),Yorktown Heights,N.Y.
Miller,John.1989.“The Coevolution of Automata in the Repeated Prisoner's Dilemma.”Working Paper,89-003,Santa Fe Institute,Santa Fe,N.M.
Riolo,Rick L.1992.“Survival of the Fittest Bits.”Scientific American 267(July):114-116.
Rubinstein,Ariel.1986.“Finite Automata Play the Repeated Prisoner's Dilemma.”Journal of Economic Theory 39:83-96.
Tanese,Reiko.1989.“Distributed Genetic Algorithms for Function Optimization.”Ph.D.diss.,University of Michigan(Computer Science and Engineering).
Wright,Sewall.1977.Evolution and the Genetics of Populations.Vol.4,Experimental Results and Evolutionary Deductions.Chicago:University of Chicago Press.
————————————————————
(1) 本文改编自Robert Axelrod,“The Evolution of Strategies in the Iterated Prisoner's Dilemma.”in Genetic Algorithms and Simulated Annealing, ed.Lawrence Davis(London:Pitman;Los Altos,Calif.:Morgan Kaufman,1987),32-41。©Robert Axelrod.