本文起源于迈克尔·科恩提出的一项观察和建议。他指出,如果基于参与者模型要想成为社会科学研究中的一件通用工具,就必须先找出某种办法在相似的模型间进行周密全面的比较。这个比较或者“校准”(alignment)的过程要判断的就是这两个模型系统是否能得出同样的结果,因而能成为关键实验的基础,成为针对一个模型能否包含另一个模型的检验的基础。他提出的建议是,我的社会影响模型(参见第七章)十分简洁,可以作为校准练习中的目标模型,而乔舒娅·爱泼斯坦和罗伯特·阿克西泰尔的糖域模型环境则很适合当作联盟实验中的对接(docking)模型环境。我觉得科恩的主意好极了,所以我们约上爱泼斯坦和阿克西泰尔一起进行了这项复制研究。
我们四个刚开始动手的时候,这个项目看起来似乎很简单,但是随着研究的深入,很快就发现了两个让我们很意外的现象。第一,若要比较同一个模型的两个不同版本,我们就必须开发出一个新的概念集;第二,模型中对于时间的处理即使稍有不同,结果都会有极大的差异,这意味在处理这些问题的时候,我们必须非常非常的小心。
这项复制研究进行得非常顺利,事实上,它在社会科学领域使用基于参与者模型的研究者中激起了强烈的兴趣,因为大家都觉得在这个新兴领域里,有必要建立更加明确的标准。
而这篇论文的发表对于我来说意义尤为重要。当我的社会影响模型第一次提交发表的时候,有审稿人就认为其中的一个结果与一般的直觉看法不同,需要再进一步证明之所以出现这样的结果不是因为编程有问题,而确是模型本身的输出。而现在,我可以很高兴地回答道,将基于参与者模型重新应用到不同的模型环境中去可谓一项开拓之举,而我的模型成为了它的主题;先前被质疑的结果现在已经完全得到确认,而且这篇关于复制研究的论文也在另一家期刊上发表了。用这篇方法论的文章去反驳类似的意见是十分有力的,因为它把模型的坚固的事实基础摆在了大家面前。
对于想要使基于参与者模型成为累积的科学事业中的一部分的研究者来说,“对接”练习是极有益的帮助。(若要学习如何建立和操作基于参与者模型,请参见附录B。)
复制基于参与者模型校准模拟模型:案例分析与结果
罗伯特·阿克西泰尔、罗伯特·阿克塞尔罗德、乔舒娅·M.爱泼斯坦、迈克尔·D.科恩
[内容摘要]本文阐释的是“校准计算模型”过程或简称为“对接”过程中的概念和方法。若要确定两个模型是否能得出同样的结果,必须进行校准。因而它正是关键实验的基础,也是检验一个模型能否包含另一个模型的基础。我们以阿克塞尔罗德的文化散布模型为目标,用爱泼斯坦和阿克西泰尔的糖域模型来加以比较,从而解释校准所用的概念和方法。
这两个模型在许多方面都存在差异,而且迄今为止也分别被用以实现大不相同的目标。阿克塞尔罗德模型主要用来就参数变化进行透彻的实验,只包含一种机制。相反,糖域模型最初被用作创造丰富的“人工历史”,也就是那种将利益用程式化事实表示出来的情节梗概。比如,资源可得性不同造成的文化差异,或者移民、贸易和战争的可识别类型。
为得到与阿克塞尔罗德文化模型相同的结果,需要对糖域模型进行修正。我们提出的问题有:两个模型均等意味着什么?如何才能对不同的均等性标准加以统计评估?模型设计的细微差别会怎样影响实验结果?实现了两个模型的“对接”后,我们还用糖域模型更丰富的机制集就阿克塞尔罗德模型中文化规则的敏感性进行了两项实验。
在这项尝试中,我们得出的总体肯定经验是,如果校准和均等性检验能被计算模型的建模者广泛运用,那将是大有裨益的。
导言
动机
我们认为,如果想将计算模型(computational modeling)发展成为社会科学研究中的一个通用工具,就必须通过一个我们称为“校准计算模型”的过程,它是后续研究的基础工作。如果缺少了这样一个周密全面的比较,计算模型就永远没有办法把自己的“有效性域”划定清楚,而总是和数学化理论纠缠不清。对此,我们需要判断的最本质问题是:两个宣称自己处理的现象相同的模型是不是真能得出相同的结果?
若要证明累积的科学研究的两大特点——关键试验和包容性,那么校准过程必不可少。如果我们判断不出两个模型在同样的条件下是不是能得出同样的结果,就不能否认另一个模型与数据贴合得更好,也不能就此认为一个模型是另一个模型的特例,后者更加普遍化——就像我们说爱因斯坦对万有引力的解释包含了牛顿对它的解释。
虽然乍一想好像时常有人将计算机模型放在一起比较以证明它们等效,但实际上我们只找到了一个例子(Anderson and Fischer,1986),更没有找到有关等效问题的任何系统性分析。
不过后来的研究者将老模型用新语言改写或者加以扩展的例子倒是有一些。比如,迈克尔·普里图拉(Michael Prietula)重新实现了色特和马奇(Cyert and March,1963)模型[1],而雷·列维特(Ray Levitt)则重新执行了科恩(Cohen et al.,1972)[2]模型。然而,这种改编并不是针对相同事实的不同模型之间的比较。确切地说,它们只是一种“重新执行”,使新模型的输入尽可能地与旧模型的行为假设相一致。而我们的兴趣却集中在一个更加普遍化也更麻烦的问题上——在这里,有两个针对同一类社会现象的模型能将各自机制协调一致起来,这些现象可能是投票行为、态度行成或组织的集权化。
因为,本文的目标有两个:(1)对两个关于文化传播的计算模型进行校准,给出一组新的结果;(2)通过一个有助理解的案例分析,介绍用以得到这组新结果的方法。
概览
本文分为6个部分。在这个简短导言之后,第二部分将详细介绍这两个模型的相关背景,以助读者理解。第三部分介绍我们校准这两个模型、为案例分析收集信息的过程。第四部分报告两个比较试验的结果。第五部分,给出我们对于整个模型校准过程的观察。最后一部分对全文加以总结。
两个模型的背景
我们的研究目标是:判断由阿克塞尔罗德(Robert Axelord,1997)的文化传播模型得出的结果是否也能通过爱泼斯坦和阿克西泰尔(Robert Axtell,1996)糖域模型的不同设置来得到。[3]糖域模型和阿克塞尔罗德模型有许多不同之处。其中差别最大的一点是,糖域系统更具有普遍性,它的参与者——除别的以外——会行动、吃饭、生殖、斗争、贸易甚至生病、痛苦,文化只是它能够处理的许多过程中的一个。而阿克塞尔罗德模型的参与者则简单得多,它们不做这些复杂的行为,只在一个正方形的平面上占据一个固定的位置,只与处在它东、南、西、北四方的紧邻互动。[4]
对于体现计算模型的不同进路来说,这两个模型是非常典型的例证:糖域模型研究的是许多似是而非的社会机制中的互动行为,它是一种“人工世界”(Lane,1993)。而阿克塞尔罗德文化模型(the Axelrod Culture Model,ACM)执行的是单一过程中的单一机制,通过大量的试验来讨论该机制中的各种参数。这种追求极端简洁和模型参数完全分析的思路与传统的数学理论更为一致。
首先,我们来介绍一下阿克塞尔罗德模型的思路。[5]模型设计了一个参与者正方形数组,里面的参与者是一个个的文化实体,比如“村庄”等等。每个参与者会和它四面的固定邻居们互动,如果它正好处于这个正方形的边界上或者角落里,邻居数量就会有所不同。每个参与者又有一些特征,这些特征将从一些额定值中取值。本文介绍的部分中,我们选用了5个特征,每一个在15个额定值中取值。它们可能是衣着习俗、语言类型、宗教实践或者其他文化特征。参与者的初始状态就由这些特征的随机取值决定。
ACM模型的核心目的是研究文化传播的一种简单的传播机制,可简述如下。下一个活动的参与者是谁乃是随机选择的,而它的4个邻居之一将会成为下一个接触者。在5个特征中选择一个。如果两个参与者对这个特征取值相同,那就随机选另一个取值不同的特征,然后使活动的参与者在该特征上的取值与相邻者在那个特征上的取值相同,直到每个参与者的所有特征与它的每个邻居相比,每一个特征值都完全不同或者完全相同。此时,不可能再有任何新变化,于是模型停止运行。
这种文化变化机制的关键之处在于,两个邻居越相似,文化变化越多;二者越相异,文化变化越少。此模型关注的中心问题则是,这个互动频率的可变性是否能够自足地带来稳定的多样性而不是最终的一致性——如果模型假设的是相异的邻居会继续互动而不管它们之间的差别到底有多大,那么最后得到的结果就会是一致的了。
虽然我们可以用几段话就把阿克塞尔罗德模型讲清楚,然后再用一篇短文就能把它的结果全面描述出来,但糖域模型却是一个复杂得多的系统。要把它完全讲述明白,非得写一本书不可(Epstein and Axtell,1996)。这并不是因为糖域模型里的单个机制太复杂。相反,拆开来看,它们各自都和ACM的复杂程度差不多。然而,问题在于,糖域模型的目标正是考察这许多机制在同时运作时其间的相互作用——正如现实社会生活中发生的那样。它就是被设计为对社会理论进行充分性检验的工作,理论家们通过它可以考察给定的一组机制和条件(比如市场出清)是否能得出预期的结果。
因此,糖域模型的进程允许其参与者去寻找、靠近并且吃掉一种资源(“糖”),该资源以生长在环形排列的单元里。所以,糖域模型与阿克塞尔罗德模型的众多基本差别之一正在于:在前者中,尽管食物生长单元是不动的,而活动的参与者却可以有目的性地移动。
文化特征对于糖域模型的参与者也存在。采用该模型进行的典型性研究设定了11个文化特征,每一个在两个值中二取一。在这里,文化特征的变化是参与者活动循环的一部分,后者范围更大一些。
在糖域模型中,参与者仍然以随机的次序开始活动。[6]每一个参与者的活动都会包含一系列进程。就目前的讨论而言,其中最重要的一个就是移动到在它可见的范围内含糖量最多的那个单元里去。在那里,参与者会与它所有的邻居进行文化互动(特别的是,糖域参与者并不会把所有的地域单元都住满,所以在该活动的参与者邻近的区域内,其他参与者的数量会少于4个)。在文化互动中,随机选取一个特征,如果邻居的该特征值与其取值不同,那这个邻居的该特征值就变为和活动的参与者一样。
糖域模型中的文化特征可以进行加总(一般采用简单多数原则)并由此决定一个参与者的文化类型,可以用“红”或“蓝”进行标示。然后,在糖域参与者将要参与的许多进程中,比如贸易、战争、生殖繁衍,该文化类型都要被考虑进去。
阿克塞尔罗德模型的设计原则是为了根据参数的变化进行透彻的试验,糖域模型的设计用途却大不相同。在这个模型里,参与者除了文化原则外,还有许多其他的行为原则。虽然它也可以用来探查参数空间,不过迄今为止,研究者主要还是用它来创造“人工历史”,也就是那种将利益用程式化事实表示出来的情节梗概。比如,资源可得性不同造成的文化差异,或者移民、贸易和战争的可识别类型。这些创造出来的情节的首要用途是作充分性检验,这就说明,在单个层次上执行的机制能够产生出集体层次的利益现象。
很明显,这两个模型在许多重要方面都有巨大的差别。然而,它们却有两个中心特征是一样的,所以两者可以进行有意义的比较。这两个特征是:第一,它们都是基于参与者模型。它们都以系统中单个行动者的特征为运作基础,进而研究集体现象,也就是这些个体互动作用的结果——在这个案例里,这些活动发生在二维空间的相邻区域中;第二,二者都用符号串来代表单个参与者的文化特征,并将文化传播模型化为邻居间的趋同过程。
比较的程序
当阿克塞尔罗德和科恩读到糖域模型的一份草稿说明时,上述两个强有力的相似点提醒了他们,或许这两个模型可以进行“对接”——就像两个不同的太空船进行轨道对接那样。那么,糖域模型在合适的条件下能否得出与ACM同等意义的结果这一问题就可见分晓了。于是他们联系了爱泼斯坦和阿克西泰尔,后二者也认为这样的试验极具启发性。四个试验者一致相信,如果计算模型想要成为理论表述的重要媒介,这种模型的校准就不可或缺。即使不能取代外部有效性测评,对于社会科学来说,均等性试验都是一个重大的贡献。[7]不过,这4个试验者都想不出有哪个案例报告过这种等价性试验,或者细致地分析过这种等价性试验的问题。[8]
进行比较及准备案例报告
对于试验操作程序,以及如何记录已完成的工作和试验过程中遇到的问题,4位研究者达成了一致意见。这些程序的目标在于:(1)判定等价的结果是否是在等价的条件下得出的;(2)证明放松某些等价条件的影响;(3)能报告出现的问题及他们的解决方案。从而,就建立针对社会科学中的计算模型的更为普遍的均等性实验而言,这就迈出了第一步。
他们遵循的程序大致上就像实验科学中第二个研究者在尝试复制第一个研究者的实验结果时所做的那样(Latour and Woolgar,1979)。
爱泼斯坦和阿克西泰尔根据关于ACM的一份未发表的草稿说明开始了预备工作。他们需要考虑的是,如果要复制阿克塞尔罗德模型得到的关键结果,需要采取什么样的步骤。阿克塞尔罗德的结果指出了当达到稳定状态时,文化“区域”的数量作为以下3个变量的函数是如何变化的:特征的数量、每个特征的取值以及单元格的面积。这些结果还体现出ACM的表现当中最不可思议的一点:该模型得出的文化“区域”均衡数量作为参与者数量的函数,开始时是增函数,然后变成减函数。[9]
随后,阿克西泰尔和爱泼斯坦去密歇根大学拜访了阿克塞尔罗德和科恩,他们开了个会,一一澄清了存疑之处。接下来做的,就是对糖域模型加以进一步的修改,并进行初步的等价性实验。然后,阿克西泰尔和爱泼斯坦回到布鲁金斯(Brookings)研究所,运行并分析了更加完全的试验集。随之,他们放松了为实现与ACM均等而考虑的一些因素,以确定这会带来什么样的变化。
检验模型的等价性
这里的关键问题在于,两个模型的等价性该如何去评估。其解决方案必须能表明糖域模型和ACM的运作是相同的,这就先要确定一个标准去评估两者采取的指标的等价性。就此,在实验的初始阶段,研究者们就通过电话和电子邮件进行了讨论。他们的结论认为,在这个案例里,如果糖域模型能够表明——当采用与ACM相似的基本文化传播机制时——它的一些指标可以得出与ACM得到的在统计上无差别的分布,就足以说明问题了。
4个研究者都认为这个标准过于严格了,因为或许会有人指出,如果糖域模型得到的结果集合能与ACM的结果集合有相同的顺序类型,那它也是等价的。不过,在这里,一个苛刻的试验还是更合适些。因为,这是该种实验的第一次尝试,而且对糖域模型的编程进行一些改动就可以使它的基本文化传播机制与ACM中的那些实现算法等价。他们也一致认为,这些具有随机元素的模型均等必须在上下文背景中进行诠释。而且,最后一部分还需要对这个麻烦的核心问题进行进一步的讨论。另外,特别值得指出的是,研究者们还详述了应该如何给“统计上无差别的分布”这个概念的统计内涵进行精确定义,这也是个难题。
两项试验的结果
接下来,我们要报告的是将糖域模型和ACM的运作进行比较所得的结果。首先,我们根据对ACM的结果取得决定性作用的一些主要特征对糖域模型加以修改,以使两者可以进行校准检验。
为糖域模型和ACM的对接而进行修改
首先,糖域模型中的视野范围减少到4个直接近邻,而移动范围减为0。通常,糖域模型的初始状态规定行动者稀疏地分布在单元排列中,而现在也改为每个单元格里都放置一个参与者。其环形的拓扑空间也调整为有边界的方形平面。这样做确实会造成一个矛盾,在下文中我们会加以讨论。然后,把糖域模型中特征的不变数量及每个特征的取值改为变量,就像ACM运行中那样,可以设定为3个不同的层次,详见表A.1。
表A.1 稳定区域的平均数
注:每一个单元都经过10次反复运行。非零假设下,出现标准背离。所有数据出自10×10个点的区域。
但还有一个小的差别没法完全统一。糖域中一次只有一个参与者会行动,其顺序依照参与者列表的某一个随机排列。当列表被遍及后,它会再进行随机排列,行动又重新开始。而我们前面讲过,阿克塞尔罗德模型每一次都会随机选择一个新的参与者采取行动。大致上,这两种方法的区别就在于对参与者进行抽样是不是允许放回。所以,对于n个参与者的任意给定集合而言,糖域模型中,n次行动也就意味着每个参与者会正好行动一次,而在ACM中,大多数参与者会行动一次,但也有少数的行动次数会是0、2或者更多。我们不打算消除这项差异,因为它虽然看上去不起眼,却会带来一串有趣的结果,后文将详加介绍。
为了复制阿克塞尔罗德的结果,爱泼斯坦和阿克西泰尔应该严格遵循前者确定文化变化的规则。因此,他们重新编程,以取代自己模型中的原来的文化变化规则,即对于互动邻居之间发生的文化扩散,不再考虑参考者内部的相似性,而且每一个参与者都会与它所有的邻居发生文化互动。
糖域模型复制ACM的关键结果
根据阿克塞尔罗德(Axelrod,1997)的目标数据,表A.1a给出的稳定的文化区域的数量是一个10×10的点阵空间里、运行10次所得出的平均结果,它是文化特征的数量及每一特征的取值的函数。值得注意的是,在保持其他条件不变的情况下,均衡中文化区域的数量随着每个特征的特征量增加而增加,随文化特征的数量的增加而减少。在表中所列的9个值中,只有4个不等于1.0。
表A.1b是糖域模型在阿克塞尔罗德的文化规则下运行得到的类似结果。其稳定的文化区域的数量对于特征数及特征值取值数的定性依赖与阿克塞尔罗德的表中一样。不过请注意,在新的这张表中,只有3个条目不等于1.0。
对于5个等于1.0的条目来说,这两个数组集的一致性不言而喻。而要检验其余的条目在数量上是否一致则要进行非参数的统计比较。样本规模为10、显著性水平为0.05的条件下,曼惠特尼(Mann-Whitney)检验的U统计量的双侧临界值为23(Siegel,1956)。也就是说,如果U值小于或等于23,我们就可以拒绝非零假设。而在两个表格的比较中,所有的U统计量值都大于这个临界值,那么我们就不能拒绝非参数基础上的非零假设。总之,这两个表格中的相关数据很有可能都是由同一种分布得出的。
图A.1是阿克塞尔罗德(Axelrod,1997)文献中的目标数据,也就是稳定的文化区域的数量,它是点阵规模的函数,其中文化特征有5个,每个特征有15个特性值。这幅图的有趣之处在于其非单调性,对此,作者花了相当的篇幅加以解释。阿克塞尔罗德文化规则下的糖域模型则给出了5×5、10×10和20×20的点阵下的数据,在每一种情况下样本规模都是40,这也与ACM的处理相同。图A.1还标出了修正的糖域模型的均值及均值相关区间。为了确定这些数据与阿克塞尔罗德的原始数据的一致程度,我们采用了针对经验累积分布函数拟合程度的Kolmogorov-Smirnov(K-S)检验(cf.Hoel 1962)——这也是一个非参数检验。[10]
图A.1 阿克塞尔罗德文化模型和糖域运行下的稳定区域平均数
这里的非零假设是,相关的数据点来自于相同的分布。对于40个观察样本而言,在5%的显著水平上,K-S统计量的双侧临界值是0.304。那么,如果K-S统计量的实际值超过了这个临界值,我们就要拒绝非零假设。
在5×5点阵下,两组数据的K-S统计量值为0.225,那么就无法拒绝非零假设。而10×10点阵中,该值为0.175,同样也无法拒绝非零假设。最后,点阵规模为20×20时,K-S统计量值为0.5,大于0.304,就可以拒绝非零假设了。不过在这个参数值下得到的数据看上去却像是来自不同的分布。ACM的平均值是16.25,修正的糖域模型的平均值为9.23。
1.在何种意义上,计算模型仍能算作是“均等的”?在相当的案例中,修正的糖域模型与ACM得到的结果数量上是同一的。在12组比较中,有11组糖域模型的结果分布与ACM的结果分布在统计上都是无差别的。只有1个案例中,二者的分布不一致,不过其平均值与其他平均值之间的关系仍然是适当的——这就是20×20点阵的区域平均数量小于10×10点阵的该值。在阿克塞尔罗德看来,这种非线性正是其结果的一个重要特征。我们的结论认为,模型的均等性可以分为3种自然的类型——“数量同一”、“分布均等”及“关系均等”。在第六部分中我们将讨论这些区分之间的含义。
2.观察到的差异的可能原因是什么?因为在算法一致问题上,我们已将两个模型的许多方面都考虑了进去,然而差异还是出现了,这就很令人吃惊。不过确实,这两个模型并不是所有方面都一致,再加上统计显著性的差别说明了在20×20点阵中它是会有所影响的。我们相信,我们决定不把糖域模型的行动方法转换得和ACM一样正是差异的来源。糖域模型不允许同一个参与者在其他参与者行使其公平的影响力之前有多次的偶然行动。这种额外的均匀影响力的要求对于引发更具终极性的文化聚合来说,是更充分有力的。[11]如果我们将糖域模型的行动代码换成ACM所用的那种“放回取样”的方法,20×20点阵的案例就不会引起任何问题了。而且,在随机行动的原则下,糖域模型若把所有的案例都重新运行一遍,每一个得出的数据和ACM的对应结果也都是无差别的。[12]
3.对于等价性的统计检验而言,应该选用哪一种非零假设?我们的统计检验所遵循的是最普遍原则,即将问题设定为是否拒绝某一种分布一致性的非零假设。不过,聪明的读者肯定可以看出,在检验模型的均等性这个特殊问题上,这种方法并不那么令人满意。虽然前面的讨论中有一个例外,我们的结论仍认为,在常规的置信概率上,我们不能拒绝分布相同的非零假设。
上述方法的一个不足之处在于,它会诱使研究者们使用小规模样本进行等价性检验。因为样本规模越少,拒绝非零假设的临界值就越高,那么实现等价的可能性就越大。我们抵制住了这种诱惑,选取了模拟研究中最典型的样本规模。结果是除了一个例外,两个模型的运行确实是等价的,这确实令人满意。不过从长期来看,设计一种更加合适的统计方法非常有必要。[13]
基于参与者模型的敏感性分析
迄今为止,有关基于参与者模型的敏感性分析的文献还很少。[14]局部原则的变化怎样影响作为其结果的像文化类型那样的宏观结果?我们报告的上述对接试验正有助于进行这种新的敏感性尝试。在此,我们介绍两种包含参与者行动规则的试验。
移动性试验
如前所述,ACM中的参与者在一个方形点阵中拥有固定的位置,而在糖域模型中,参与者则是可移动的。因而,自然就有一个问题:如果互动行为仍遵守ACM的文化传播规则,但允许参与者在糖域模型的互动领域内移动,ACM的文化数量均衡值会如何变动呢?达到均衡时的文化多样性会更多还是更少呢?在ACM中,非邻域内的参与者直接互动的概率是0,而在糖域模型中这就要取决于地形了,任意两个参与者最终都有可能会进行直接互动。由于移动会使得人口“混合”,我们有理由期望最终得到的多样性会少于不允许移动的情况。而这也正是我们找到的答案。
为了进行这项实验,我们先把糖域模型设定为50×50的网格,只在中间有一个(高斯的)“糖山”。然后将100个可移动的参与者随机地放在这个地域中,作为其初始位置。每一个参与者都要展开如下的目的性行为:(1)在本地寻找含糖量最多的单元格;(2)移动到最近的一个上述最佳地点去;(3)收集(吃掉)这个地方的糖。参与者的定居情况就会随着自身视野的不同而不同,也就是说取决于每一个参与者在其落脚点沿首要的方向(北、南、东、西)能够“看”多远。此处的运行中,参与者的视野一律分布在5到10之间。移动后,参与者就与它的某一个邻居进行文化交换——这里遵循阿克塞尔罗德的文化交换规则。而糖域模型与ACM的一个重要区别在于,糖域模型中参与者在任一位置都可能有0到4个邻居,而ACM中,只要不是在边界上,它总是会有4个邻居。一旦糖被参与者“收割”了,它又会以单位速率长回去。“终止标准”也要随之加以修改。在固定参与者的情况下,当所有相邻的参与者都完全相同或完全不同时,文化传播就终止了。而若允许参与者移动,那就必须检查是否所有的参与者都完全相同或者完全不同——而不管它们是不是邻居。这种“全局的”终止标准对于计算的要求就比“局部的”终止标准要高得多。
由于我们预测移动会减少文化类型的数量,那么当然就应用在ACM中得出的文化数量最多的参数来检验这个命题。100个参与者的案例(10×10网格)有5个文化特征,每个特征又有15个特征取值,ACM就此得出的不同文化的平均数为20(s.d.±10.1),而“糖域版”的ACM(固定参与者)得出的值为21.3(±12.5)。允许移动的规则的引力,显著地减少了文化数量。在糖域模型的一个运行10次的样本中,该平均值是(±0.3)。若用5个特征、每个特征下有30个特征取值来重复实验,糖域模型得到的平均文化类型数量确实稍有增加,上升到2.2(±1.2),这正证实了更大的“文化空间”达到均衡时可以得出更多的文化类型的预期。
“汤”实验
移动会使人口混合,其极端的形式就是所谓的“汤”(soup),此时不管位置如何将参与者随机配对,然后在ACM的规则下展开互动。由于它比移动带来的混合还要彻底,我们预计其“文化均质化”的影响也要强得多。事实也确实如此。
还是取100个参与者、5种文化特征、每个特征15个特性,运行10次,没有哪一次剩下的文化类型超过1种。如把每个特征的特性取值调整为30个,运行10次,有7次都只剩下1种文化类型,有2次还有2种文化类型,有1次得出了3个均衡文化类型;总的均值为1.4。从本质上来说,ACM的大多数文化多样性都消融在“汤”里了。总之,社会的混合越充分,差异文化均衡的数量就越少。相对应的,ACM的多元文化均衡要求完全不同的参与者之间互动的概率完全为零。只要有任何的互动可能(或者有任何点变化速率),长期来看社会都会趋向一种文化。上述讨论只涉及了均衡的数量,那么我们能否得出有关实现均衡的速度的任何结论呢?
回想一下ACM的基本动力机制:相邻的参与者越相似,它们的相似性就增加得越快。一旦相似性达到某一状态,就开始了快速汇聚——几乎就像发生一种阶段性的变化。然而,现在一个反直觉的结果却是社会混合性越高,这种“阶段性变化”的发生却越晚。在ACM中,是局部相邻的一簇参与者之间在发展相似性,它们在空间上的高度相关使其能够很快地达成“一致”。但糖域模型允许移动,那么参与者在达成一致前就可能“跳开”了。而在极端的“汤”里,空间上的相关性为0,“阶段性变化”来得更迟。概括起来说,空间相关性越低,开始快速汇聚以达到均衡就越晚,而均衡的文化数量也就更少些。
对接过程的结果
对接过程
爱泼斯坦和阿克西泰尔访问密歇根大学时,他们在笔记本电脑里带来了自己做的糖域模型程序。一部分关于等价性的测试工作在他们到来之前就开始了。主要的内容在上一节里已经做了介绍。
幸运的是,糖域模型是用面向对象的Pascal语言编写的,而且充分地考虑了它的一般化发展。这就使得我们可以对它进行灵活的改造,只要改变参数值或者“调节开关”。
在密歇根大学,我们开了个会,基于阿克塞尔罗德的论文来讨论仍然存在的含糊不清的地方。我们早就意识到,在当前运行模拟模型的标准软件环境下,不太可能通过校准检验解决所有的问题。所以,我们要么联系目标模型的作者,使得我们可以读到源代码;要么取得目标模型的大量原始文档,必须远比当前期刊发表的内容来得完整。
在会上还定下了下一步要做的工作。阿克西泰尔花了一晚上的时间做额外的编程。第二天,我们就可以运行很多糖域版本的阿克塞尔罗德模型程序了。
两个月以后,当我们开始准备撰写比较结果的时候,阿克西泰尔意识到对接工作还必须做出一些调整。ACM模型是在一种文化侵入发生时激活参与者,而最初的糖域模型是改变参与者的邻居。这有微妙的差别,因为参与者在版图边缘的时候的邻居数量要少于它在版图中央时的情景。为了确保每个参与者都有同等的可能性发生改变,ACM模型的方法更可行。当我们意识到这一点以后,阿克西泰尔对糖域模型进行了必要的修改,结果数据在表A.1和图A.1中显示。
需要的时间
对接实验所包含的各种任务和ACM实验的拓展分别在表A.2和表A.3中列举出来。这两个表格分别描述了阿克塞尔罗德和阿克西泰尔各自独立执行的具体任务,并附有执行所需的时间。总之,阿克塞尔罗德的工作运行了23小时,而阿克西泰尔的模型运行了约37小时。
使得这项研究相对容易的一些因素
至少有4种因素,可以使得均等性检验完成起来变得相对容易。首先,糖域模型最初的理念就是最大程度的一般化模型,使得它很容易改写。这些目标在实际操作中并不容易实现,但是面向对象的编程语言确实极有帮助。
第二个积极因素是阿克塞尔罗德模型非常简单。这使得我可以比较完整地进行对比。如果ACM模型也包含像糖域模型那么多的进程,那么要对这两个模型全面进行校准就会变得非常困难。
第三个积极因素是ACM模型是新近才做的。统计比较需要原文模拟的210个节点所包含的全部结果。时隔不久,原作者要提供这些原始数据还相对容易,但是在很多情况下并非如此。
第四个积极因素前文已经粗略地提到了,就是这两个模型都基于同一个基础,“面向参与者”的模型框架。如果没有这个共同基础,要比较这两个模型的结构简直是不可想象的。
使得这项研究相对困难的一些因素
另一方面,这个比较中也有一些因素使得研究变得更困难,未来可能会有所改观。因为最有可能的是,未来的模型在设计时就会考虑到均等性检验。但是在糖域模型设计的时候,ACM模型还不存在。于是,在它设计时根本就没有考虑过ACM的问题。如果设计时就有所考虑,均等性检验将会变得很简单。
我们可以大胆幻想,未来的时候,我们可能会拥有许多标准化的代码模块,许多成功的模型可以被重复使用。今天我们用的随机数发生器满足这个标准,未来会有更多的实用的模型要素代码产生。这也会实实在在地降低均等性检验的成本。
总的来看,我们发现不可能完全直接地校准这两个模型。但是我们最终完成了任务。虽然我们在比较它们时遭遇的很多困难使我们隐隐不安,但是我们知道这并非没有先例。最初,微积分在不同的研究者手里得出的结论完全不同,直到19世纪考西(Cauchy)和维尔斯特拉斯(Weierstrass)巩固了它的基础(Kramer,1970)。我们面对这些困难时还能有什么选择,转过头去仍旧把我们的理论建设在等价的未经检验的假设之上吗?
表A.2 阿克塞尔罗德的工作表
复制研究的设计 |
1.与科恩讨论复制实验的一般化理念,包括我的文化模型和要研究的糖域模型之间的可比性。(小时:分钟,3:00) |
2.给阿克西泰尔和爱泼斯坦写信,具体商量我们称之为对接的实验,包括选择比较的数据点(科恩已经在维也纳与他们讨论过这个想法了)。(1:00) |
3.安排阿克西泰尔和爱泼斯坦的访问行程。(1:00) |
4.我们4人共同讨论对接实验和它的目的,特别是讨论那种我们称为分配均等性的重要性,而不是相关均等性。(1:00) |
5.我们4人共同讨论阿克塞尔罗德文化模型的细节,也包括讨论那句“交互作用的机会与两种相邻文化已经拥有的文化相似程度成正比例”。文化的相似性也应按比例地归功于共同价值。阿克西泰尔完全贯彻了这一说法,但是我指出我使用了一种更加有效的方法(当然也是等价的),就是允许个人随机选择归功于哪个具有同样价值的人。(1:00) |
6.初步明确了什么实验中的灵活内容。(2:00) |
小计:9:00 |
数据分析 |
1.从我的电脑里提取关键的原始数据,交给阿克西泰尔用以和他的数据进行比较。(1:00) |
2.与阿克西泰尔讨论他的数据,等他纠正了参与者而不是他们邻居的行动后更新数据。参见第五部分。(2:30) |
3.与科恩和统计学家帕特·圭尔(Pat Guire)讨论,采用合适的统计检验。(3:00) |
4.把阿克西泰尔的数据改造成合适的格式与我的数据做对比,进行基本的统计检验。(2:00) |
5.考虑其他替代的可能性,研究为什么最初20×20的对接没有成功。对这些可能的解释进行检验(比如我或者阿克西泰尔的代码里可能有漏洞),确认不同激活方法差异的可能原因。参见第四部分。(5:30) |
小计:14:00 |
总计:23:00 |
表A.3 阿克西泰尔的工作表
改变代码 |
1.把文化的表示一般化,从布尔函数(BOOLEAN)转变成可列举数。(小时:分钟,0:10) |
2.改变参与者的初始值: |
A.在格内填入参与者。(0:20) |
B.随机赋予参与者初始文化。(0:20) |
3.实施阿克塞尔罗德文化规则的一种形式。(1:00) |
4.画出文化不一致的参与者之间的边界。(0:30) |
5.新的终止模拟的标准。(0:15) |
6.计算完全不同的文化(代替计算区域)。(0:15) |
7.把地形从圆环转向方型。(可忽略的,≤0:01) |
8.关闭所有其他糖域模型的规则。(可忽略的,≤0.01) |
9.为以上所有步骤纠错。(1:00) |
小计:3:50 |
进一步的代码修改 |
1.修改邻居的表示方法,从而使得格的边界上的参与者不再与不存在的(NIL)的邻居相互作用。(0:30) |
2.代表性区域。(0:30) |
3.输出文化区域的数值文档。(0:10) |
小计:1:10 |
运行模型 |
1.编译不同变量设置的模型文档,使得它可以执行。(0:40) |
2.运行90轮与阿克塞尔罗德的数据做比较,关注特征和价值/特征,结果参见表A.1。(2:00) |
3.运行120轮与阿克塞尔罗德关于格的规模的数据做比较。结果参见表A.1。(8:00) |
小计:10:40 |
统计比较 |
1.用Mathematica软件进行曼惠特尼U检验。(2:00) |
2.分析曼惠特尼U检验所得的数据。(1:00) |
3.用Mathematica软件进行Kolmogorov-Smirnov(K-S)发展分析。(4:00) |
4.分析K-S检验所得的数据。(2:00) |
小计:9:00 |
移动性实验(参见第四部分) |
1.修改终止标准,考虑参与者和整体的人群交互作用。(0:10) |
2.规划时间序列,从而凸现文化的数量。(1:00) |
3.初始化糖域模型标准版本的文化规则,用阿克塞尔罗德的文化规则取代原先的爱泼斯坦和阿克西泰尔的规则。(0:10) |
4.编译可执行文件。(0:05) |
5.多次实施这个模型。(1:00) |
小计:2:25 |
“汤”实验(参见第四部分) |
1.用阿克塞尔罗德的文化规则初始化糖域模型中的汤。(0:10) |
2.编译可执行文件。(0:05) |
3.多次实施这个模型。(1:00) |
小计:1:15 |
重新对接(参见第四部分) |
1.将参与者激活的顺序从序列改成随机。(0:10) |
2.重新运行模型(40轮)。(8:00) |
3.分析新数据。(0:20) |
小计:8:30 |
总计:36:50 |
对价值和校准困难的观察
我们用对三项事实的进一步观察来作为结尾:我们在这次校准中采用的面对面的开会讨论是否有代表性?我们如何看待从不同角度来定义“等价性”?我们还需要对等价性检验制订一份建议提纲,用于递交给学术期刊和研究基金。
我们报告中有一件特殊的事情——相信以后随着这种分析逐渐变得普及,典型的校准检验可能就不必去做它了——那就是一次会面,包括爱泼斯坦,阿克西泰尔和阿克塞尔罗德,一般来说这不一定是必须的。这场会面出于两个目的,讨论校准检验的细节和澄清ACM模型模糊不清的方面。如果情况是这样,要与一个已经发表的走在前面的模型做比较,那么新模型的设计者必定会认真思考前者设计的问题,至少构建与前者等效的功能。我们预计这种情况会变得越来越普遍。
会面的第二个目的是,解决构建目标模型中的含糊性,结果并非是我们原来预想的那样。与之相反,许多目标模型都比ACM模型要复杂得多。但是,新模型如果要做到和旧模型等效,往往需要旧模型的代码——虽然我们这里不需要。常用的等价性的评判标准一般也比我们这次使用的要宽松,这一点下文还要讨论。
考虑到所有这些因素,我们认为不需要和模型作者真实会面也可以进行很好的校准检验。前提是发表这些模型的作者,在刚开始设计模型时就要估计到日后的校准检验,从而更仔细地为这些努力提供关键的信息。我们强调两点:(1)一个精确的、包含细节的关于这个模型是如何运行的说明非常关键;(2)如果后来的人要用统计方法实施等效性检验,那么关于报告测算的分配信息非常重要。
正如我们前文已经提到,具体讨论什么才是模型行为的“等价性”,这并不是一件无关紧要的事。我们对这个问题的看法是,除了很明显的数值检验上的标准以外,至少有两种类型的“等价性”,这都是有随机因素的模型所不可能做到的。我们把这两种类型称为“分配的”(distributional)和“相关的”(relational)等价性。我们说的分配等价性,就是两种模型的结果分配不能从统计上严格区分开来。我们最终在我们的模型里检验这种均等性。而相关等价性就是指,在两个模型的最终结果里,大家都表现出类似的内部关系。比如说,这两个模型都表明一个特殊变量是时间的二次函数,或者两个模型测算人口在特定规模下单调下降时的函数非常接近等等。
显然,相关等价性是更弱的等价性,只需要通过要求较低的检验。但对于很多理论研究来说,它已经很充分了。而分配等价性只有在校准两个模型中的变量细节时才是可能的,而且需要花费大量的劳动。
最后,我们的普遍的积极经验表明,如果校准和等价性检验在计算模型中越来越多地被检验,将会有很多好处。有效率的话,工作可以在几天或者几周内完成——如果从一开始就规划的话,时间还有可能更短。成果是非常显著的。糖域模型,现在可以自信地说,也可以得到ACM模型的结果,糖域模型的特定机制完全可以转换成ACM模型中的散布机制。糖域模型中很多潜在的特定文化散布机制即使有所变动,模型结果也是稳定的。
关心糖域模型和ACM模型论文的读者们现在应该对它们两者之间的关系有一个比较清楚的概念。要继续研究文化散布的模型构建者,对不同散布机制可能导致的后果应该有明确的认识。简单地说,我们这些有兴趣的人从这样的经历中提高了对模型结论稳定性的认识,也认识到模型结论可能的范围。各人的不同观点可以对这两种模型实证研究。如果不对模型进行校准性检验,很多重要的积累下来的特征就无法为人所知。
我们认为这样的建议很有价值,即如果计算模型的作者知道模型经过校准后会增加他们的声誉,那么模型就会变得更有价值。如果期刊的审稿人和研究者被鼓励对这样的模拟研究提供实质性的评价,作者也知道这一政策,那么会产生极大的效果。与其他事情相比,这种机制会激励大家在特定领域开发供查询的模型,使得它能够成为与日后其他模型做对比的“基准模型”(benchmark)。这种结果的效应会越来越大,计算模型家族的规模会不断增大,相互作用产生明确和清晰的网络效应。这将超越目前的状况,取得巨大收获。目前除了极少数例外,几乎所有模型都是从头开始(de novo)。
计算模型提供了一个微观地研究世界的方法,这对于我们所有研究人员来说都是一个强力的创造性的冲击。威廉·布莱克(William Blake)曾经表达过这种深深的需求,在他的名作《耶路撒冷》里说(Jerusalem[1804]1974,p1.10,1.20):“我必须创造一个新世界,否则就被其他人奴役;我不需要理性和比较:我的工作就是创造。”但是如果这些出色的新兴计算模型变成我们能够熟练使用的智力工具,从而增进我们对社会系统的理解,那么我们就必须克制独立创造的自然冲动,认真发展使用这套工具的方法来“推理和比较”。
注释:
[1]与迈克尔·科恩私人交流。
[2]与迈克尔·科恩私人交流。
[3]阿克塞尔罗德的源代码用Pascal语言写成(Synamtec THINK Pascal version 4.0.1),大约1500行,适于Macintosh系统,如有所需,可向作者索取。糖域模型用Object Pascal和C语言写成(Synamtec THINK Pascal version 4.0.2,THINK C version 7.0.6),大约20000行,适于68K Macintosh系统。其中,参与者目标用Pascal编写,而低级的和图形程序用C编写。源代码可向罗伯特·阿克西泰尔索取。该代码的执行版,即依罗伯特·阿克西泰尔文化规则设计、能得出本文所用数据的版本也可向罗伯特·阿克西泰尔索取。
[4]关于文化传播和社会影响的模型还包括:Renfrew,1973;Sabloff,1981;Nowak et al.,1990;Friedkin and Johnsen,1990;Putnam,1966;March,1991;Harrison and Carroll,1991;Carley,1991;Cavalli-Sforza and Feldman,1981。也可参见Axelord,1997。
[5]完整的模型介绍以及试验结果参见Aexlrod,1997。
[6]该方法与ACM的方法相似但不完全一样,接下来将会讨论到。
[7]关于外部有效性测评,参见Dutton and Starbuck,1971;Knepell and Arangno,1993;Burton and Obel,1995。
[8]后来的研究才发现了一篇这样的报告:Anderson and Fischer(1986)。不过迄今为止,也没找到有关这个概念性问题的系统性研究文献。
[9]阿克塞尔罗德把文化区域定义为具有相同文化的一组邻近地点集合。
[10]在表A.1中并没有使用K-S检验,因为对于小规模的样本来说,它的解释力并不强。
[11]在下一节中,将得出一个可能的相关结果。它将表明,若允许参与者与非邻居混合也会减少文化的最终均衡数量。
[12]随机行动的糖域模型的平均值和非零标准差如下。表A.1,1.2±0.4,4.10±1.3,18.8±9.7,1.0,1.0,1.9±1.0,1.0,1.0,1.0。这10个数据点的9组数据的曼惠特尼U统计量都不能拒绝非零检验,它们都服从相同的分布,如表A.1,显著性水平为0.05。对图A.1,数据为9.8±2.8(5×5点阵),20.4±7.9(10×10点阵),14.8±7.0(20×20点阵)。这三个数据集的K-S统计量值都不能拒绝非零假设,都服从图A.1所示的ACM中的相关分布。
[13]我们现在所能想到的最有可能的方向是把常用的构造非零假设检验的方法反过来,考察是否能有把握拒绝分布不同的假设。然而,这样也有两个麻烦的地方。第一,对于随机模型而言,很难下结论说所有观察到的平均样本差异来自于样本波动。这就意味着还是要使用非零假设“这两种分布的差异不超过X%”,而X的取值要么依惯例而定,要么根据所指案例的上下文而定。第二,使用这种反转的却不简单的非零假设,又没有充足的理由设定一种方便的潜在分布形态(如高斯型),那要找到一种可操作的分析方法去确定置信水平就更难上加难了。那么,就必须使用计算机统计工作来解决这个问题了,比如埃弗龙和蒂布希拉尼(Efron and Tibshirani,1993)的引导法(bootstrap approach)。
[14]以元胞自动机模型(cellular automata)为基础的例子,参见Wuensche and Lesser,1992。
参考文献
Anderson,Paul A.,and Gregory W.Fischer.1986.“A Monte Carlo Model of a Garbage Can Decision Process.”In?Ambiguity and Command:Organizational Perspective on Military Decision Making,?ed.James March and Roger Weissinger-Baylon,140-164.Marshfield,Mass.:Pitman Publishing,Inc.
Axelrod,R.1997.“The Dissemination of Culture:A Model with Global Polarization.”Journal of Conflict Resolution?41:203-226,and included as Chapter 7 of this volume.
Blake,W.[1804]1974.Jerusalem,the Emanation of the Giant Albion.London:B.Quarich.
Burton,R.M.,and B.Obel.1995.“The Validity of Computational Models in Organization Science:From Model Realism to Purpose of the Model.”Computational and Mathematical Organization Theory?1:57-71.
Carley,K.1991.“A Theory of Group Stability.”American Sociological Review?56:331-354.
Cavalli-Sforza,L.L.,and M.W.Feldman.1981.Cultural Transmission and Evolution:A Quantitative Approach.Princeton,N.J.:Princeton University Press.
Cohen,M.D.,J.G.March,and J.P.Olsen.1972.“A Garbage Can Model of Organizational Choice.”Administrative Science Quarterly?17:1-25.
Cyert,R.M.,and J.G.March.1963.A Behavioral Theory of the Firm.Englewood Cliffs,N.J.:Prentice-Hall.
Dutton,J.M.,and W.H.Starbuck.1971.Computer Simulation of Human Behavior.New York:Wiley.
Efron,B.,and R.J.Tibshirani.1993.An Introduction to the Bootstrap.New York:Chapman and Hall.
Epstein,J.M.,and R.Axtell.1996.Growing Artificial Societies:Social Science From the Bottom Up.Washington,D.C.:The Brookings Institution;and Cambridge,Mass.:MIT Press.
Friedkin,N.E.,and E.C.Johnsen.1990.“Social Influence and Opinions.”Journal of Mathematical Siciology?15:193-205.
Harrison,J.R.,and G.R.Carroll.1991.“Keeping the Faith:A Model of Cultural Transmission in Formal Organizations.”Administrative Science Quarterly?36:552-582.
Hoel,P.G.1962.Introduction to Mathematical Statistics.3d ed.New York:Wiley.
Knepell,P.L.,and D.Arangno.1993.Simulation Validation,A Confidence Assessment Methodology.Los Alamitos,Calif.:IEEE Computer Society Press.
Kramer,E.E.1970.The Nature and Growth of Modern Mathematics,?vol.2.Greenwich,Conn.:Fawcett.
Lane,D.1993.“Artificial Worlds and Economics,Parts 1 and 2.”Journal of Evolutionary Economics?3:89-107,177-197.
Latour,B.,and S.Woolgar.1979.Laboratory Life:The Social Construction of Scientific Facts.Beverly Hills,Calif.:Sage Publications.
March,J.G.1991.“Exploration and Exploitation in Organizational Learning.”Organization Science?2:71-87.
Nowak,A.,J.Szamrej,and B.Latane.1990.“From Private Attitude to Public Opinion:A Dynamic Theory of Social Impact.”Psychological Review?97:362-376.
Putnam,R.1966.“Political Attitudes and the Local Community.”American Political Science Review?60:640-654.
Renfrew,C.,ed.1973.The Explanation of Social Influence:Models in Prehistory.Pittsburgh:University of Pittsburgh Press.
Sabloff,J.A.,ed.1981.Simulations in Archeology.Albuquerque:University of New Mexico Press.
Siegel,S.1956.Nonparametric Statistics for the Behavioral Sciences.New York:McGraw-Hill.
Wuensche,A.,and M.J.Lesser.1992.The Global Dynamics of Cellular Automata:An Atlas of Basin of Attraction Fields of One-Dimensional Cellular Automata.Reading,Mass.:Addison-Wesley.
————————————————————
(1)?作者要感谢以下机构为本研究提供的经济支持:the Brookings Institution,World Resources Institute,John D.and Catherine T.MacArthur Foundation,the Santa Fe Institute,the Program for the Study of Complex Systems,the LS&A Enrichment Fund of the University of Michigan,and the U.S Advanced Research Projects Agency。
(2)?本文改编自Robert Axtell,Robert Axelrod,Joshua Epstein,and Michael D.Cohen,“Aligning Simulation Models:A Care Study and Results,”Computational and Mathematical Organization Theory?1(1996):123-141。转载经许可,许可方:CMOT.。