10.4 随机变异、误差幅度和置信水平
科学概括中的一个关键概念就是随机变异。如果登记选民的随机样本中有X%的登记为民主党,整个登记的总体中也会有X%的登记为民主党吗?不一定。因为登记为民主党的比例会在样本之间随机变异。术语误差幅度(errormargin)就是用来表达样本间随机变异范围的,误差幅度往往用百分比来表示。
假如所有登记的选民中登记为民主党的“实际”比例为47%,误差幅度是多大呢?也就是,由于随机性,特定样本中登记为民主党的比例会偏离47%多远呢?在知道(1)样本的大小和(2)置信水平的条件下,这是可以计算出来的。术语置信水平(confidencelevel)表示,在给定的样本中,落在误差幅度范围内的概率有多大。
为了说明这一点,让我们假定随机选取了多个样本,样本数为1000(n=1 000)个登记选民。各样本中登记为民主党的比例会随样本随机变异,我们想知道变异的极限。经过计算发现,在这个大小的样本中,有95%的概率,随机变异落在实际比例(47%)的正负3个百分点以内。换句话说,如果n=1000,而置信水平为95%,误差幅度为正负3个百分点,这些意味着:在95%的样本中,选民登记为民主党的人比例会在44%~50%之间。在给定的置信水平之下,样本的大小(n)越大,误差幅度越小。
当样本大小增大时,误差幅度明显减小,但当样本变得更大时,误差幅度减小的趋势变缓了。除非对于精确度或置信水平有特殊的要求,通常把样本增加到1500以上是无足轻重的。
(在我们的语境中,目标大小在10000或以上,当目标很小时,可以应用校正因子来确定相应的误差幅度。但绝大多数报道的民意调查都有足够大的样本,所以我们不必关注校正误差幅度的计算方法。)
表10-1中的数据都是经可靠的计算得来的,至于计算方法本身并不是我们要探讨的。表中的置信水平是95%,民意调查机构的职业调查都把置信水平定在95%。在所进行的职业调查中,如果没有交代置信水平,就假定其为95%。
表中最左边的一栏是一系列不断增加的n的大小。第2栏是与各样本大小相应的误差幅度:误差幅度表示为“加或减X个百分点”。第3栏表示误差幅度在整个范围中的百分点。
从表中可以发现,随着样本大小的增加,误差幅度在减小。从表中还可以发现如下两点:首先,样本小的误差幅度大。最近我们从高尔夫杂志上读到在被调查的约200个高尔夫球手中有55%的人同意被调查的问题。由此可以说明在所有的高尔夫球手中有过半数的人同意被调查的问题吗?并非如此。在95%的置信水平下,随机抽取的200个样本(或许该样本并非随机抽取的)中,误差幅度是正负8个百分点,这就意味着实际上有可能只有47%(少数)的人会同意被调查的问题。
而实际生活中的归纳概括所基于的样本往往不是200个,而是更小,如n=1或2。以后在基于小样本进行归纳概括时要同时记住其中有较大的误差幅度。
其次需要从表10-1中注意的是:当样本从10增加到25时,误差幅度缩小得很快,但从上往下,误差缩小的幅度在减缓。当样本大小达到500时,误差幅度为正负4%,为了使误差幅度减至正负3个百分点,我们需要将样本加大到1000,为了将误差幅度降低1个百分点,就需要再增加500个样本。(为了方便起见,我们对误差幅度进行四舍五入,取其近似值。)为了让误差幅度降低1个百分点或者更少,就需要大量增加样本的大小。从操作层面来权衡,为了获得更精确的结论(缩小了误差幅度的结论)就要增加大量新样本,由此就会带来困难和费用,这是得失相抵的方案。了解到这一点,就能理解无论调查什么,无论被调查的总体是新罕布什尔州的共和党初选选民还是全体美国公民或整个地球上的人类或其他庞大的人口,调查采用的样本往往都在1000~1 500之间。