最大和最小的问题
确定平均指的是平均数、中位数还是众数固然重要,可还有一件工作至少与其同样重要,即确定最小值和最大值之间的差距——范围(range)——以及每个数值出现的次数——分布(distribution)。举例说来,假设你打算确定是不是吃附近海 洋捕来的鱼。仅只了解鱼体内汞含量的平均数值,你是否便能够心满意足?当然不会。还需要知道汞含量的范围——可能的最高和最低含量——以及不同含量出现的 次数。平均讲来,汞含量可能处在“安全”范围以内;然而,若有10%的鱼体内汞含量超过了“安全”范围,大概在晚餐桌上你宁可选吃别种食物。
再看一个例子。它恰好表现了了解范围和分布究竟意味着什么。
美国绝不算过分拥挤。全国每平方英里的人数不足60入,这一人口密度比绝大多数国家都低。
首先,我们会觉察出这里之所谓人口密度用的是平均数。虽则平均密度显得相当低,但是毫无疑问,在美国的一些地区——比如东北部——人口密度显然很高。因而,在某些地区,美国毕竟还是过分拥挤——虽然平均讲来或许不至如此。
因此,在遇到平均出现时,请问你自己:了解数值的范围和分布是不是不可或缺?
统计比较大骗局
比较中经常遇到的错误一般有两种类型;(1)制造比较外表,实则空洞无物(不完全比较);(2)对反映两种不同概念的统计数据强行比较。
下面的例子,犯的是不完全比较的毛病。
〔1)福滋牌阿斯匹林见效快50%。(比什么快?)
(2)精制面包营养高出30%。(比什么营养高?)
每天你都会遇到诸如此类的例子。它们看上去言之凿凿,意义深长;然而并未提供我们需要的比较,因此也便无法传递任何真正的信息。比如说,如果新出的福滋牌位是比原有的福滋牌见效快50%,我们就会觉得稀松平常,不似比其它竞争产品快出50%那样令人印象深刻。
比较还会因关键术语意义的变化而产生另一个骗局。举例说吧,犯罪率、贫困率和失业率的变化,反映的仅仅是定义或衡量这些事件方式的变化,而往往并不是它们实际发生的情形。或许,只需把个人合法收入的“贫困”水准降低,便能将美国的贫困人数大大降低。真叫易如反掌!
确切数字不可知
我们是否能确切知道美国有多少人染上了爱滋病?有多少人换过老婆?有多少人堕过胎?有多少人到商店当过扒手?有多少人干过白领犯罪?有多少人有过婚外恋 情?有多少人每天喝酒超过三杯?有多少人殴打妻子?有多少人无家可归?有多少人使用可卡因?我们说,不能知道。为什么?因为为某一目的而收集确切统计资料 的工作会有很多障碍,包括不愿提供真实的信息,对事件的报道漏洞百出,以及在观察事物方面人所共有的局限。结果,统计数字常常表现为”训练有素的猜测”。 这种估计自然颇有助益;然而其中也夹杂着要不得的谎话。你必须时刻留意推测中的种种歪曲不实。请永远追问:“作者达成这种推测的途径是什么”?
看一下对旱灾影响的报道,你便能领略统计谎言的危害之深。例如,1977年,一些全国性杂志报道说,仅在1968年到1973年期间,由干旱灾,在萨赫 勒地区便有十万多名西非居民死于饥饿。得出这一数字的途径何在?原来,有人算出了该地区的正常死亡率,再把各部落在旱灾中的最高死亡率汇合起来,从而估计 出几百几千之类的最高限度!可见,要评判旱灾影响的严重程度,我们需要更为科学的证据才行。