• 精选
  • 会员

统计学

2020年6月23日  来源:通识:学问的门类 作者:[日]茂木健一郎 提供人:zhangshaoping8......

统计学的确立

统计学的诞生,是英国的人口研究、德国的国势研究以及法国的概率论三者相结合的产物。

统计学是一门历史悠久的学科。早在公元前3000年左右的埃及,以及公元前2300年左右的中国就曾举行过人口普查。公元前435年,古罗马创立了“国势调查”(Census)制度,开始了定期性的人口普查。中世纪时,欧洲各国都曾制作过反映耕地、财产、物产以及各阶层人口等情况的一览表,然而在统计方法和统计理论方面,却并未出现任何进展。

16、17世纪的重商主义时代,欧洲各国在积极谋求工业发展和人口增长的过程中,深切地感受到了准确把握国家情势的必要性。诞生于德国的“国势学”主要使用文字记述的方式对各个国家的土地、居民、组织、租税、军事等情况进行系统化的记述。17世纪下半叶至18世纪,国势学发展极为迅猛,形成了“德国大学统计学派”(国势学派)。该学派首次使用了德文“统计学”(statistik)这一术语。

在英国,随着资本主义的发展,在弗朗西斯·培根的经验哲学的影响下,通过数据资料研究客观现象间数量关系的“政治算术学派”应运而生。其中,格朗特根据伦敦的死亡人数推算出了全市的总人口数。威廉·配第对各大城市的人口和经济情况进行了系统的数量对比分析,“政治算术学派”这一名称即来自其著作《政治算术》一书。“哈雷彗星”的发现者埃德蒙·哈雷曾推算过年龄性别死亡率和生存概率。

在法国则出现了研究概率的热潮。虽然实用性概率的研究主要依赖于爱好骰子赌博的专业赌博者,然而真正为概率论和组合论的发展奠定了基础的,却是解答了各类赌博问题的帕斯卡和费马二人。此外,雅各布·伯努利首次将概率论建立在稳固的数学基础上,拉普拉斯确立了概率论的古典型定义。

比利时的凯特勒使用数理统计的方法研究生物学现象和社会现象,试图将统计学创建为改良社会的一种工具。由此,统计学正式加入了近代科学的行列。

统计学的成长

兴起于农业和生物学领域的描述统计学与推断统计学,构成了现代统计学的基本框架。

在凯特勒以后,既出现了习惯将自然法则观念引入社会现象研究的倾向,也出现了无论对象是自然还是社会皆可适用的“数理统计学”。数理统计学分为“描述统计学”和“推断统计学(推计学)”,这两种统计学类型构成了现代统计学的基本框架。其中,卡尔·皮尔逊提出了检验分布和拟合优度的“X2检验”等理论,完善了描述统计学。

描述统计学认为搜集到的数据越全面,对于现象的解释(描述)就越准确。而后期发展起来的推断统计学则摆脱了全面调查的束缚,开始借助概率论和数学的方法,运用抽样(sample)调查,尽可能地根据有限的样本数据推断出研究对象的总体特征。威廉·戈塞特(英1876—1937,笔名“学生”)开创了小样本理论的先河,提出了“t分布(t-distribution)”。“t 分布”是“学生分布(Student distribution)”的简称。罗纳德·费希尔通过观察田间试验,区分了总体与样本两个概念,并提出了研究两者间关系的方法,被誉为“推断统计学的创始人”。

在此基础上,随着“抽样调查理论”的进一步发展,统计学的应用范围也不断扩大。马哈拉诺比斯在孟加拉地区进行了大规模的农作物产量调查,证明了抽样调查的可靠性。瓦尔德运用诺伊曼的“博弈论”思想,创立了“统计决策理论”,试图将形形色色的统计问题归并在一个统一的模式之下。

统计学的确立与发展

统计学的发展

随着计算机技术的迅速崛起与普及,对复杂现象进行客观分析的统计学方法实现了飞跃性的发展。

“多变量分析”和“数据分析”形成于20世纪60年代左右,主要通过积极获取所有可利用的信息,尽可能准确地从多元角度对复杂的现象进行分析。随着计算机技术的迅速崛起与普及,这种新的统计学领域在70年代以后实现了飞跃性的发展。

其中包括日本文部省统计数理研究所的林知己夫所倡导的“数量化理论”、美国的图基等人所开发的“探索性数据分析(EDA)”。在具体的方法方面,法国的本泽克里批判数理统计学,提倡“对应分析法”。此外,对数据进行客观分类的“聚类分析”,主要是根据数据间的相似性将其分为不同的类(cluster),并通过树状图的形式呈现出来。

如此一系列的数据分析方法汇成了统计学界的一大潮流,并随着计算机技术的蓬勃发展,逐渐形成了“计算机统计学”研究领域。

进入21世纪,统计学开始被广泛应用于各个领域,其中影响最大的是以18世纪的概率论为理论基础的“贝叶斯统计学”。贝叶斯统计学不仅被应用于数学、经济学、信息科学、心理学、商业、销售等领域,同时也是计算机普及下的大数据时代中不可或缺的工具,还是解释邮购业务界的“长尾效应”的必要理论。

在人们的印象中,统计学似乎是一门急速发展起来的学科,但实际上,该学科的基本理论早在18世纪时就已经形成,统计学在发展过程中注重基础知识与实际应用的结合,始终贯彻着“温故知新”的原则。当代社会作为复杂的信息社会,已经越来越离不开统计学的支持,需要分析的信息对象也变得更加多样化。在此背景之下,学者们开始研究如何将分析出来的结果简单易懂地呈现出来,“信息可视化(Infographics)”等新的统计学领域应运而生。

大数据时代的到来之所以引发了人们对于统计学的关注,主要是因为对大数据的分析,在制定经营战略和市场营销战略、开发新产品和新服务等方面发挥着重要的作用。比起以“参数”为出发点的经典统计学,以“数据”为出发点的贝叶斯统计学更加适应大数据时代的需求。然而,尽管人们早已意识到合理的决策不应建立在经验和直觉的基础上,而应该以对数据的科学性分析为依据,但是统计学在发展的过程中,却始终未能形成作为一门“学科”所应具备的坚固的学科体系和学科地位,日本的大学里并不存在统计学系就是很好的证明。

在大数据时代背景下,个人的手机位置信息、IC卡信息、网页浏览记录、购物记录、社交媒体信息等都已经能够轻松获取。企业在营销上最感兴趣的始终是如何准确得知顾客需要什么、正准备购买什么。以往的企业在分析顾客的喜好时,关注的都是个人的基本特征、价值观以及生活方式等较为稳定的信息,比如性别、年龄段、居住地、可支配收入等。但是如果想要据此预测出顾客将来会购买什么商品,那几乎是不可能的,而大数据和统计学却使这一不可能变为了可能。因此,当现在的人们在浏览购物网站时,即使他们并没有主动要求检索某样特定的商品,网站也能主动向其推荐“您可能感兴趣的商品”。

随着信息时代的进一步发展,必将出现更多的海量大数据,然而漫无边际的数据增长如果离开了统计学,将不具有任何价值。统计学的发展前景具有无限的可能性,大数据为统计学提供了绝佳的发展平台,统计学需要抓住这次机遇建立起稳固的学科地位。

现代统计学门类

入门者须知

概率

表示随机事件发生的可能性大小的度量。拉普拉斯曾这样定义“算术概率(先验概率)”:掷一枚骰子,从1点到6点每一个面朝上的可能性相等,那么掷出1点的概率就是1/6。然而,又何以证明“从1点到6点每一个面朝上的可能性相等”呢?而且这种定义并不适用于计算生物学现象的概率。因此,人们暂且放弃了这种最方便说明问题的先验假设,不再从最初就设定好事件发生的概率,开始探索概率的理论发展。

米塞斯的统计概率(经验概率)是将频率的稳定值理解为事件的概率。例如,无限次地抛掷一枚硬币后,可以通过正面出现的频率估计出反面出现的概率。现在的“公理化概率论”对概率的定义则是着眼于事件及事件概率的最基本的性质,具有更广泛的适用性。此外,贝叶斯统计学区分了事件出现之前的主观概率(先验概率),以及事件出现后根据实验结果得出的概率(后验概率或条件概率)。近年来,贝氏统计学已成为经营分析等领域的重要决策工具。

贝叶斯统计学

创始人是托马斯·贝叶斯。著名人寿保险原理的开拓者理查德·普莱斯在贝叶斯逝世三年后,公布了贝叶斯的遗作《论有关机遇问题的求解》,之后,数学家、物理学家拉普拉斯再次总结并发展出了“贝叶斯定理”。进入21世纪,“贝叶斯定理”得到了数学、经济学、信息科学、心理学等领域的广泛关注,逐渐成为现代概率论、统计论、信息论等科学理论中不可或缺的一部分。

与经典统计学相比,贝叶斯统计学采用了一种全新的思维范式,不再将概率分布的参数设为定值(常数),而是将其看作随机变量,通过得出的数据推导出参数的概率分布。也就是说,经典统计学是以参数为出发点,而贝叶斯统计学则是以数据为出发点。

检验

在统计学中,设立两种假设:一种是预期假设(原假设);一种是与原假设相对立的备择假设。然后根据样本的信息做出拒绝原假设或者接受原假设的判断,这就是“检验”。

当原假设为真时只有很小的概率出现,小概率发生的区域称为拒绝域,当统计量的结果落入拒绝域时便应拒绝原假设,接受备择假设。反之,则拒绝备择假设,重新考虑原假设。

这种检验方法称为“奈曼-皮尔逊检验法”。此外,在假设检验中,当样本资料比较小或样本信息完全陌生时,样本所属的总体分布形态一般是未知的。在这种情况下使用的检验方法称为“非参数检验”,主要是将分类数据和顺序数据转换为数值后再加以利用。瓦尔德所创立的统计决策理论,是指在实际进行检验的时候,要在分析比较各行动方案的损益的基础上,选择最佳的检验方法。

多变量分析

在进行多变量分析时,根据测定的对象是否具有某种特殊性质(外部变量)所使用的手法大不相同。

例如,将收视率设为外部变量时,影响收视率的因素(题材、演员、编剧、主题曲、赞助商)称为“项目(item)”,项目中的种类(当项目为电影“题材”时,包括推理片、绝症片、爱情片等)称为“类目(category)”,多变量分析就是对这些定性数据进行数量化处理。定性数据可以用两种计量尺度表示:划分“喜欢、一般、讨厌”等程度的“定序尺度”;将对象按属性进行分类的“分类尺度”,如划分节目类型等。当基准变量存在时,可以使用“数量化Ⅰ类”“数量化Ⅱ类”等方法。也就是说,当基准变量已知时,就可以研究数据对基准变量的影响,以及基准变量与数据间的因果关系。

然而,在调查例如某个班同学所喜欢的明星类型时,并不存在外部变量,只能从数量化数据的测定模式入手。在对模式进行分析,寻找数据间的相关性和结构时,一般使用“数量化Ⅰ类”“数量化Ⅱ类”“多维尺度分析法”“聚类分析”“主成分分析”“因子分析”等方法。

帕累托法则

一种市场营销法则。80%的销售额来自20%的核心产品和20%的重要客户。

长尾理论(效应)

长尾效应是对长期以来在市场上占据主导地位的“帕累托法则”的颠覆。网络零售不存在展示空间等物理性限制,即使是非畅销商品(长尾)也能很容易地销售出去,与实体店销售相比,得到商家关注的商品的比例越来越大,这就是长尾理论(效应)。

统计学

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000