对数据分析的新认识:从统计学到数据科学#
在传统科学中,数据分析主要以数学和统计学为直接理论工具。但是,云计算等计算模式的出现及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响。大数据带给我们 4 个颠覆性的观念转变。
不是随机样本,而是全体数据#
在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
以前我们通常把随机采样看成是理所应当的限制,但是真正的大数据时代是指不用随机分析法这样的捷径,而采用对所有数据进行分析的方法,通过观察所有数据,来寻找异常值进行分析。
例如,信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点。在这种情况下,异常值是最有用的信息,可以把它与正常交易情况作对比从而发现问题。
不是纯净性,而是混杂性#
数据量的大幅增加会造成一些错误的数据混进数据集。但是,正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。
我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
不是精确性,而是趋势#
研究数据如此之多,以至于我们不再热衷于追求精确度。之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,但随着规模的扩大,对精确度的痴迷将减弱。
拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
例如,微信朋友圈中朋友发动态的时间,在一小时以内的会显示多少分钟之前,在一小时以外的就只显示几小时前;微信公众号中显示的阅读量,超过十万以后显示的就是 100000+,而不是具体数据,因为超过十万的阅读量已经让我们觉得这篇文章很优秀了,没必要精确。
不是因果关系,而是相关关系#
在数据科学中,广泛应用“基于数据”的思维模式,重视对“相关性”的分析,而不是等到发现“真正的因果关系”之后才解决问题。
在大数据时代,人们开始重视相关分析,而不仅仅是因果分析。我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系。相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会告诉我们某件事情已经发生了。
在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。知道是什么就够了,没必要知道为什么。例如,知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。相关关系是通过识别关联物来帮助我们分析某一现象的,而不是揭示其内部的运作。
通过找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。例如,如果川和万经常一起发生,我们只需要注意方是否发生,就可以预测力是否也发生了。