人生中的许多决定根本不值得付出太多努力,如果我们对所有事情采取谨慎的统计方法,我们将不会做很多事情。如果你全力以赴,那么是否确定不会浪费宝贵的时间呢?
分析师可以帮助您提出更好的问题,而统计学家则可以提供更严格的答案。看起来就像一个协作梦想的成果,但是这些职业最终以某种方式落到了经常触碰彼此的喉咙。让我们看看我们是否可以理解分析和统计之间的奇怪战争。
分析师和统计学家:玻璃容器中不相容的物种?
定义
由于可能无法准确反映人们的实际工作,所以让我定义一下:
- 那些关心查看数据以进行汇总和提取灵感的人就是我所说的。
- 我所谓的就是那些为数据驱动的决策而严格的人。
- 这些谁知道怎么做都...都都。本文忽略了分析师和统计人员的混合体,但是您可以在我的想法。
- 那些至少误解了两者的人士就是数据流氓。
- 那些既知道如何做又拥有专业知识的人称为数据科学家。这种多面手确实是罕见的。请注意,不同的组织对于如何定义数据科学角色具有,因此最好在假设之前检查每个人都在谈论同一件事。
分析可帮助您形成假设,而统计数可用于检验它们。
分析师专注于混乱情况,而更多地专注于推断之外的内容。
数据匮乏的负担
由于收集的努力以及将存储在20世纪小型硬盘上的成本成为瓶颈,上世纪的数据集往往很小。即使对于一个受人尊敬的数据集,也很难将足够的数据收集在一起,这意味着很少是一种选择。这迫使专业人员在两种截然不同的心态之间做出选择。
数据行业之间的对抗是数据饥荒的挥之不去的影响之一。
如果您在数据饥荒的黑暗时期接受了数据科学培训,那么您可能会藏有讨厌的刻板印象,这是由于未能理解分析师和统计学家所扮演的不同角色。你在哪个阵营,你可能会认为另一阵营正在努力做你的工作......,他们是在它出奇的差。
讨厌的刻板印象(以及为什么要拥有它们)
统计学家分析师对的看法
一句话:马虎。与统计学家不同,大多数分析师没有经过严格的思考:哪些结论在不确定性下是有效的。分析师的尽快找出其数据集中的内容。
在数据中乱窜的想法使许多统计学家误以为是。最近,我不愿意参加这样的谈话:统计学家(不是我!)反对开发更快的分析工具,因为"这会引起滥用。"是的。一种笨拙的方法,可以踩踏整个的有效性。
事情是这样的:他是正确的,认为这样的工具对统计学家不利。但是工作是不同的。不幸的是,包括他在内的大多数人都不了解这种。
如果您无法拆分数据,并且在弄清楚要问的问题之前先查看了所有数据,那么您就在进行分析,而不是统计。
那不一定是一件坏事。分析是重要且有用的-这就是如何激发灵感以找出应遵循的方向。当分析师以试图更严格的方式叫卖灵感时,麻烦就开始了。
遵循一条黄金法则:在拍摄照片之前先发声,或者坚持描述自己面前的事物。
如果您没有遵循一个黄金法则,那么真正的统计学家就会对您所谓的"见解"大开眼界:在接管镜头之前先发声。否则,请坚持描述您的数据集,并且不要超出范围。请不要太自以为是,也不要要求别人这样做。
实际上,如果我们将每个人都视为描述性分析,除非得到证明,否则我们在数据推理中都是最安全的。
来自未拆分数据的"见解"?那只是你的看法,伙计。
除非你向我证明您的理论允许你在拍摄之前对其进行命名,否则我将假设你懂展示的内容仅存在于你已经看到它的地方。因此在您看到模式之前先预测一下模式的存在,您才会打动我。除非您可以保证,否则您的假设要先于您的数据,否则您告诉我的任何信息都应被视为"就像您的意见一样,老兄"。
方程还不够,它们不能将残破的过程变成值得信赖的概括。
为了使数据访问不仅仅是描述性分析,您必须遵循特定的过程。仅仅因为您的软件吐出了一个P值,并不意味着发生了真正的统计推断。您必须以某种方式来并收集数据,从而解锁正在做的事情的哲学有效性。方程是不够的,不能将破碎的过程变成可信赖的。让我们谨慎地使用我们的语言,将所有内容称为" 灵感"或" 分析",除非另有证明。
统计员在分析师看来如何
一言以蔽之:迂腐的。与分析师不同的是,大多数统计学家都没有进行过广泛的研究。对于分析人员而言,他们的分类统计看起来像浪费时间,尤其是如果他们参与了错误的项目阶段。
许多统计学家喜欢正确地做事情,即使这些事情一开始并不总是值得做的。它让人想到一个严肃的五岁孩子对待一个沙堡,就好像它对要加入建筑乐趣的四岁孩子来说是神圣而大喊大叫的。毫不奇怪,分析师将这些统计学家视为一种超级胶水,会凝结在浮起的第一件事上。
大多数决策所需的最后一件事是统计专制。
人生中的许多决定根本不值得付出太多努力,如果我们对所有事情采取谨慎的统计方法,我们将不会做很多事情。如果你全力以赴,那么是否确定不会浪费宝贵的时间呢?
当统计学家在不经意地探索探索性数据时大声表示不赞成时,他们对有商业头脑的人来说是荒谬的。
我经常想知道,严谨为假的现象是否是参加数学课的产物,其中数学例子越来越繁琐,琐碎的事就变得毫无意义。幼儿园的"如果莎莉在野外有二十只兔子……"一直持续到研究生院,在那里需要三重积分才能获得金星。
谁能责怪统计学家在对待了这么多兔子之后把一切都当回事呢?这些课程实际上使您能够为愚蠢的问题提供复杂的答案,那么您对这十年的劳动力有何期待?大量雇用数学/统计崇拜者可以使您免于某些问题的困扰,但同时也会使您面临其他问题,包括欺凌者,这些欺凌者使那些没有为110%的照料建造每一座沙堡的人感到辛苦。
抛开我偶然的因果推论,如果您有一个队友愿意倾注自己的心血去做严格的工作,那么希望严谨是值得追求的。如果您的队友缺乏掌握要摔倒的兔子洞的技能,他们将需要有人将其指向正确的方向。
在分析师的帮助下,统计人员不再需要摸索黑暗,来弄清楚如何问他们的问题。相反,他们可以让分析师激发自己的假设和假设。
那么,为什么统计学家不高兴让分析师帮助他们确定值得做的事情?为什么分析家不高兴将检查我们的结论而不是废话交给统计学家呢?为什么对立和缺乏尊重?
解锁协作
数据集太小而无法工作,因此需要您在使用它们进行分析和统计之间进行。这意味着两组将不得不争夺每个数据集。
在采用现代数据科学方法的组织中,分析人员(灵感/探索)和统计学家(严格/测试)之间的紧密合作是这种文化的一部分。
由于硬件的改进和较低的存储成本,如今,许多努力都突破了一个数据集的上限,从而迎来了数据丰富的时代。
将您的数据分成一个每个人都可以挖掘出灵感的探索性数据集,以及一个测试数据集,稍后该数据集将由专家用来严格确认探索阶段发现的任何"见解"。
现在,分析人员和统计人员可以收到他们自己的原始数据集,从而使勘探专家可以与测试专家协调工作,每个小组都尽自己最大的努力……假设他们可以放下喜欢相互搏斗的习惯。
假设的生成和检验之间有效协作的代价是数据量。
分析师可以将他们的文章作为指导性冥想,以找出值得追求的目标,并且当他们缩小了企业最关心的范围时,剩下的文章可以让统计人员认真检查分析师的想法是否值得采取行动!
他们其实可以在数据学科之间共生,因为这是一个数据丰富的现代时代!