• 精选
  • 会员

7 大数据,大框架其力有何不能胜

2020年7月20日  来源:人人都在说谎——赤裸裸的数据真相 作者:[美]赛思·斯蒂芬斯–达维多维茨 提供人:heidong86......

电子邮件里写道:“赛思,劳伦斯·萨默斯(Lawrence Summers)想见你一面。”语气颇有点神秘啊。邮件是我的一位博士生导师劳伦斯·卡茨(Lawrence Katz)发来的。卡茨先生并没有告诉我萨默斯对我的工作感兴趣的缘由,但后来我发现他其实早就知道了。

我坐在萨默斯办公室外的等候室。过了一会儿,这位美国前财政部部长、哈佛大学前任校长兼经济学领域许多著名奖项的获得者把我唤进了屋里。

在正式谈话前,他先读了秘书提前为他打印好的我那篇论述种族主义对奥巴马的影响的论文。萨默斯阅读速度极快,看论文的时候,他不时向右嘴角吐出舌头,眼睛快速地左右移动,一目十行地看下去。萨默斯读社会科学论文的样子让我联想到一位伟大的钢琴家演奏奏鸣曲的场景。他如此专注,似乎整个人都沉浸其中,不到5分钟,他就读完了我这篇30页的论文。

萨默斯说:“你说谷歌上的‘黑鬼’搜索暗示了种族歧视,这是说得通的。这些搜索能预示奥巴马在哪些州比克里获得的支持率低,这太有趣了。我们真的可以把奥巴马和克里视为同类人吗?”

“政治科学家认为他们有着类似的意识形态,”我回答道,“另外,种族主义和众议院投票的变化之间没有什么关联。即使我们加强对人口统计、教堂活动参与和枪支所有权的控制力度,其结果依旧不会改变。”这就是此前我脑海中不断闪现的经济学家之间应有的谈话方式。

萨默斯停了下来,盯着我。他迅速转向办公室里的电视,调到美国全国广播电视公司财经频道(CNBC),然后又盯着我,接着看了一眼电视,又回头看着我。“好吧,我喜欢这篇论文,”萨默斯说,“你还在做什么其他研究吗?”

接下来的60分钟可能是我人生中最充满智慧的欢乐时光了。我与萨默斯谈到了利率和通货膨胀、治安和犯罪、商业和慈善。很多见过萨默斯的人都为其着迷是有因可循的。我十分有幸能在生命中和一些非常聪明的人对话,而萨默斯就是最聪明的那一个。他满脑子都是点子,比任何人都要多,这似乎也是他经常麻烦缠身的原因。他曾经表示,女性科学家为数不多,其中部分原因可能是男性智商更高,此番言论一出,他只得辞去哈佛大学校长一职。如果他发现某个想法很有趣,即便会得罪许多人,他也会直言不讳。

我们的谈话已经超过预先安排好的会面时间半个小时。这次谈话令人心情愉悦,酣畅淋漓,但我仍然不知道自己来这儿是为了什么,不知道我应该什么时候离开,也不知道我如何才能知道应该什么时候离开。就在那时我有种感觉,萨默斯本人可能都已经忘记为什么要和我见面了。

然后,他问了一个价值上百万美元(也可以说是数十亿美元)的问题。“你觉得你能用这些数据预测股市吗?”

啊哈。到最后,这才是萨默斯唤我到他办公室见面的原因。

萨默斯不是第一个问我这一特别问题的人。我父亲向来支持我非传统的研究兴趣,但有一次,他提出了这个问题。他说:“种族主义、虐待儿童、堕胎,你能不能把这些专业知识拿来赚点儿钱?”我的朋友和其他家人提出了同样的疑问,我的同事和网上的陌生人也很关心这个问题。每个人似乎都想知道是否可以使用谷歌搜索或其他大数据来挑选股票,现在则是美国前财政部部长。于是,这个问题就更要严肃考虑了。

那么,新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。

在前文中,我们讨论了大数据的四大功能,而这一章是关于大数据的局限性的——我们无法运用大数据做到的事,有时还包括我们不该运用大数据去做的事。我们可以从我本人和萨默斯试图用大数据打进市场说起。当然我们并没有成功。

在第3章中,我们注意到,当一个特定领域的现有研究还不够深入的时候,新数据很可能会带来巨大的回报。对这个世界来说,这是一个不幸的事实——你将会更加轻松地获得关于种族主义、虐待儿童事件或堕胎行为的新见解,而不是对企业如何运作才能获得新的利润的见解。这是因为已经有大量的资源用于衡量业务绩效了。金融行业竞争激烈,这已经是对我们的巨大打击了。

萨默斯不是一个对他人智慧不以为然的人,他很确信对冲基金(公司)已经走在了人类的前面。在我们的谈话中,他对他人充满敬意,对我的建议多有采纳,相信他人在很多方面领先于我们,这一切都令我深深折服。我自豪地与他分享了一个我设计的算法,这个算法可以让我获得更完整的谷歌趋势数据。他对此表示赞赏。我问他“文艺复兴”(一个定量对冲基金)是否会破解这个算法,他笑着说:“是啊,它们当然算得出来。”

我和萨默斯用新的大数据集击败市场面临的挑战很多,紧跟对冲基金(公司)的困难并非唯一一个基本问题。

维度的诅咒

假设你预测股票市场的策略是找到一枚幸运币,但这枚幸运币需要通过仔细的测试才能找到。方法如下:用1到1 000这1 000个数字给1 000个硬币编号。在接下来的两年时间里,每天早上你都抛出一枚硬币,记下是正面朝上还是反面朝上,然后记下标准普尔指数当天的涨跌情况。最后,你把所有的数据都检查一遍。瞧!你发现了一些东西。结果显示,391号硬币正面朝上70.3%的情况下标准普尔指数都呈上涨趋势。这种关系极具统计学意义,非常重要。你已经找到了自己的幸运币!

每天早上只要抛出391号硬币,如果正面朝上就买股票。你每天为衣食而愁的日子就要到头了。391号硬币就是你走向美好生活的门票!

抑或不是。

你已经成为“维度的诅咒”中最恶毒一面的又一个受害者。无论何时,只要拥有多个变量(或者说“维度”,在这个例子中就是1 000个硬币)又无须做太多观察(在这个例子中就是两年中的504个交易日),这个方法就有可能奏效,其中一个维度(在这个例子中是391号硬币)可能就很幸运。可如果减少变量的数量(仅抛100枚硬币),其中一个变量成为幸运币的可能性就要小很多,再增加观察的数量(尝试预测标准普尔指数20年的走势),那硬币是根本无法胜任这项工作的。

维度的诅咒是大数据的一个主要问题,因为新的数据集经常会给我们带来比传统数据源更多的变量——每一个搜索词、每一种推文等。许多声称在利用大数据源预测市场的人只不过是被施了魔咒,他们所做的只是找到相当于391号硬币的东西。

例如,来自印第安纳大学和曼彻斯特大学的一组计算机科学家声称,他们可以根据人们发推文的内容来预测市场的走向。[1]他们建立了一种算法,根据推文将全世界每天的情绪进行了编码。他们使用的技术和第3章中所讨论的情绪分析相似,但他们编码的不止有一种情绪,而是包含多种情绪——快乐、愤怒、友善等。他们发现,诸如“我很平静”这类表示冷静的推文,预示着道琼斯工业平均指数有可能在六天后上涨。为了利用他们的这一发现,还专门成立了一个对冲基金。

这有什么问题吗?

根本问题是他们测试了太多东西。如果你测试的事物足够多,就算出于偶然,其中一个事物也会有重大的统计学意义。他们测试了许多情绪。他们在股市开盘一天前、两天前、三天前乃至七天前对每种情绪进行了测试,试图预测其对股市的作用。所有这些变量都被用来试图解释道琼斯工业平均指数几个月以来的起伏。

前六天的平静并不是股票市场的合理预测指标。前六天的平静是我们假设的391号硬币的大数据等值体。根据推文内容成立的那个对冲基金由于收益不佳,在成立一个月后关闭了。[2]

在与维度的诅咒的较量中,试图用推特来跟上市场脚步的对冲基金并不是唯一的战斗力量,一直以来都在努力寻找人类基因密码的无数位科学家也是不屈的战士。

多亏了人类基因组计划,我现在可以搜集和分析人类的完整DNA(脱氧核糖核酸)。这个项目的潜力似乎十分巨大。

也许我们可以找到导致精神分裂症的基因,也许我们可以发现导致老年痴呆、帕金森病和肌萎缩性侧索硬化症的基因。也许我们可以找到让人智商飙升的基因呢。有没有一种基因可以大幅提高智商呢?有没有一种基因可以让你成为天才呢?

1998年,著名行为遗传学家罗伯特·普罗明(Robert Plomin)声称自己找到了答案。他收到了一个包含数百名学生DNA和智商的数据集。他把“天才”(智商高达160或更高)的DNA与普通智商学生的DNA进行了比较。

他发现这两个群体的DNA有一个惊人的差异。这个差异位于6号染色体的一个小角落里,这是一种用于大脑代谢的尚未明确而又十分强大的基因。这个基因名为IGF2r,有一种说法是天才携带该基因的可能性为普通人的两倍。

一篇题为《与高智商相关的基因首获发现》(First Gene to Be Linked with High Intelligence Is Reported Found)的文章登上了《纽约时报》。

你可能会想到因普罗明的发现而引发的许多道德问题。应该允许父母为了IGF2r基因而做产检吗?应该允许父母因孩子智力低下而堕胎吗?我们是否应该通过基因改造提高胎儿的智商呢?IGF2r与种族相关吗?我们想知道这个问题的答案吗?智商的遗传学研究应该继续吗?

在生物伦理学家不得不解决这些棘手的问题之前,对遗传学家,包括普罗明本人来说,有一个更为根本的问题亟待解决——这一结果是否准确?IGF2r是否可以预测智商?天才儿童真的有两倍的可能性携带这一基因的某种变体吗?

答案是否定的。在他最初研究的几年之后,普罗明又得到了另一个包含人们DNA和智商的样本。这一次研究表明,IGF2r与智商无关。普罗明采取了一位优秀科学家应有的做法——收回了他所说过的话。

事实上,这一直是遗传学和智商研究的一般模式。科学家先是报告称,他们已经发现了预测智商的基因变体;然后,他们又得到新的数据,发现自己原来的说法是错误的。

例如,在最近的一篇论文中,由克里斯托弗·查布里斯(Christopher Chabris)领导的一个科学家小组检验了12个关于基因变体和智商关联性的著名主张。他们研究了1万人的数据,却无法再现12个主张中的任何一个关联性。[3]

这些主张的问题究竟出在哪里呢?答案是:维度的诅咒。科学家现在知道,人类基因组千差万别。这很容易理解,因为有太多基因可以用作测试了。

如果你测试了足够多的推文,想验证它们是否与股票市场相关,那么你会偶然发现其中一篇恰好相关。如果你测试了足够多的基因变体,想验证它们是否与智商相关,你也会偶然发现其中某种基因恰好相关。

如何才能克服维度的诅咒呢?你必须对自己的工作保持谦虚谨慎的态度,而不是一味关注结果,难以旁顾。你必须通过附加测试检验这些结果。例如,在你把一生的积蓄都押在391号硬币上之前,你肯定会想看看它在未来几年表现如何。社会科学家称其为“样本外”测试。你尝试的变量越多,就越需要谦虚。你尝试的变量越多,样本外测试就越困难。跟踪记录尝试过的每一个测试也是至关重要的。如此一来,你便可以确切地知道自己成为诅咒受害者的可能性有多大,知道对自己的研究结果应该持什么样的质疑态度。这一点将我们带回我和萨默斯做的事,来看看我们是如何拼尽全力打败市场的。

萨默斯的第一个想法是使用搜索来预测核心产品[如iPhone(苹果手机)],这可能对预测一家公司(如苹果公司)股票未来的表现有一定作用。“iPhone”搜索和iPhone销售之间确实存在关联。当人们对“iPhone”进行大量搜索时,一定有大量手机不断售出。不过,这一信息早已纳入了苹果的股票价格。很明显,当有大量“iPhone”的谷歌搜索时,许多对冲基金也发现iPhone一定会大卖,不管它们是使用搜索数据还是其他数据来源。

萨默斯的下一个想法是预测未来在发展中国家的投资。如果不久的将来有大量投资者涌向巴西、墨西哥等国,那么这些国家的公司股票肯定会上涨。也许我们可以预测,谷歌对投资的关键搜索词将会增加,比如“投资墨西哥”或者“巴西的投资机会”,但事实证明这是一条死胡同。问题出在哪里呢?原因是这样的搜索太少了。这样的搜索数据并没有呈现出有价值的模式,而是零零散散,毫无规律可循。

我们尝试了个人股的搜索。也许如果人们正在搜索“GOOG”(谷歌),就意味着他们即将购进谷歌的股票。这些搜索似乎预示着谷歌的股票会出现大量交易,但并没有预测这些股票是涨还是跌。一个主要限制因素是这些搜索没有告诉我们是否有人有兴趣买入或卖出股票。

有一天,我兴奋地向萨默斯提出一个新的想法:过去搜索“购买黄金”似乎与未来黄金价格的上涨有关。萨默斯说我应该进行测试,看看这个说法是否依然准确。后来发现这种说法已经不奏效了,也许是因为一些对冲基金也发现了同样的关系。

我们耗时几个月,最终却没能在测试中发现任何有用的东西。毫无疑问,如果我们穷尽数十亿个谷歌搜索词条去寻找这些搜索与市场表现的相关性,早就应该找到那个相关的因素了,然而,实在是力不从心啊。它可能只是我们自己的391号硬币罢了。

过分强调什么是可以测量的

2012年3月,耶鲁大学市场营销学教授佐薇·钱斯(Zo Chance)在她位于康涅狄格州纽黑文市市区的办公室的邮箱里收到一个小小的白色计步器,她的研究目的是这个设备(以白天计步数量为衡量标准打分)是如何刺激人们做更多运动的。[4]

接下来发生的事情,也就是她在TEDx[5]演讲中讲的内容,对大数据而言简直就是噩梦。钱斯疯狂地想要增加自己的步数,她开始四处乱走,从厨房到客厅,到餐厅,再到地下室,在办公室里也不停地走。清晨、深夜,每时每刻她都在行走——24小时内走了两万步。她每天数百次检查自己的计步器,与其他很多计步器在线用户一起讨论如何提高分数。钱斯记得,在三岁的女儿走路时,她还把计步器放在女儿身上,她太想要高分了。

钱斯完全沉醉于使分数最大化的过程中,已经失去了理智。她忘记了有人想获得更高分数的原因是运动,而不是让女儿多走几步。她也没有完成关于计步器的任何学术研究。一天晚上她熬着夜,疲惫不堪,想要多走几步路,最后她终于放弃了这个设备。虽然她是一位相信数据的专业研究人员,但这次体验深刻地影响了她。钱斯说:“这让我怀疑获得更多的数据是不是总是一件好事。”

这是一个极端的故事,却指出了人们使用数据做决定存在的潜在问题。数字可能极具诱惑力[6],我们可能会越来越依赖它们,也会因此忽略很多更重要的考量因素。佐薇·钱斯在她生命中余下的时光里便或多或少地忽略了一些东西。

即使不那么醉心于数字的做法也难免有弊端。看看21世纪的美国学校吧,他们看重学生的考试成绩,并根据学生的分数来评判教师。虽然对课堂教学活动采取更客观的评价措施的愿望是合理的,但教学过程中的许多瞬间是无法以数字的形式轻易捕捉到的。而且,所有这些测试都迫使许多教师进行应试教学,甚至还有更糟的事情发生。布赖恩·雅各布(Brian Jacob)和史蒂芬·列维特曾在一篇论文中证明:有一小部分人在管理这些测试的过程中根本就是在弄虚作假![7]

这个问题在于:我们可以测量的东西往往不是我们真正关心的事情。我们可以估量学生在多项选择题上的表现,却不能轻易评判其批判性思维、好奇心或个性发展。只是试图增加一个单一的、易于衡量的数字,比如测试得分或一天中走路的步数,并非总是有助于实现我们真正想要实现的目标。

在优化网站的过程中,脸谱网也遇到了这种危机。该公司有大量关于人们如何使用公司网站的数据,很容易就可以知道一个特定的新闻推送是否被点赞、点击、评论或分享,但是据谷歌数据科学家亚历克斯·佩萨克维奇(Alex Peysakhovich,我与他共同完成了这部分内容的写作)看来,这些数据都无法替代一个更重要的问题——这个网页的用户体验如何?这个故事将她和自己的朋友联系起来了吗?她从这里了解到这个世界了吗?这里让她开怀了吗?

或者再看看20世纪90年代棒球的数据革命吧。当时许多团队开始使用越来越复杂的统计数据,而不是依靠传统的人类球探来做决定。进攻和投球估量起来容易,防守可就难了,所以一些球队最终输在了低估防守的重要性上。事实上,纳特·西尔弗在其著作《信号与噪声》(The Signal and the Noise)一书中估计,奥克兰运动家队[电影《点球成金》(Moneyball)中一支依赖数据分析的球队]因为漏洞百出的防守,在20世纪90年代中期每年都会输掉8~10场比赛。

其解决方案并非总是更大的数据。为了让大数据充分发挥其作用,有一种特殊的调味剂通常是必不可少的:对人类和小型调查的判断,我们可以称之为小数据。时任运动家队总经理兼电影《点球成金》主人公人物原型的比利·比恩(Billy Beane)在接受西尔弗采访时说,他实际上已经开始增加自己的球探预算了。

为了填补其庞大数据池的众多缺口,脸谱网也必须采取传统的方法:询问人们的想法。每天,他们在加载“新闻推送”的同时,还会给数百名脸谱网用户发送一些问题,这些问题和用户刚刚浏览的新闻推送相关。换句话说,脸谱网自动收集的数据集(点赞、点击、评论)会由更小的数据(“你想在新闻推送中看到这篇文章吗?”“为什么?”)进行补充。是的,即使是像脸谱网这样非常成功的大数据公司有时也会使用本书中“备受蔑视”的信息来源:一个小小的调查。

实际上,由于需要小数据作为其主体部分(巨大的点击量、点赞数和发帖量)的补充,脸谱网的数据团队看起来可能和你猜想的不一样。脸谱网雇用社会心理学家、人类学家和社会学家正是为了找到数字错过的东西。

一些教育工作者也越来越关注大数据的盲点,他们正在举全国之力不断以小数据来填补质量测试的不足。对学生的调查增加了,对家长的调查增加了,对教师的观测也越来越多,会请有经验的教师旁听,在课堂中观察一个教师的表现。

哈佛大学教育学教授托马斯·凯恩(Thomas Kane)表示:“很多学区意识到他们不应该只关注考试成绩。”[8]比尔和梅琳达·盖茨基金会进行过为期三年的研究,证明了大数据和小数据的教育价值。笔者分析了考试分数模型、学生调查和教师观测三种方式中哪一种最适用于衡量哪些教师可以最有效地改善学生的学习状况。当他们把这三种方式合并为一个综合评分体系时,得到了最好的结果。报告总结说:“每种评价方式都增加了一些有价值的东西。”[9]

事实上,就像我到佛罗里达州奥卡拉拜访杰夫·塞德时发现的一样,许多大数据公司都在使用小数据来填补漏洞。还记得杰夫·塞德吧,那个毕业于哈佛大学的相马专家,他利用从庞大的数据集中汲取的经验教训预测了“美国法老王”的成功。

在和我分享了所有的计算机文件和数学知识后,塞德告知我他有另一个武器:帕蒂·默里(Patty Murray)。

默里和塞德一样,拥有超高的智商和傲人的资历——毕业于布林莫尔学院。她也离开了纽约来到农村生活。默里坦承“我喜欢马多过喜欢人”。但是,默里在评估马的方法上更传统一些。她和许多赛马经理人一样,亲自检查马匹,看它们如何行走,检查疤痕和瘀伤,并询问它们的主人问题。

然后,默里与塞德合作,最终挑选出他们想要推荐的赛马。默里嗅出了马匹的问题,塞德的数据尽管是有史以来搜集的最具权威性、创新性和重要性的数据集,但依然存在纰漏。

我预测,大数据的革新将会带来一场革命,但这并不意味着我们可以用数据解决一切问题。大数据无法消除千年来人类探索出来的认识这个世界的所有方法,它们互为补足。

大数据 / 大框架

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000