• 精选
  • 会员

3 数据重构

2020年7月20日  来源:人人都在说谎——赤裸裸的数据真相 作者:[美]赛思·斯蒂芬斯–达维多维茨 提供人:heidong86......

每个月某个特定周五的早上6点,曼哈顿大部分街道上都空无一人。街边的商铺全部歇业,这些商铺临街的正门都安装着坚不可摧的钢铁防盗门,楼上的公寓漆黑又安静。

另一边,位于曼哈顿下城的全球投资银行高盛集团的楼层却灯火通明,电梯将数千名员工带到办公桌前。早上7点,大部分员工已经就位。

在其他任何一天的这个时间点,你怎么描述曼哈顿下城的昏昏欲睡都不为过。在这个周五的早晨,这里却是能量“爆棚”、兴奋躁动的。因为在这一天,将会对股市产生巨大影响的信息即将送达。

数据发布几分钟后,多家新闻网站就会相继对其进行报道。在得到信息的几秒钟后,高盛集团和其他数百家金融公司就会对这些信息展开激烈的讨论、辩论与解析。现如今金融领域的许多实际行动都发生在毫秒之间。高盛集团和其他金融公司支付了数千万美元的光纤电缆费用,以缩短信息从芝加哥传输到新泽西的时间,然而这个时间仅仅缩短了4毫秒(从17毫秒缩短到13毫秒)。金融公司拥有基于数据读取信息和交易的特殊算法,这一切也全都发生在几毫秒之间。[1]这个重要的信息发布之后,市场瞬息万变。

所以,究竟是什么样的重要数据对高盛集团和其他数百家金融公司如此有价值呢?

月失业率。

这一数据对股票市场影响深远,许多金融机构都竭尽所能缩短获得和分析数据的时间,加快做出反应的速度。然而,这一数据却来自劳工统计局的电话调查,也就是说,信息公布时本身已经滞后三个星期(或者说20亿毫秒)了。

你可能会感到奇怪,更会觉得惊讶,多家公司不惜斥资数百万美元就为让信息流动时间缩短几毫秒,为何美国政府却要花费如此长的时间来计算失业率?

事实上,在艾伦·克鲁格(Alan Krueger)担任奥巴马总统2011年经济顾问委员会主席期间,他日常的主要工作之一就是尽早公布这些关键数字,但他没能成功做到这一点。[2]“要么是劳工统计局没有资源,”他总结说,“要么是他们还活在20世纪。”

显然,政府丝毫没有加快公布数据的步伐,那么有没有办法能以更快的速度得到一个粗略的失业统计数字呢?在这个高科技时代,人们在互联网上的每一次点击几乎都被记录在某个地方——我们真的要等上几周才能知道有多少人失业吗?

前谷歌工程师杰里米·金斯伯格(Jeremy Ginsberg)在工作中受到启发,发现了一种潜在的解决方案。金斯伯格注意到,同失业数据一样,健康数据的公布也被政府拖延了。尽管医生和医院尽早拿到流感数据将会有利于病情的控制,可疾病预防控制中心依然需要一周的时间才能发布流感数据。

金斯伯格怀疑患有流感的人可能会进行与流感相关的搜索。也就是说,他们会向谷歌汇报自身的症状。他认为这些搜索可以对目前的流感患病率进行合理准确的预测。事实上,诸如“流感症状”和“肌肉酸痛”等搜索已被证明是检测流感传播速度的重要指标。[3][4]

与此同时,谷歌的工程师创建了一项服务——谷歌相关(Google Correlate),为外部研究人员提供了针对众多领域(不仅仅是卫生领域)展开试验所需的多种同类型分析手段。研究人员可以随时查看他们正在跟踪的任何数据集,并查看谷歌搜索与该数据集相关度最高的内容。

例如,利用谷歌相关,我和谷歌首席经济学家哈尔·瓦里安(Hal Varian)两个人就能告诉人们哪些搜索和房价最密切相关。[5]当房价上涨时,美国人倾向于搜索“80/20抵押贷款”“新房建设商”“升值率”等短语;当房价下跌时,美国人往往会搜索“空卖过程”“溺水屋”“抵押贷款债务减免的税收豁免”等短语。

谷歌搜索能否像房价和流感的晴雨表一样,成为失业率调查的试纸呢?仅仅依靠谷歌搜索,我们能否得知有多少人失业,能否在政府核对出调查结果之前统计出可靠数据呢?

有一天,我将2004—2011年的美国失业率输入谷歌相关中。

你认为在那段时间里数万亿次的谷歌搜索中,与失业率最为紧密相连的搜索是什么呢?你可能会认为是“失业办公室”或类似的内容吧。这类搜索频度很高,但不是最高的。那么,“新工作”呢?也很高,但也不是最高的。

在我搜索的过程中,出现频率最高的词不是这些词,而是“骚货”!没错,最常见的搜索就是色情网站!这个结果乍看起来也许奇怪,但恐怕失业人士确实花了大把时间在这类网站上。很多人只能待在家里,孤独又无聊。另一类高度相关的搜索(属于家长指导级别)是“蜘蛛纸牌”。这样一来各位就不会感到惊讶了,这群失业人士手中确实有大把大把的时间。

我并非想通过这一分析表明追踪“骚货”或“蜘蛛纸牌”这类词条是预测失业率的最佳途径。因为失业人员的具体消遣可能随着时间的推移而变化(比如,另一个色情网站同样在最高相关度的搜索中),并且这些高频词本身并不能提起大多数失业人士对它们的兴趣。我发现,与消遣相关的综合性搜索可以追踪失业率,并能成为预测失业率的完美模板的一部分。

这个例子说明了大数据的第一个功能——提供新型数据。通常,大数据的价值不在于它的大小,而在于它可以为你的研究提供新的信息,提供过去从未有人搜集到的信息。

在谷歌出现之前,有些休闲活动的信息是可以获取的,例如电影票的销售情况。这些信息可能会提供一些线索,告诉我们人们有多少闲暇时间。现在有这样一个机会去了解有多少人在玩纸牌游戏或看色情片,这个机会可是前所未有的,更是影响巨大的。在这种情况下,这些数据可能有助于我们(至少在政府学会尽快展开和梳理一个调查之前)更快地了解经济状况。

美国加利福尼亚州山景城谷歌园区内的生活与高盛集团曼哈顿总部截然不同。上午9点,谷歌的办公室内空无一人。如果有工作人员在,那他们可能正在吃免费早餐——香蕉蓝莓煎饼、炒蛋白、纯黄瓜汁。有些员工可能不在园区内:他们可能在博尔德或拉斯维加斯参加外场会议,或在去塔霍湖公费滑雪旅行的路上。到了午餐时间,沙坑排球场和草地足球场上满满的都是人。在谷歌的墨西哥餐厅,我吃到了最美味的卷饼。

这个全球最大、最具竞争力的科技公司为何看起来如此轻松舒适和慷慨大方?谷歌利用大数据以一种其他公司前所未有的方式打造了一个自动化的资金流。谷歌公司在本书中起着至关重要的作用,因为谷歌搜索是迄今为止大数据的主要来源,但重要的是要记住,谷歌的成功是建立在对一种新型数据的搜集之上的。

如果你的年纪够大,曾在20世纪使用过互联网,那么你可能还记得当时的各种搜索引擎,如MetaCrawler、Lycos、AltaVista等。你可能还记得,这些搜索引擎通常不是很可靠。有时,如果你运气足够好,它们可以找到你想要的东西,但一般情况下是找不到的。如果你于20世纪90年代后期在最受欢迎的搜索引擎中输入“比尔·克林顿”,排位最高的搜索结果中包括一个随机网站,这个网站称“比尔·克林顿就是个人渣”;搜索结果中可能还会有一个嘲讽克林顿的冷笑话网站。这些显然都不是和美国当时的总统最相关的信息。

1998年,谷歌出现了,其搜索结果无疑比所有竞争对手都更准确。1998年,如果你在谷歌上搜索“比尔·克林顿”,你将获得他的个人网站、白宫电子邮件地址和互联网上关于他个人最详尽的传记。[6]谷歌就像在变魔术一样。

谷歌创始人谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)究竟有哪些不凡之举呢?

其他搜索引擎为其用户定位到他们搜索的词出现频率最高的网页。如果你正在查找有关比尔·克林顿的信息,那么这些搜索引擎会在整个互联网上找到提及比尔·克林顿次数最多的网页。这个排名系统并不完善,原因有很多,其中一个就是很容易被钻空子。比如,一个笑话网站在某个不起眼的角落插入一连串“比尔·克林顿”,其关联度就会比白宫的官方网站高得多。(1998年,如果你在一个出现在谷歌之前的受众较广的搜索引擎上搜索“汽车”,就会被彻底淹没在色情网站中。这些色情网站经常在白色背景上用白字输入“汽车”这个词来欺骗搜索引擎。[7]于是,它们从一些本欲购买汽车但被色情内容分散了注意力的人身上获得不少额外点击量。——作者注)

布林和佩奇的做法是找到一种方法来记录远比简单地计算单词出现次数更有价值的新型信息。网站在分辨搜索主题时通常会链接到它们认为最有助于理解该主题的网站。例如,提到比尔·克林顿时,《纽约时报》可能会将点击他名字的读者链接到白宫的官方网站。

创建这些链接的每个网站在某种程度上都会给出一个它认为和比尔·克林顿最相关的信息。布林和佩奇可以将所有这些信息整合到每个主题上,这样就可以一次性搜集到来自《纽约时报》、数百万个Listservs(邮件用户清单服务)、数百位博主和互联网上其他人的判断。[8]如果很多人认为对“比尔·克林顿”这一搜索而言,最重要的链接是他的官方网站,那么这个网站很可能就是大多数搜索“比尔·克林顿”的人都想浏览的。

这类链接是其他搜索引擎甚至都没有考虑过的数据,它们对既定主题最有用的信息的预测能力是惊人的。有一点需要搞清楚,谷歌并非仅靠搜集更多的数据称霸搜索引擎界,而是凭借找到更精准的数据类型做到了这一点。谷歌在推出后不到两年的时间内,通过其链接分析功能,成为互联网上最受欢迎的搜索引擎。今天,布林和佩奇的总资产已超过600亿美元。

与谷歌一样,所有人都试图使用数据来了解世界。大数据革命并不在于数据的量,而在于数据的质。

互联网不是唯一一处可以搜集新数据的地方,并且在网络上获取优质数据也可能会带来破坏性后果。本书主要讨论的是网络上的数据如何帮助我们更好地了解人类。不过,下一节却与网络数据毫无关系,事实上是与人类毫无关系,但这部分内容有助于阐明本章的要点:新的非常规数据的巨大价值。其中传达的原理也有助于我们理解这场以数字为根基的数据革命。

以身体为数据

2013年夏,一匹红褐色的马“坐”在纽约州北部的一个小谷仓里,它比一般的马体型大些,有着黑色的鬃毛。它是位于美国纽约州东部疗养胜地萨拉托加斯普林斯的法西–蒂普顿公司(Fasig-Tipton)的8月精选周岁马拍卖会上要被拍卖的152匹马中的一匹,也是当年要被拍卖的1万匹周岁马之一。

有钱人砸大笔的钱在某匹赛马身上时,都希望能得到为这匹马起名的殊荣。因此,像大多数上了拍卖会的马一样,这匹红褐色的马还没有名字,人们暂且用它的谷仓号85号来指代它。

85号想要在这次拍卖会上脱颖而出几乎毫无胜算。它的血统还不错,但还不够好。它的雄性亲畜(父亲)“尼罗河先锋”(Pioneer of the Nile)曾经是一匹顶级赛马,但“尼罗河先锋”的其他孩子此前并没有多少赛马佳绩。85号的外观也有一些问题。例如,它的脚踝处有一道划痕,一些买家会担心它可能受过伤。

目前85号的所有者是埃及啤酒大亨艾哈迈德·扎耶特(Ahmed Zayat),他来到纽约州北部想要卖掉这匹马,同时再买几匹马。

和几乎所有的马主一样,扎耶特聘请了一个专家团队来帮助他选马,但他聘请的专家与其他马主聘请的专家略有不同。在这样的活动中,你看到的典型选马专家都是中年男子,大多来自肯塔基或佛罗里达的乡下,文化水平不高,但有从事赛马行业的家庭背景。然而,扎耶特聘请的专家来自一家名为EQB的小公司。EQB的负责人杰夫·塞德(Jeff Seder)可不是一个老派赛马界人士,而是一个出生于费城的怪人,他毕业于哈佛大学,有一大堆学历证书。

扎耶特曾经与EQB合作过,所以对其流程十分熟悉。塞德的团队需要几天时间对数匹马进行评估,然后会推荐5匹左右给扎耶特来替换85号。

可是这次和往常不太一样。塞德的团队向扎耶特反馈,他们无法满足他的要求。在当天出售的其余151匹马中,他们无法为他提供任何推荐。相反,他们提出了一个意想不到的强烈请求:扎耶特绝不能卖掉85号。EQB称,这匹马不仅是该次拍卖中最棒的马,而且是全年最好的马,甚至可能是十年难遇的好马。团队恳求他:“就算卖掉你的房子,也别卖这匹马。”[9]

第二天,一个自称因卡尔多·布拉德斯托克(Incardo Bloodstock)的人花30万美元悄然无息地买走了85号。后来人们才知道,这个布拉德斯托克就是艾哈迈德·扎耶特当时的化名。应塞德的请求,扎耶特买回了自己的马,这几乎是史无前例的事情了。(拍卖规则使扎耶特无法轻易买回自己的马,因此只能进行匿名交易。)拍卖中,有62匹马比85号价高,其中有两匹卖出了超过100万美元的高价。

三个月后,扎耶特终于为85号选定了名字:美国法老王。18个月后,在纽约市郊区一个气温75华氏度(约24摄氏度)的周六晚上,美国法老王成为30年来首个三冠王。

杰夫·塞德在85号身上看到了哪些别人看不到的东西?这个哈佛大学毕业生为何如此善于相马呢?

在佛罗里达州奥卡拉一个6月炙热的午后,我第一次见到了时年64岁的塞德,当时距离美国法老王赢得三连冠已有一年多了。[10]这场赛事为期一周,是专为两周岁马举办的一场展示,以拍卖会收尾,与扎耶特2013年买回自己的马的那场赛事几无差别。

塞德有着梅尔·布鲁克斯(Mel Brooks)般低沉的声音,头发浓密,走起路来一蹦一跳的,辨识度极高。他身着卡其色的背带裤和黑色衬衫,衬衫上印着公司的标识,耳朵上戴着助听器。

在接下来的三天里,他向我讲述了他的人生故事,以及他是如何越来越善于相马的。他走了不少弯路。在本科以优等生成绩毕业于哈佛大学后,塞德在哈佛大学继续攻读法学学位和商科学位。26岁时,他曾在纽约市花旗集团(Citigroup)担任分析师,但他并不快乐,而且疲惫不堪。有一天,他坐在列克星敦大街公司新办公室的中庭,仔细地端详一幅描绘乡间旷野的壁画。这幅画让他想起了自己对乡村和马的热爱。回到家,看着镜子里那个西装革履的自己,他意识到自己注定不会成为一名银行家,也无法在纽约生活。第二天早上,他便辞去了工作。

塞德搬到了宾夕法尼亚的乡下,在全身心投入自己相马的爱好之前,他曾尝试过纺织和运动医学等多领域的工作。赛马的数字很不精准。在奥卡拉拍卖会上展出的1 000匹两周岁马中,只有最受全美瞩目的那一匹(也许是5匹)最终会赢得比赛,拿到丰厚的奖金。其余的马又会如何呢?大约1/3速度太慢;1/3会受伤——绝大多数是因为四肢无力承受全速奔跑时的巨大压力[11](每年都有数百匹赛马在美国的赛道上死亡[12],多半是因为腿骨断裂[13]);剩下的1/3可能患有人们所说的巴特比综合征(Bartleby syndrome)。巴特比是赫尔曼·梅尔维尔(Herman Melville)的杰出短篇小说中描写的代笔者,他不再工作,并以“我宁可不”来回应其雇主所提出的所有要求。许多赛马在竞技生涯的初期清楚地意识到如果它们不愿意就可以不跑。它们一开始可能会跑得很快,但是在某些时候,它们很容易就放慢速度或直接停下来。为什么要尽可能快地围着这个椭圆形跑,特别是还要忍受马蹄和跗关节的剧烈疼痛?于是它们选择“我宁可不”。(我知道巴特比综合征“患者”有一个弱点,不管是马还是人都有的弱点。)

有如此多的不利因素,马主如何才能选到一匹能赚大钱的马呢?过去,人们认为预测一匹马能否成功的最好办法是分析它的血统。作为一名相马专家,这意味着在任何人想要了解任何一匹马时,你得快速说出它父亲、母亲、祖父、祖母及兄弟姐妹的所有信息。例如,如果一匹大体型马的母方血系中有很多大体型马,代理人就会说“它体型如此庞大是有据可循的”。

但是,有一个问题。血统固然重要,却仍然只能作为赛马成功的很小一部分原因。想想那些“年度赛马”称号(赛马界最受瞩目的年度大奖)获得者的兄弟姐妹就明白了。这些马具有最佳血统——与世界上最好的马匹有着相同的家族史,但其中3/4以上都没有赢得大型比赛。[14]数据告诉我们,预测赛马成功的传统方式还有很大的进步空间。

实际上,血统预测性不强并不奇怪。想想人类吧。想象一下,一个NBA球队的老板根据球队成员的血统,在球员们10岁的时候就买下这支他未来的球队。他可能会聘请一名代理人来测试“魔术师”约翰逊的儿子埃尔文·约翰逊三世。[15]这名代理人可能会说:“目前看来,他的体型十分不错。遗传自约翰逊,有这样的体型是一定的。他应该会有远大的志向、无私的精神,体型好,速度快。他应该性格外向,为人友善,步伐矫健,风度翩翩。值得下这个注。”可惜的是,14年后,这位老板只会得到一个身高6英尺2英寸(约188厘米,对职业篮球运动员来说并不高)的《E!》栏目时尚博主。埃尔文·约翰逊三世或许在设计球服方面可以提供很多建议,但在球场上可帮不上什么忙。

除了这位时尚博主外,NBA球队老板可能还会像许多马主选马一样,忙不迭地签下迈克尔·乔丹的两个儿子杰弗里·乔丹和马库斯·乔丹,而他们后来不过是表现平平的大学生球员而已。倒霉的要数克利夫兰骑士队了,他们的领军人物勒布朗·詹姆斯的母亲身高只有5英尺5英寸(约165厘米)啊![16]或者假定一个国家根据家族血统甄选领导人,那我们很可能会受小布什这样的领导人领导了。(不好意思,实在没忍住!)

除了血统外,赛马代理人还会考虑其他信息。例如,他们会分析两周岁马的步态,并以眼观马。在奥卡拉,我花了好几个小时和各种代理人聊天,通过长时间的交谈,我确信这些人实际的关注点完全没有共性可言。

除了这些收拾不住的矛盾和不确定性外,有些赛马买家好像钱多得没处花一样,留给我们的就是一个效率超低的市场。10年前,153号两周岁,跑得比任何一匹马都快,在大多数代理人眼里,它十分漂亮,而且有一个非常好的血统——它是有史以来最好的两匹赛马“北方舞蹈家”(Northern Dancer)和“秘书处”(Secretariat)的后裔。一位爱尔兰亿万富翁和一位迪拜酋长都想买下这匹马。双方陷入一场竞标战,而后很快就演变成一场脸面之战。由于数百名惊愕的赛马界人士在一旁观战,双方给出的标价越来越高,最后这匹两周岁马的售价高达1 600万美元,这是迄今为止最高的竞马价格。153号被命名为“绿色猴子”(The Green Monkey),后来只跑了三场比赛,挣了1万美元,就退役了。[17]

塞德对传统的相马方式毫无兴趣,他只对数据感兴趣。他计划要测量赛马的各种属性,看看其中哪些与它们的表现相关。值得注意的是,塞德在万维网面世5年之前就制订了他的计划,但他的策略在很大程度上是基于数据科学的。他的经验对任何使用大数据的人而言都十分受用。

多年来,塞德的追求给他本人带来的只有挫败感。他曾经测量过马的鼻孔大小,构建了世界上第一个(也是最大的)赛马鼻孔大小及其最终收益的数据集,结果发现鼻孔的大小并不能预测赛马能否成功。他曾经给马做心电图,检查它们的心脏;他曾经砍下死马的四肢,测量它们快速抽动的肌肉体积;他曾经在谷仓外面握着一把铁锹测定马粪的大小;他也曾经坚持认为在比赛前减掉过多的体重,赛马的速度会变慢。然而,所有这些与赛马的成功并无半点关系。

后来,在12年前,他取得了第一次重大突破。彼时塞德决定测量马匹内脏的大小。凭借当时的技术根本不可能完成这项工作,于是他自己组装了一部便携式超声波仪器。结果令人振奋。他发现,心脏的大小,尤其是左心室的大小,是赛马成功的重要预测指标,也是最重要的变量。另一个重要的器官是脾脏:脾小的马几乎一分钱都赚不了。

塞德还有更多的发现。他将数千段赛马比赛的视频资料数字化,发现某些步法确实与比赛成功相关。他还发现,一些两周岁马在开跑0.125英里(约200米)后会发出呼哧呼哧的喘息声。这样的马有时会卖到100万美元,但是塞德的数据告诉他,这样的马是不会赢得比赛的。于是他派了一名助理坐在终点线附近,排除掉那些开跑不久就喘息的马。

在奥卡拉拍卖会上,1 000匹马中大概只有10匹能通过塞德的所有测试。他完全忽略血统,除非血统会影响马匹的售价。“血统告诉我们,一匹马可能有那么一丝机会是一匹好马,”他说,“但是如果我能看出它是一匹好马,又何必在意它的出身呢?”

一天晚上,在奥卡拉,塞德邀请我到他入住的希尔顿酒店房间去。在房间里,他向我讲述了他的童年、家庭和事业,给我看了他妻子、女儿和儿子的照片。他告诉我在费城念中学时,他是学校里仅有的三个犹太学生之一。他入学的时候身高4英尺10英寸(约146厘米)(念大学时长到了5英尺9英寸)。他告诉我他最喜欢的马叫宾奇·皮兹万斯基。塞德买下了这匹马,并以一名同性恋骑手的名字为它命名。他觉得即使宾奇不是最成功的马,也一定是每场比赛都全力以赴的马。

最后,塞德向我展示了一份文件,其中包含他当年记录的85号的所有数据,这份文件成就了他职业生涯中最成功的预测。他这是在透露自己的秘密吗?或许是吧,但他说他不在乎。对他来说,与保守自己的秘密相比,证明自己是正确的才更重要。他想向全世界证明,这20年来,为了了解马,砍马腿、铲马粪、装配超声波仪器等都是值得的。

表3–1是85号的一些数据。

表3–1 一周岁马85号(后称“美国法老王”)的百分位数

很显然,这就是塞德和他的团队对85号如此痴迷的原因,它的左心室大小的百分位数竟然有99.61!

不仅如此,这匹赛马的其他所有重要器官,包括心脏和脾脏在内,也都大得异乎寻常。塞德发现,一般来说,赛马的左心室越大,在比赛中成绩就越好,但是,如果左心室如此之大,其他器官却很小,则可能是患有疾病的征兆。美国法老王所有关键器官的大小都高于平均水平,左心室更是超大。数据表示,85号是十万里挑一甚至百万里挑一的好马!

数据科学家可以从塞德的项目中学到什么呢?

首先,或许也是最重要的一点,如果你想尝试使用新的数据来革新一个领域,那么最好是进入一个旧方法不见效的领域。被塞德击败的那些沉迷于血统的赛马代理人为该领域留下了很大的改进空间。被谷歌打败的那些痴迷于数据的搜索引擎也为该领域留下了进步空间。

谷歌试图用搜索数据预测流感的做法有一个弱点,即只要使用上周的数据和简单的季节性调整,就已经能够非常准确地预测流感了,而目前人们对应该添加多少搜索数据到这个简单又强大的模型中仍然争论不休。[18]在我看来,谷歌搜索在测量健康状况的领域取得突破的可能性更大,因为该领域现有的数据较少,长远来看,类似谷歌性病(Google STD)这样的内容或许比谷歌流感更有价值。

其次,试图做预测时,不必太担心模型的工作原理。塞德无法向我透彻地解释为什么左心室大小对预测马匹成功如此重要,也无法准确地说明脾脏的价值。也许有一天,马心脏病学家和血液学家将会解开这些谜团,但现在这个问题无关紧要。塞德在做的是预测工作,而不是解释工作。在预测工作中,你只需要知道什么东西有用,无须知道为什么。

例如,沃尔玛通过其所有店铺的销售数据了解什么产品应该上架。2004年,在飓风“弗朗西斯”袭击美国东南部之前,沃尔玛准确地猜测到,当飓风即将来临时,人们的购物习惯可能会改变。他们通过分析以前飓风来袭时的销售数据了解人们可能想要购买什么。答案是什么?草莓馅饼。[19]在飓风前几天,这种产品的销售速度比正常情况下快7倍。

根据他们的分析,沃尔玛满载草莓馅饼的卡车在95号州际公路上驶向飓风途经的地区。事实证明,这些馅饼确实卖得不错。

为什么是馅饼?可能是因为它们不需要重新冷藏或烹饪吧。为什么是草莓味?没有头绪,但是当飓风袭来时,显然人们会购买草莓馅饼。所以,在飓风来临的前几天,沃尔玛会照例在货架上摆上一盒又一盒的草莓馅饼。这种联系的原因并不重要,重要的是联系本身。也许有一天,食品科学家会弄清楚飓风和以草莓酱为馅料的糕点之间的关系,但是,在等待解释的期间,沃尔玛仍然需要在飓风来临前在货架上摆上草莓馅饼,并为晴好的天气储存脆米棒。

普林斯顿大学经济学家奥利·阿申费尔特(Orley Ashenfelter)的故事也明确阐释了同样的道理。塞德之于马,好比阿申费尔特之于红酒。

十多年前,阿申费尔特十分沮丧。此前他一直从法国波尔多地区购买大量红葡萄酒。有时候这种酒味道很棒,配得上它的高价,但更多的时候不尽如人意。

阿申费尔特想知道,为什么他花同样的价钱买来的酒,味道却相去甚远?

有一天,一位记者朋友,同时也是一名葡萄酒鉴赏家告诉阿申费尔特一个小诀窍,确实有一种方法可以确定一瓶酒的好坏。这位朋友告诉他,关键要看酿酒所用的葡萄生长季节的天气。

阿申费尔特对此产生了浓厚的兴趣。他试图弄清楚这一说法是否属实,这样一来他便可以每次都买到好葡萄酒了。他下载了波尔多地区30年来的天气数据,还收集了葡萄酒的拍卖价格。在葡萄酒初售多年后的拍卖会上,拍卖行会告诉你这瓶葡萄酒的来龙去脉。

结果十分惊人。葡萄酒的质量好坏在很大程度上可以简单地通过葡萄生长季节的天气解释。

事实上,葡萄酒的质量可以分解为一个简单的公式,我们可以称之为葡萄栽培第一定律:

价格=12.145 + 0.001 17×冬季降水量+ 0.061 4×平均生长季节气温– 0.003 86×收获季节降水量

那么,为什么波尔多地区的葡萄酒质量是这样的情况呢?葡萄栽培第一定律的原理是什么呢?阿申费尔特对葡萄酒公式做过一些解释——热量和早期的灌溉是葡萄正常成熟的必要条件。

他的这一预测公式的确切细节远远超出了所有理论的范畴,即使是这一领域的专家也不可能完全理解。

为什么1厘米的冬季降水量平均可以为一瓶成品红葡萄酒增加0.1美分的价格呢?为什么不是0.2美分?为什么不是0.05美分?没有人可以回答这些问题,但如果这里的冬天有额外的1 000厘米降雨,你应该愿意为一瓶葡萄酒多付1美元。

的确,尽管阿申费尔特不知道为什么他的回归运算会那样运行,但可以用它来购买葡萄酒。据他说这个公式“非常好用”[20],他喝的葡萄酒质量得到了明显的提高。

如果你的目标是预测未来(什么样的葡萄酒好喝,什么样的产品会大卖,什么样的马跑得快),不必太担心你的模型为什么会那样运行,只要得到的数字是正确的就可以了。这是杰夫·塞德那个关于马的故事的第二个启示。

从塞德成功预测潜在的三冠王的经验中得到的最后一个启示是,在确定什么是数据时,你必须抱有开放而又灵活的心态。在塞德之前,传统的赛马代理人并非不知道数据。他们也会仔细检查比赛次数和血统图表。塞德的天才之处在于,他会寻找他人从未关注过的数据,还会考量非传统的数据来源。对一位数据科学家来说,一个全新的独特视角是一定会带来回报的。

文字数据

2004年的一天,两位有着媒体专业背景的年轻经济学家(时为哈佛大学在读博士生)正在阅读马萨诸塞州新近关于同性婚姻合法化的一项法庭判决。

马特·根茨科(Matt Gentzkow)和杰西·夏皮罗(Jesse Shapiro)这两位经济学家注意到一件有趣的事:两家报纸采用完全不同的措辞来报道同一新闻事件。以保守著称的《华盛顿时报》(Washington Times)给新闻报道加了这样的标题:同性恋者在马萨诸塞州“结婚”。著名的自由派报纸《华盛顿邮报》(Washington Post)则报道称“同性伴侣”大获全胜。

不同的新闻机构会偏向不同的方向,不同的报纸在报道同一新闻时也会有不同的侧重点,这都不足为奇。事实上,多年来根茨科和夏皮罗都在思考他们能否运用自己的经济学知识来帮助自己理解媒体偏好。为什么有些新闻机构采取一种更加自由的观点,而其他新闻机构却采取一种更加保守的观点呢?

这两位确实不知道该如何解决这个问题,他们不知道如何才能系统而客观地衡量媒体的主观性。

关于同性婚姻的报道,让根茨科和夏皮罗觉得有趣的不是新闻机构对其报道的不同,而是如何不同——其原因可归结为选词的巨大差异。2004年,《华盛顿时报》使用了“同性恋者”一词,还带着轻蔑老套的口吻用它来描述同性恋者;而《华盛顿邮报》使用的则是“同性伴侣”一词,强调同性爱情只是爱情的另一种形式。

两位学者想知道语言到底是不是理解偏好的关键点。自由派和保守派一直都使用不同的短语吗?报纸文章使用的词语能转换成数据吗?这能揭示美国报纸的什么内情?我们能推断出一家报纸是自由派还是保守派吗?我们能找到其中的原因吗?2004年,这些并非悬而未决的问题。美国报纸上数十亿的单词早已不用再囿于新闻报纸和缩微胶卷的形式。某些网站现在能记录美国几乎每家报纸的每个报道里的每个单词。根茨科和夏皮罗可以把这些网站研究透彻,从而快速测试出文风能够衡量报纸偏好的程度。而且,这项工作也可以帮助他们加深人们对新媒体运作方式的理解。

在论述他们的发现之前,让我们暂且放下根茨科和夏皮罗的故事,放下他们想要量化报纸文风的目的,先来谈谈各领域的学者如何使用这种新型数据(文字)来更好地了解人性。

当然,语言一直都是社会科学家感兴趣的话题。然而,过去研究语言通常需要精读文本,将大量文本转化成数据在那时是行不通的。现在,有了电脑和数字化技术,从大量文件中列出词语成了一件容易的事,语言也因此成了大数据分析的目标。谷歌网站使用的链接由文字组成,我研究的谷歌搜索也是如此。文字在本书中常常起到重要的作用,但是语言对大数据革命极其重要,它值得拥有属于自己的一席之地。事实上,现在语言使用得太多了,因而有了“文本数据”这一专门研究领域。

这一领域的一项重大进步就是词频统计器谷歌Ngrams的出现。几年前,埃雷兹·艾登(Erez Aiden)和让–巴蒂斯特·米歇尔(Jean-Baptiste Michel)这两位年轻的生物学家为了探索关于某些词语用法的传播途径,吩咐他们的研究助手在多篇布满灰尘的古老文本里逐个数单词。一天,艾登和米歇尔听说谷歌公司有一个新项目,要将世界上大部分的书籍数字化,这两位生物学家不约而同地立即断定,文字数字化将成为了解语言历史的更加简单的途径。

艾登告诉《探索》(Discover)杂志:“我们意识到自己的研究方法过于陈旧。很显然,我们无法与数据化这一强大的力量抗衡。”因此,他们决定与谷歌公司合作。有了谷歌搜索引擎的帮助,他们创建了一项服务,可以在数以万计的数字化书籍中搜索特定词语或短语。这项服务会告诉研究人员某个词语或短语在1800—2010年中每一年出现的频率。

那么,从词语或短语在不同年份出现在书中的频率,我们能了解到什么呢?我们可以了解到香肠的受欢迎程度在缓慢提升,而比萨的受欢迎程度在最近几年出现了快速增长(见图3–1)。

图3–1 香肠和比萨在1800—2010年的受欢迎程度

除此之外,通过搜索,我们还可以获得很多重要得多的信息,例如,谷歌Ngrams可以告诉我们民族认同感是如何形成的。艾登和米歇尔的力作《可视化未来》(Uncharted)为我们提供了一个有趣的例子。

先问一个简短的问题:你认为现在的美国是一个统一的国家还是一个分裂的国家?如果像大多数人一样,你就会因高度的政治极化现象而说现在的美国是一个分裂的国家,你甚至可能会说美国这个国家从古至今一直是分裂的。毕竟这个国家现在被打上了有色标码:红色州拥护共和党,蓝色州支持民主党。在《可视化未来》一书中,艾登和米歇尔发现了一个有趣的数据点,揭示了美国历史上的分裂状况有多么严重。这个数据点就是人们谈论国家时所用的语言。

请注意我在前段文字中说到美国分裂状况时使用的词语。我曾写过这么一句话:“现在的美国是一个分裂的国家。”我把“美国”视作“一个”国家,这是理所当然的,因为这既符合语法又符合使用标准。我确信你之前肯定没注意到这一点。

然而,美国人并非一直这样说。建国初期,当时的美国人是用“美利坚合众国”(United States)一词来表达“合众国”这一复数概念的。例如,约翰·亚当斯(John Adams)在1799年的《国情咨文》演讲中就曾提到“美利坚合众国与英国陛下签订的诸项条约”。如果本书写于1800年,我可能会说:“现在的美国是分裂的国家。”这一语言使用上的细微差别对历史学家来说一直都具有极强的吸引力,因为这表明曾经有那么一刻美国不再将自己视为各州的集合体,而是开始作为一个国家出现。

那么,这是什么时候发生的事呢?《可视化未来》一书告诉我们,历史学家也不确定是什么时候,因为没有系统的方法能够测试这一时间点,但是很多人一直猜测转变的原因是美国内战,即南北战争。事实上,美国历史学会前主席、普利策奖得主詹姆斯·麦克弗森(James McPherson)曾直言不讳地说:“南北战争见证了美国从各州集合体到单一国家的转变。”

但事实证明麦克弗森错了。谷歌Ngrams向艾登和米歇尔提供了一种系统的方法来检验这一点。他们可以查看美国书籍在历史上每一年“美利坚合众国”(The United States are...)与“美国”(The United States is...)使用频率的对比。在南北战争之前,两种说法的转换相对平缓;在南北战争完全结束后,这种转换才开始急速加快(见图3–2)。

图3–2 “美利坚合众国”与“美国”在美国书籍中的使用频率

南北战争结束15年后,“美利坚合众国”的使用量仍然要比“美国”多,这也表明当时美国在语言方面仍然是分裂的,因为军事胜利要比思想转变发生得更快。

一个国家的统一就先说到这儿。那么,男性和女性如何统一呢?关于这一点,文字也能发挥作用。

例如,通过男性和女性首次约会时说话的方式,我们就能预测他们会不会还有第二次约会。

这项研究是由斯坦福大学和西北大学跨专业团队的科学家发起的,他们分别是丹尼尔·麦克法兰(Daniel McFarland)、丹·朱夫斯凯(Dan Jurafsky)和克雷格·罗林斯(Craig Rawlings)。他们研究了数百位异性速配约会者,并试图查明什么因素可以预测男女双方对彼此有感觉并想有第二次约会。[21]

首先,他们使用了传统数据,询问了约会者双方的身高、体重和爱好,并且测试了这些因素是如何与同某人擦出浪漫火花联系起来的。一般来说,女性更喜欢高大并且愿意分享爱好的男性,男性则更喜欢苗条并且愿意分享爱好的女性。这没什么新鲜的。

其次,科学家也搜集了一种新型数据。他们让约会者随身带上录音机,随后对约会的录音做了数字化处理,这样就能够记录男女双方使用的词汇、笑声和说话的语气了。他们据此可以测试男女双方如何表示对对方有感觉,也可以测试约会双方是如何赢得对方好感的。

那么,这些语言数据告诉了我们什么呢?它们告诉我们男性(女性)如何表达自己对女性(男性)的好感。男性有一种表现方式非常明显:他会对女性讲的笑话做出相应的回馈。另一种方式则隐晦一些:说话时,他会把声音大小控制在一定范围内。一项研究表明,女性常会把男性单调的声音视为阳刚之气,这也暗示如果男性对一名女性感兴趣,他们可能会下意识地夸大自身的阳刚之气。

科学家发现女性会通过改变声音大小、讲话更加温柔和采取更简短的轮流谈话表达自己对男性的兴趣。同样,基于女性使用的特定词汇,我们也有可以展现女性兴趣的线索。当女人使用诸如“大概”或“我猜”这类模棱两可的表达时,就表明她们不大可能喜欢正在约会的男人。

男同胞们,如果一名女性就某个话题不做正面回答(如果她“有几分”喜欢她的饮料或“有点儿”冷或“可能”想另点开胃菜),你就可以肯定她“有几分”“有点儿”“可能”不喜欢你了。

当女人谈论她自己时,她才有可能对你感兴趣。结果表明,对一个想找女朋友的男人来说,从一个女人口中能听到的最漂亮的词就是“我”了,因为这是她感到舒服的一个标志。如果一个女人使用具有凸显自我性质的表达时,比如“你知道吗”和“我的意思是”这样的说法,就说明她可能喜欢正与她约会的男人。为什么呢?因为科学家发现这些表达能够吸引听者的注意,这些字眼友好、温暖,而且说明一个人正希望与对方产生联系,你懂我的意思,对吗?

那么,男女双方又该如何交流才能让约会对象对自己感兴趣呢?数据告诉我们,男性可以采用多种说话方式来增加女性喜欢自己的概率。女性喜欢听从她们意见的男性。可以想见,如果一名男性能对一名女性讲的笑话做出相应的反应,并且没有把话题转到自己想聊的事上,而是一直谈论她发起的话题,那么这名女性就很有可能对男方产生好感。(我正在研究的一个理论是:大数据证实了已故的伦纳德·科恩(Leonard Cohen)所说的一切。例如,伦纳德·科恩曾为他的侄子追求女性提出如下建议:“仔细听女人说话,然后继续听下去。当你觉得自己快听不下去的时候,再忍着听一会儿。”[22]这个建议似乎和科学家的发现大致相似。——作者注)女性也喜欢表达支持和有同情心的男性。如果一名男性说“那太棒了”或“那简直太酷了”,那么他更有可能获得女性的青睐。同样,如果他使用“那肯定很难”或“你一定很伤心”这样的表达,也会有相同的效果。

对女性来说,这里会有一些不好的消息,因为数据好像证实了有关男性的一个令人不快的事实。在男性如何回应女性方面,对话发挥的作用非常小,女性的外貌才是预测男性是否会对其产生好感的最重要因素。即使是这样,仍然有一个词,女性可以用来略微增加男人喜欢她的概率,而这个词我们早已讨论过了,它就是“我”。男人更可能喜欢总是谈及自己的女人。正如前文所述,如果女性在一次约会中多次谈及自己,这说明她也对约会的男性有好感。因此,如果首次约会时男女双方谈了很多关于女方的事,那肯定是一个超棒的征兆。女性传递出感到舒适的信号,并且可能会对这位男性没有独占整个对话表示欣赏,而男性则喜欢不拘谨的女性。如此一来,第二次约会就八九不离十了。

最后,约会记录透露了一个约会的大忌:问号。如果约会中有人不断提问,那么男女双方都不太可能对对方产生好感。这似乎是有违直觉的,你或许认为提问就代表着感兴趣,但在第一次约会时不是这样的。第一次约会时,大多数问题都是因为无话可说。“你有哪些爱好啊?”“你有几个兄弟姐妹?”这些问题是对话停滞时人们才会说的话。完美的初次约会可能在行将结束时有一个简单的提问:“你愿意再次和我约会吗?”如果这是约会中唯一的提问,那么答案很可能就是“我愿意”。

男性和女性不仅在追求异性时说话方式不同,而且他们的说话方式总体来看就是不同的。

一个心理学家团队分析了脸谱网帖子中使用的数十万个单词,检测了男女双方对于每个单词的使用频率。[23]由此他们就可以断定,在英语语言中哪些是最男性化的单词,哪些又是最女性化的单词。

唉!这些用词偏好其实很多时候是很明显的。例如,与男性相比,女性谈论“购物”和“我的发型”的频率更高,男性说起“足球”和“游戏机”的频率则要比女性更高。也许根本就不需要一个研究大数据的心理学家团队来告诉你这些。

然而,有些发现更有趣。可能因为男性不善于未雨绸缪,所以女性比男性更常使用“明天”一词。为单词“so”添加字母“o”是最具女性化的语言特点之一。女人使用的最不符合语法习惯的单词有“soo”“sooo”“soooo”“sooooo”“soooooo”。

可能是因为儿时总和时不时就爆粗口的女性待在一起,所以我总觉得说脏话的概率在性别上是平衡的,可事实却并非如此。男性比女性使用更频繁的词是“狗屁”“放屁”“他妈的”“王八蛋”等。

我喜欢这个研究的原因是,新数据告知我们早就存在但我们不一定知道的模式。男性和女性的说话方式一直都不同,但是数万年来,一旦某个声波在时空中消逝,它的数据便会消失。现在,这一数据不仅可以保存在电脑中,而且可以被用来进行分析处理。

考虑到我本人的性别,我或许会说:“过去,文字常他妈的玩消失,如果真他妈的有人在意的话,现在我们可以不看球赛、不玩游戏,而是去学这个破玩意儿。就这么回事,如果有哪个蠢货这么他妈在意的话!”

说话方式不同不仅仅限于男性和女性之间。随着年龄的增长,人们也会使用和以前不一样的词汇。这甚至可以为我们提供一些人类衰老过程的线索。年少时爱喝酒,20多岁时忙工作,而立之年以后开始祈祷。

有一个强大的文本分析新手段好像叫情绪分析。如今科学家可以判断一个特定文本的篇章有多么开心或多么失落。

如何判断呢?许多科学家团队都曾邀请很多人对英语语言中数以万计的积极或消极的词语进行编码。根据这一方法,最积极的词语有快乐、爱和棒极了,而最消极的词语则有伤心、死亡和沮丧。如此一来,他们就建立了一大套情绪词汇的索引。

运用这一索引,他们就能测量一段文本篇章中词汇的大致情绪。如果有人写道,“我很快乐,也有人爱,因此感觉很棒”,情绪分析就会将这一句话按极快乐文本编码;如果有人写道,“一想到世上有人死亡,有人沮丧,我就很伤心”,情绪分析则会将其按极伤感文本编码。其余文本篇章的情绪则在这两者之间。

所以,为文本情绪编码时你能了解到什么?脸谱网的数据科学家已经透露了一个激动人心的可能性——他们可以评估一个国家每天的国民幸福指数!如果人们的状态信息趋于积极,那么我们就认为这个国家在这一天是快乐的;如果人们的状态信息趋于消极,那么我们就认为这个国家在这一天是不快乐的。

在脸谱网数据科学家的发现中有这么一项:圣诞节是一年中最快乐的日子之一。现在,我对这项研究心存怀疑,而且对整个项目都持怀疑态度。一般而言,我认为很多人在圣诞节会偷偷伤心,因为他们很孤单,或者与家人发生争执。更多的时候,我不相信脸谱网的状态更新,原因我会在下一章中具体描述——也就是说,我们在社交媒体上呈现的生活通常是一派谎言。

如果你在圣诞节孤身一人,感到难受,你真的想要通过发帖说自己有多不开心,打搅你所有的朋友吗?我猜很多人圣诞节都过得不开心,但他们依然会在脸谱网上发帖称自己非常感激这“奇妙、精彩、神奇、快乐”的生活,然后他们就被贴上了大幅提高美国国民幸福指数的标签。如果真想要了解国民幸福指数,我们应该更多地使用脸谱网状态更新以外的资源。

尽管如此,但总体而言,圣诞节是一个快乐的日子这一发现,似乎也有一定的道理。谷歌的搜索和盖洛普民意调查都告诉我们,圣诞节是一年中最快乐的日子之一。与城市神话相反,自杀率会在节日期间下降。即使有些人在圣诞节无人相伴,十分伤心,也有更多的人是快乐的。

如今,当人们坐下来阅读时,大多数时间都在浏览脸谱网上的状态更新,但是就在不久以前,人们还会阅读故事,有时候还会沉浸书海。对于这一点,情绪分析也会教给我们很多。

由加州大学伯克利分校信息学院的安迪·里根(Andy Reagan)领导的一个科学家团队,下载了数千个书籍和电影字幕文本。[24]他们随后为每个故事编码,确定这些故事是开心还是悲伤的。

以《哈利·波特与死亡圣器》(Harry Potter and the Deathly Hallows)为例。在里根领导的科学家团队看来,图3–3是随主要情节变化而变化的故事情绪。

图3–3 《哈利·波特与死亡圣器》中的故事情绪

注:由@HEDONOMETER团队和@ANDYREAGAN提供可视化分析,STRAY-CATS-@HOTMAIL.COM网站的基尔希负责插图。

请注意,情绪分析检测的许多情绪起伏是与主要事件相对应的。

大多数故事的结构都很简单。以莎士比亚的悲剧《约翰王》(King John)为例,在这出戏剧中,没什么好事发生。英国国王约翰被迫宣布退位。他因不服从教皇而被逐出教会。紧接着就爆发了战争。他的侄子死了,很可能死于自杀。其他人也死了。最终,约翰国王被一个早已心存不满的僧侣毒害而死。

图3– 4是随剧情发展而作的情绪分析图。

换句话说,仅仅依靠文字,电脑就可以检测事情逐渐恶化到最严重程度的过程。

图3–4 《约翰王》的剧情发展情绪分析图

或者以电影《127小时》(127 Hours)为例。以下是这部电影的基本情节:

一位登山爱好者到美国犹他州峡谷地国家公园徒步旅行。一开始还有其他旅行者做伴,但后来他就与他们分开了。突然间他失足滑倒,撞到了一块巨石,巨石压住了他的右手和手腕。他尝试了各种方法来挣脱巨石,但都失败了。他越来越沮丧。最终,他砍断手臂,成功逃了出来。后来,他结了婚,组建了家庭,但仍旧喜欢登山,尽管他现在每次离家去登山时都要留下一张便条。

图3–5是随电影情节推进而作的情绪分析图,制作者依然是里根团队的科学家。

图3–5 《127小时》情节推进情绪分析图

那么,我们从数千个此类故事的情绪变化中了解到了什么呢?

电脑科学家发现,相当多的故事都符合以下6种相对简单的结构中的一种。借用里根团队的一幅图来看,这些结构如下:

由穷变富(情绪上升)

由富变穷(情绪下降)

陷入绝境,然后成长(情绪先下降,后上升)

伊卡洛斯式(情绪先上升,后下降)

辛德瑞拉式(情绪先上升,后下降,再上升)

俄狄浦斯式(情绪先下降,后上升,再下降)

可能还有一些细微之处与这个简单的总结不符。例如,尽管在情绪低落过程中情绪会暂时上升,《127小时》依旧属于陷入绝境,然后成长的故事。大多数故事的整体结构符合六大类别之一,但《哈利·波特与死亡圣器》是个例外。

我们还能回答很多其他问题。例如,故事结构如何随时间的推移发展变化?故事会随时间的推移变得越来越复杂吗?在他们所讲的各种类型的故事中,文化会有所不同吗?人们最喜欢什么类型的故事?不同的故事结构会同时吸引男性和女性吗?会同时吸引不同国家的人吗?

最终,文本数据可能会提供我们一些前所未有的看法,帮助我们了解观众的真正需求,而这些需求与作者或高管认为的观众需求有所不同。已经有线索指向了这一方向。

我们来看看沃顿商学院的乔纳·伯杰(Jonah Berger)教授和凯瑟琳·L.米尔科曼(Katherine L. Milkman)教授的研究,他们的研究主题是人们会分享什么类型的新闻报道。[25]他们测试过到底是正面报道还是负面报道更有可能登上《纽约时报》邮件分享频度最高的名单。他们下载了近三个月以来《纽约时报》上刊登的所有文章。运用情绪分析方法,两位教授将这些文章的情绪进行了编码。正面报道的例子包括“满眼新奇的新来者爱上了这座城市”和“慈善托尼奖”。诸如“韩星自杀:网络谣言之过”和“德国:幼年北极熊饲养员之死”这类报道毫无疑问就是负面的。

两位教授也有报道排版位置的信息。是在主页吗?在右上角?左上角?他们也有故事刊登时间的信息。上周二晚上?周一早上?

他们可以比较两篇报道(一篇是正面的,另一篇是负面的)在相似的时间段刊登在《纽约时报》相似的位置,看哪篇更有可能被分享。

那么,哪篇会被分享呢?正面的还是负面的?

答案是正面的报道。正如作者总结的那样:“故事越积极向上,文本内容就越有可能得到传播。”

我们注意到,这似乎与新闻界习以为常的至理名言(人们会被暴力和灾难性的报道吸引)截然相反。新闻媒体可能确实向我们展示了很多负面的新闻报道。编辑室里有句俗话是这么说的:“只要新闻见红,报道就能走红。”然而,沃顿商学院这两位教授的研究表明,人们真正想要的可能是更多的正面报道。于是可能会产生一句新俗话——“只要新闻正能量,报道分享就看好”,尽管这句真的不那么上口。

关于伤心和快乐的文本就先说这么多。来看另一个问题,如何分辨哪些词汇是自由党偏向,哪些是保守党偏向呢?这一偏向又向我们展现了现代新媒体的哪些方面呢?这个问题有点儿复杂,也把我们的思绪拽回到根茨科和夏皮罗的研究上。还记得吗,他们就是前文提到的那两位发现同性婚姻在不同报纸上描述不同的经济学家,他们很想知道能否使用语言揭露政治偏好。

这两位雄心勃勃的年轻学者做的第一件事就是审查《美国国会议事录》(Congressional Record)。因为《美国国会议事录》早已实现了数字化,所以他们可以下载2015年每一位民主党国会议员和每一位共和党国会议员使用的每一个单词。这样他们就能查看某些短语更有可能由民主党人使用还是由共和党人使用。

有些短语确实是这样的。表3–2中列举的是几个例子。

表3–2 民主党人和共和党人的用词偏好

这些语言差异存在的原因是什么?

有时民主党人和共和党人会使用不同的短语描述同一概念。2005年,共和党人试图削减联邦遗产税,他们倾向于将遗产税描述为“死亡税”(听起来就像对刚刚过世的人强制征税),民主党人则将其描述为“地产税”(听起来像在对富人收税)。无独有偶,共和党人试图将社会保障金转移到个人退休金账户里,对他们而言,这是一次“改革”;然而,对民主党人而言,这更像一次耸人听闻的“私有化行为”。

有时语言上的差异只是反映了强调重点的不同。共和党人和民主党人可能都对民权运动英雄罗莎·帕克斯极为敬重,但是民主党人提到她的频度要比共和党人高。同样,民主党人和共和党人可能都认为伊拉克前领导人萨达姆·侯赛因是一个罪恶的独裁者,但为了证明伊拉克战争是正当合法的,共和党人便反复提及这位伊拉克前领导人。同理,“劳工权”和关心“贫民”是民主党人的核心原则,“私有财产权”和削减“政府开支”则是共和党人的核心原则。

这些语言使用频度的差异也是非常明显的。例如,2005年共和党国会议员使用“死亡税”一词365次,而使用“地产税”一词仅仅46次。对民主党国会议员来说,正好相反。他们使用“死亡税”一词仅仅35次,但对“地产税”一词的使用则达到了195次。

许多学者意识到,如果这些词汇能告诉我们一位国会议员是民主党人还是共和党人,那它们也能告诉我们一家报纸是激进的还是保守的。正如共和党国会议员更有可能使用“死亡税”这一说法来劝服人们抵制这一用法一样,保守派的报纸可能也会做同样的事。相对自由的《华盛顿邮报》使用“地产税”的频率比“死亡税”高13.7倍,但是保守的《华盛顿时报》对这两种表达的使用次数几乎是一样的。

多亏了互联网带来的奇迹,根茨科和夏皮罗才能对全美多家报纸使用的语言进行分析。这两位学者使用的是newslibrary.com和proquest.com两家网站,这两家网站共同对433家报纸进行了数字化处理。他们随后计算了1 000个这类带有政治色彩的短语在报纸上的使用频率,以测试报纸的政治倾向。通过这种方法,他们测试出最自由的报纸是《费城每日新闻》(Philadelphia Daily News),而最保守的则是《比林斯(蒙大拿州)公报》[Billings(Montana)Gazette]。

对众多媒体的偏好有了第一次全面衡量之后,你就能回答那个也许算作新闻界最重要的问题了:为什么有些出版物偏激进,而其他的却偏保守呢?[26]

两位经济学家很快就找到了一个关键因素:特定地区的政治倾向。如果一个地区总体上是自由开放的,比如费城和底特律,那么当地的主流报纸就会倾向于自由。如果一个地区更偏向保守,如比林斯和得克萨斯州的阿马里洛,那么当地的主流报纸则会倾向于保守。换句话说,这一证据明确表明了各家报纸都倾向于“想读者所想”。

你或许以为报纸的所有者会对其新闻报道的倾向施加影响,但是一般来说,一家报纸的所有者对其新闻报道的政治偏好的影响比我们想象的要小。各位请注意,当同一个人或同一家公司在不同的市场都拥有报纸时会发生什么事呢?以纽约时报公司为例。在大约70%的人口都支持民主党的纽约市,这家公司拥有根茨科和夏皮罗验证为自由派的《纽约时报》。在大约70%的人口都支持共和党的南卡罗来纳州斯帕坦堡,这家公司旗下的《斯帕坦堡先锋报》(Spartanburg Herald-Journal)则偏向保守。当然,也有例外情况:鲁珀特·默多克(Rupert Murdoch)的新闻集团拥有的就是人人都认为很保守的《纽约邮报》(New York Post)[27]。总体而言,有发现表明市场对报纸倾向的决定作用要比报纸所有者大得多。

这项研究深刻影响了人们对新闻媒体的看法。很多人(尤其是马克思主义者)都认为美国新闻业由富人或致力于影响大众的企业控制着,以此让大众接纳他们的政治观点。然而,根茨科和夏皮罗的研究表明,这并不是报纸所有者的主要动机。相反,美国报纸的所有者主要是为大众提供他们想要的报道,如此他本人就可以越来越富有了。

哦,还有一个问题——一个很大的、颇具争议的,甚至是更具煽动性的问题。平均而言,美国的新闻媒体偏左还是偏右?整个媒体业平均而言是偏自由还是偏保守?

根茨科和夏皮罗发现各家报纸整体偏左。一般的报纸在词汇的使用上更接近民主党国会议员而不是共和党国会议员的风格。

保守派的读者可能会说:“看,我早就和你说过了!”很多保守人士很久以来一直都在怀疑许多报纸已经有了偏好,目的就是操纵大众支持左翼的观点。

但作者们不这么认为。事实上,自由主义的偏向目前很好地适应了报纸读者的需求。平均而言,报纸的读者有点儿左倾(这一点他们有数据为证)。因此,报纸一般会稍微左倾,为读者提供他们需要的观点。

这里没有阴谋,有的只是资本主义。

根茨科和夏皮罗的研究结果显示,新闻媒体和世界上所有其他行业的运作方式如出一辙。超市总会搞清楚人们喜欢什么口味的冰激凌,然后将这样的冰激凌摆满货架;同理,新闻媒体也会获悉人们想看到哪些观点,然后将这些观点融入报纸的每条新闻中。夏皮罗告诉我:“这就是生意。”[28]将新闻、分析、观点这类复杂的事物细分和量化为基本的组成部分——词之后,你就会明白这个道理。

图片数据

长久以来,学术界人士或商界人士想要获取数据时,会进行调查,那些数据清一色来源于问卷调查中的数字或选项。而今的情势已然不同,那个规整的、清晰的、简单的、基于调查的数据时代已经结束了。在这个新时代,我们生活中留下的杂乱痕迹已经变成了数据的主要来源。

我们已经了解到文字是数据,点击量是数据,链接是数据,错别字是数据,梦中的香蕉是数据,人的语气是数据,喘息声是数据,心跳是数据,脾脏大小是数据。我认为,搜索是最具启发性的数据。

事实证明,图片也是数据。

文字曾经局限于那些摆放在落满尘埃的书架上的书籍和刊物中,而今已经实现了数字化;同样,图片也已经从相册和纸箱中解放出来,转换成数位,存入云端。文本可以给我们上历史课,例如向我们展示人们说话方式的变化;同样,图片也能给我们上历史课,例如向我们展示人们拍照方式的变化。

以一项具有独创性的研究为例,这项研究是由布朗大学和加州大学伯克利分校的4位电脑科学家组成的团队发起的。他们利用了数字化时代的发展:许多高中已经电子扫描了其历史年鉴,可以在线获取。纵观网络,研究人员发现了949本1905—2013年间美国高中的扫描版年鉴,其中包括数万张毕业生照片。[29]运用电脑软件,他们能够从每10年的所有照片中创造一张大众脸。也就是说,他们能勾勒出人们的鼻子、眼睛、嘴唇和头发的一般位置与形状。图3–6是一个多世纪以来的大众脸,按性别分类。

图3–6 一个多世纪以来的大众脸

注意到什么了吗?美国人(尤其是美国女性)开始微笑了。他们从20世纪初的几乎面无表情到最后满脸笑容。

那么,到底是什么改变了这一状况?美国人因此更加开心了吗?

答案是否定的。其他学者帮忙回答了这一问题。变化的原因,至少对我来说是很吸引人的。当照片刚刚问世时,人们认为它们就像绘画一样。那时,根本没有东西能与之相提并论。因此,照片中的人复制了绘画中的人。[30]因为人们无法为绘画保持微笑长达数小时,所以他们就摆出一副严肃的表情。照片里的人也用了相同的表情。

那最终是什么让她们做出改变的呢?当然是商业、利润和市场。20世纪中叶,柯达,一家美国影像公司,因人们拍摄的照片数量有限而倍感挫败,因此制定了一个策略来鼓励人们拍摄更多照片。不久,柯达公司的广告就将照片与幸福联系在一起,目的就是让人们养成习惯,只要想向其他人展示自己玩得多么开心,就拍张照。所有那些面带笑容的年鉴照片都是柯达公司成功的广告宣传的结果[你在脸谱网或照片墙(Instagram)上看到的大多数照片也是如此]。

照片作为数据,能告诉我们的信息远不止高中毕业生何时开始说“茄子”。意外的是,图像居然能向我们展示经济状况。

以一篇题目很具煽动性的学术论文《从外部空间衡量经济增长》为例。一篇论文有这样一个标题,我一定会读它。这篇论文的作者J.弗农·亨德森(J. Vernon Henderson)、亚当·斯托里加德(Adam Storeygard)和戴维·N.韦尔(David N. Weil)开始筹划这篇论文是因为注意到,在很多发展中国家,衡量GDP(国内生产总值)的现有方法效率不高。这是因为很大一部分经济活动都是暗箱操作的,而衡量经济产出的政府部门没有充足的资源。

几位作者的想法有悖常理吗?他们能够基于这些发展中国家的夜间灯光亮度来协助估算其GDP,而他们的信息则来自一颗每天绕地球14圈的美国军用卫星拍摄的照片。[31]

为什么夜间灯光亮度会成为测量GDP的准确手段呢?在全球那些非常贫穷的地区,付电费是特别吃力的事。因此,当经济状况不好的时候,很多家庭和村庄会大大减少夜间的用电量。

1998年亚洲金融危机发生时,印度尼西亚的夜间用电量急剧下降。在韩国,1992—2008年夜间用电量增长了72%,与此相对应,同时期韩国经济表现非常强劲。在朝鲜,同一时期的夜间用电量则在下降,与此相对应的是当时朝鲜的经济表现十分低迷。

1998年,马达加斯加岛南部发现了很多红宝石和蓝宝石,伊拉卡卡小镇从一个卡车驿站发展成为重要的贸易中心。在1998年之前,伊拉卡卡连一盏灯都没有!在那之后的5年里,伊拉卡卡小镇夜晚的灯光数量发生了爆炸式的增长。

三位作者承认他们夜间灯光的数据远远算不上衡量经济产量最完美的方法。仅仅依靠卫星在夜间检测到的灯光数量,你无法准确了解一个国家的经济状况。他们不建议对发达国家使用这一方法,因为在发达国家,比如美国,现有的经济数据更加准确。而且公正地说,就算在发展中国家,他们也发现夜间灯光这一数据的作用和官方数据差不多,但如果把两者结合起来,就能比单独用其中一种信息进行预估的结果更准确。也就是说,你可以利用从外太空拍摄的照片来提高对发展中国家的认知。

约瑟夫·赖辛格(Joseph Reisinger),一位嗓音温柔的电脑科学博士,与研究夜间灯光的作者一样,对发展中国家经济状况相关的现有数据集颇感失望。赖辛格注意到,在2014年4月,尼日利亚政府将过去可能遗漏的新兴产业考虑在内,更新了对GDP的预估,该预估值比原来高出90%。[32]

“尼日利亚是非洲最大的经济体,”赖辛格说道,声音逐渐大了起来,“可对那个国家,我们对想了解的事情连最基本的方面都没有碰触到!”[33]

他想找到一种方法,能够更加清晰地看到经济表现。他的解决方案为如何重新定义数据的组成和这样做的价值提供了典范。

赖辛格创立了一家名为Premise的公司,聘用了一群来自发展中国家的工人,还给他们配备了智能手机。这些职员需要做什么工作呢?很简单,就是拍一些有趣的,可能会产生经济影响的事物。

这些工人可能会在加油站外面拍照,也可能会给超市里的水果摊位照张相。他们对同一个地方一次又一次地拍照。照片则发回Premise公司,由第二组雇员即电脑科学家将这些照片转换成数据。从加油站的线路长度到超市里的苹果数量及这些苹果的成熟度,再到苹果摊上贴的价格标签,Premise公司所有的分析人员都能将其编码保存。基于对各种活动所拍的照片,公司就可以着手对经济产出和通货膨胀进行合并研究了。在发展中国家,加油站的线路过长在很大程度上说明这个国家的经济发展遇到了麻烦,超市里的苹果数量很少或没有成熟也可以说明这一点。Premise公司那些在中国实地拍摄的照片帮助他们在官方数据发布之前就先发现了中国2011年的食品通货膨胀和2012年的食品通货紧缩状况。

Premise公司把这些信息卖给银行或对冲基金,也与世界银行进行合作。

和许多好点子一样,Premise公司的好点子就是不断给予。世界银行近来对菲律宾地下香烟经济的规模很关注,尤其想知道菲律宾政府最近为打击生产香烟而不纳税的制造商所做的努力(包括随机抽查)是否有效。Premise公司有什么好主意吗?将大街上见到的香烟盒拍下来,看多少香烟盒上贴有印花税标识,因为所有合法的香烟都需要贴印花税标识。他们发现,这一地下经济的规模2015年时还很庞大,而到了2016年便急剧缩小。菲律宾政府做出的努力也起到了作用,尽管要看清很隐蔽的事情(如非法香烟)需要新数据。

正如我们所见,在数据时代,数据的构成因素被普遍重构,在新的信息里我们也有了很多洞见。了解到是什么导致了媒体的偏好,是什么成就了完美的第一次约会,发展中国家的经济状况是怎样的,这一切只是开始而已。

迄今为止,人们已经凭借新数据大赚特赚,布林和佩奇两位先生豪入几百亿美元不过是个开始,这一点绝非偶然。约瑟夫·赖辛格自己一个人做得也不赖。许多观察家估计,Premise公司现在的年收入可达数千万美元。多位投资者最近向Premise公司注入了5 000万美元[34],这意味着有些投资者已经将Premise公司视为全球照片拍摄和销售行业中最具价值的企业之一,其名气堪比久负盛名的《花花公子》(Playboy)了。

换句话说,对学者和企业家来说,运用现有的各种新型信息,从广义视角思考数据的定义,此举具有巨大的价值。今天,一名数据科学家一定不能把自己局限于狭窄的或传统的数据观内。今天,超市流水线的照片是宝贵的数据,超市摊位的货物充足与否是数据,苹果的成熟度是数据,外太空拍摄的照片是数据,嘴唇的上扬弧度是数据,所有的一切都是数据!

有了所有这些新数据,我们终能看破谎言。

说谎 / 数据真相

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000