2000年2月27日,谷歌山景城园区又开启了平常的一天。阳光普照,自行车爱好者相约骑行,按摩师做着推拿,公司员工享用着黄瓜汁。在这个稀松平常的日子里,几位谷歌工程师有了一个想法,解开了如今驱动互联网运作的秘密,他们找到了让你点击访问、再次访问、最终停留在网页上的最佳方法。
在讲述他们当日的工作之前,我们需要讨论一下相关性与因果关系,这是数据分析中的重大问题,也是我们尚未彻底解决的一个问题。
媒体似乎每天都在用相关性研究轰炸我们。例如,总有人说适量饮酒可以让我们更健康。这就是一个相关性问题。
这是否意味着适量饮酒有利于身体健康是一个因果关系问题呢?可能不是。很可能是良好的健康状况使人们想适量饮酒,社会科学家称其为因果互换。还有可能是有一个独立的因素使适量饮酒和良好的健康状况可以共存。或许和朋友一起消磨时光时,自然会小酌几杯,怡情益体,社会科学家称其为遗漏变量偏差。
那么,如何才能更准确地建立因果关系呢?其黄金标准是一个随机的对照试验,试验是这样进行的:将人们随机分为两组,其中一组为试验组,要按照要求做某件事;另一组为对照组,不做这件事。然后你会看到两组的不同回应。两组的结果差异就是你要找的因果效应。
例如,为了测试适量饮酒是否有利于健康,你可以随机选择一部分人,让他们在接下来的一年中每天喝一杯葡萄酒,再随机选择另一部分人一年不喝酒,然后比较两组的健康状况。由于人们被随机分配到两组,所以没有理由期望一组的成员会有更好的初始健康状况或更多样的社会背景。你可以相信,酒的影响是有因果关系的。随机对照试验在任何领域都是最值得信赖的证据。如果一种药物的效果可以通过一个随机对照试验的证明,就可以分配给普通民众;如果它不能通过这个测试的话,就不会在药房上架。
随机对照试验也越来越多地被应用于社会科学领域。麻省理工学院的法国经济学家埃丝特·迪弗洛(Esther Duflo)领导了一场运动,倡导人们更多地运用试验来推动发展经济学的发展。该领域始终致力于找到最佳的方式来帮助全球最贫困的人口。来看一看迪弗洛及其同事一起进行的如何改善印度农村教育的研究,那里一半以上的中学生连一个简单的句子都读不了。学生们学习吃力的一个潜在原因是教师的持续缺勤。赶上哪一天,在印度农村的一些学校,教师缺勤率会高达40%。
迪弗洛的测试是如何开展的呢?她和同事把一些学校随机分成两组。其中一组(试验组)的教师,如果按时到岗上班,除了得到他们的基本工资外,每天还会得到额外的50卢比或约1.15美元;另一组则没有额外的出勤报酬。结果很明显。当教师获得额外的出勤报酬时,其缺勤率下降了一半。[1]学生的考试成绩也大幅提高,对女学生的影响最大。到试验结束时,在老师得到额外出勤报酬的学校,女生可以写字的比例高出7个百分点。
比尔·盖茨根据《纽约客》的一篇文章了解到迪弗洛的工作,他被深深地打动了,并且向她表示:“我们一定要资助你!”[2]
A/B测试三两面
所以,随机试验是证明因果关系的黄金标准,并且已经在社会科学领域广为使用。这一切将我们带回到2000年2月27日的谷歌办公室。[3]那天谷歌究竟做了什么事让互联网发生了革命性的变化呢?
那一天,几位工程师决定在谷歌的网站上进行试验。他们将用户随机分成两组。试验组的搜索结果页面中显示了20个链接,对照组的页面和以往一样显示了10个链接。然后几位工程师根据用户再次访问谷歌的频率,比较了两组用户的满意度。
这是一场革命吗?似乎还算不上什么革命。我早就注意到随机试验已经被制药公司和社会科学家广泛采用,复制他们的行为又怎么算得上了不起的大事呢?
关键(谷歌的工程师迅速意识到这一点)在于数字世界中的试验相较于线下世界中的试验具有巨大的优势。和线下随机试验一样,线上试验同样具有说服力,同样是资源密集型的研究。在迪弗洛的研究中,需要联系学校,需要安排资金,需要支付部分老师工资,所有的学生都必须接受测试。线下试验可能要花费数千或数十万美元的资金,花费数月甚至数年的时间来进行。
在数字世界中,随机试验成本低、速度快。你不需要招募参与者并支付其费用,仅需编写一行代码将其随机分入一组;你不需要用户填写调查,仅需测量鼠标移动和点击的数量;你不需要手动编码和分析答复,仅需建立一个程序来自动为你完成所有事项。你不必联系任何人,甚至不必告诉用户他们是这项试验的一部分。
这是大数据的第四大功能:它让随机试验变得更加便捷,不论何时何地,只要你在线,它就能找到真正的因果效应。在大数据时代,整个世界就是一个实验室。
这种观念迅速深入谷歌,接着是硅谷其他地区,在这里随机对照试验有了一个新名字:“A/B测试”。2011年,谷歌工程师进行了7 000次A/B测试。[4]这个数字只会不断上升。
如果谷歌想知道如何让更多的人点击他们网站上的广告,他们可能会尝试在广告中采用两种不同的蓝色——一种为A组,另一种为B组。谷歌可以比较其点击率。当然,这种测试的简易特性可能会导致其过度使用。有些员工认为,由于这种测试毫不费力,谷歌测试得有点儿“走火入魔”了。2009年,一位设计师在谷歌进行了41次广告中不同蓝色的A/B测试后,失望地辞职了。[5]尽管这位设计师追求艺术而非痴迷市场调研,却还是无法抑制这种方法的传播。
如今,脸谱网每天进行1 000次A/B测试[6],这意味着脸谱网的一小部分工程师在某一天内完成的随机控制测试比整个制药行业一年内完成的还要多。
除了这些大型科技公司外,A/B测试在其他领域也有应用。前谷歌员工丹·西罗克(Dan Siroker)将这一方法引入了奥巴马首次总统竞选活动,于是有了根据A/B测试结果设计的网站主页、根据A/B测试结果投递的电子邮件和根据A/B测试结果发起的捐款行为。然后,西罗克创立了一个新的公司Optimizely,为很多组织机构提供快速A/B测试的服务。2012年,奥巴马和他的对手米特·罗姆尼(Mitt Romney)全都使用Optimizely来最大限度地增加其网站注册量、志愿者数和捐款额。[7]该网站也为网飞、跑腿兔(TaskRabbit)和《纽约杂志》(New York)等公司所使用。
想知道这种测试效果有多么立竿见影吗?来看一下奥巴马如何利用它招徕更多人参与到他的竞选活动中吧。奥巴马的主页最初包含了一张候选人的照片,在这幅照片下方有一个邀请人们“注册”(Sign Up)的按钮(见图6–1)。
图6–1 奥巴马竞选时最初的网页截图
这是向人们表示问候的最佳方式吗?在西罗克的帮助下,奥巴马的团队可以测试不同的图片和按钮会不会带来更多的实际注册量。如果将主页照片更换为奥巴马更庄重的图片,会有更多的人点击吗?如果将按钮改为“立即加入”(Join us Now),会有更多的人点击吗?奥巴马的团队向用户展示了不同的图片和按钮组合,测试了他们中有多少人点击了按钮(见图6–2、图6–3)。来看看你是否猜中了胜出的图片和按钮。
最终胜出的是奥巴马和家人的照片和“了解更多”(Learn More)的按钮(见图6–4)。这是一场巨大的胜利。通过这种组合的运用,奥巴马的竞选团队估计网站注册量增加了40%,为竞选活动筹款增加了约6 000万美元。[8]
图6–2 用于测试的图片截图
图6–3 用于测试的按钮截图
图6–4 胜出组合截图
这项开销极低、操作简易的黄金标准测试还有另一个很大的好处:它让我们进一步摆脱了对直觉的依赖。正如第1章中所指出的那样,直觉有其局限性。A/B测试如此重要的根本原因就是人是不可预测的,我们的直觉往往无法预测人们将会做何回应。
在奥巴马的最佳主页的选择上,你的直觉是否正确?
下面有更多测试来检验你的直觉。《波士顿环球报》(Boston Globe)用A/B测试找出什么样的标题可以为某一新闻报道带来最高的点击量(见表6–1)。[9]猜一猜哪些标题胜出了。
表6–1 下列每组标题中,有一个比另一个能获得更高的点击量
选好你的答案了吗?以下加粗标题为答案(见表6–2)。
表6–2 胜出标题
可能你会根据自己的倾向做选择,我猜测你应该猜对了一多半,但可能没全猜对。
为什么没全猜对呢?你漏掉了什么?人类行为的哪些方面你还不够了解呢?你可以从自己的失误中得到什么教训呢?
在做出不够准确的预测之后,我们通常会问这样的问题。
来看一看从《波士顿环球报》的新闻标题得出一般性的结论有多么困难。在第一个标题测试中,将“这架”改为“SnotBot”便成就了一场重大胜利。这可能表明了细节才是关键,但是在第二个标题中,保留“漏气的球”这样详细的术语成了败笔;在第四个标题中,“省下个银行”胜过了节省的数目“179 000美元”,这可能意味着俗话的胜利,但是在第三个标题中,那个人尽皆知的“开苞比赛”输了。
A/B测试的经验教训在很大程度上是对一般经验的警醒。克拉克·本森(Clark Benson)是网站ranker.com的首席执行官,该网站是一个新闻娱乐网站,极度依赖A/B测试来选择标题和网站设计方案。本森说:“一天到晚什么都别想,测试简直就是一切。”[10]
测试填补了我们对人性认知的很多空白,但现实与认知的差距会永远存在。如果根据人生经验我们就能知道答案是什么,那么测试也就没有什么价值了。我们不能凭经验知道答案,所以测试也不会失去价值。
A/B测试如此重要的另一个原因是,看似微小的变化可能会产生很大的影响。正如本森所言:“那么那么微小的因素在测试中却具有极大的价值,这一点总是让我叹服。”
2012年12月,谷歌更换了公司的广告呈现形式,增加了一个由正方形包围的右箭头(见图6–5)。[11]
图6–5 谷歌更换的广告呈现形式截图
看看这个箭头,太奇怪了。它指向的右方根本什么都没有。事实上,当这些箭头首次出现时,许多谷歌的客户都有不小的意见。[12]他们纳闷的是,为什么谷歌要在广告中增加毫无意义的箭头呢?
为了保护其商业秘密,谷歌并没有说这些箭头多么有价值,但确实说过这些箭头已经在A/B测试中获胜了。谷歌添加箭头的原因是它们吸引了更多的点击量,而这个小小的、看起来毫无意义的变化让谷歌及其广告合作伙伴获利无数。
那么,你怎样才能找到这些产生超大利润的细节调整呢?你得测试很多东西,甚至很多看起来微不足道的东西。事实上,谷歌的用户已经无数次注意到广告的变化,而每次变化都只是和过去的样子相差了一点点。他们不知不觉地成为A/B测试的试验组成员,但所做的不过是看到这些轻微的变化而已(见图6–6)。
这些变化完全没有对大众产生任何影响,均以失败告终,但这些方案是选出优胜者这个过程的一部分,通往可点击箭头的道路上,铺陈着难看的星星、错误的位置和花哨的字体。
猜测让人们去点击的原因可能很有趣。如果你是民主党人,那么了解这种测试可以为奥巴马筹得更多资金也许是件好事,但是A/B测试有一个阴暗面。
亚当·奥尔特(Adam Alter)在他的著作《欲罢不能》 (Irresistible)中写到了行为上瘾在当代社会的兴起。[13]很多人发现互联网的各个方面越来越难以控制。
图6–6 广告中的细节调整试验截图
我最喜欢的数据集谷歌搜索可以提供一些线索,让我们了解人们眼中最令人上瘾的事情。据谷歌称,大多数上瘾的事情依旧是人们数十年来与之苦苦抗争的那些事,如毒品、性和酒精,但互联网已经开始出现在名单上,其中“色情”和“脸谱网”现已成为排名前十的瘾癖之一(见表6–3)。
表6–3 2016年谷歌排名前八的瘾癖[14]
A/B测试可能与人们上网成瘾也难脱干系。
《欲罢不能》引用了“设计伦理学家”特里斯坦·哈里斯(Tristan Harris)的话来解释为什么人们在互联网上难以抵御某些网站:“屏幕另一端有上千人正在瓦解你的自律。”
这些人用的就是A/B测试。
通过测试,脸谱网可能会发现,制作特定颜色的按钮会让人们更频繁地回到自己的网站,所以他们把按钮换成那个颜色。然后,他们可能会发现,一种特定的字体会让人们更频繁地回到他们的网站,所以他们把文字换成那种字体。接着,他们可能会发现,在某个时间发送电子邮件会让收件人更频繁地回到他们的网站,所以他们在那个时间给人们发电子邮件。
不久之后,脸谱网变成了一个最大限度地使人们留在其网页上的优化网站。换句话说,在A/B测试中找到足够多的优胜者,你就会拥有一个让人上瘾的网站。这种反馈类型是香烟公司从未得到过的。
A/B测试正日益成为游戏行业的一个工具。正如奥尔特所讨论的那样,《魔兽世界》对其游戏的各种版本进行了A/B测试。一个任务可能会要求你杀死一个人,另一个任务则可能会要求你完成解救任务。游戏设计师可以给玩家不同的任务提供不同的样本,然后看看哪个任务保有更多的玩家。例如,他们可能会发现,解救任务让游戏玩家有30%的回访率。如果测试了大量任务,他们就会逐渐发现越来越多的优胜者。他们会整合这30%的优胜者信息,最终形成一款游戏,许多成年男子躲在父母的地下室里沉溺其中,难以自拔。
如果你对此感到不安,还有我呢。在本书接近尾声时,我们还将更多地讨论大数据在这一方面及其他方面的道德问题。无论好坏,试验现在都是数据科学家工具箱中的重要工具。在这个工具箱中还有另一种试验形式,这种形式曾经被用来提出各种问题,包括电视广告是否真的有效。
自然残酷而又发人深省的试验
那是在2012年1月22日,新英格兰爱国者队在美国橄榄球联合会(AFC)冠军赛中对阵巴尔的摩乌鸦队。
比赛还剩一分钟,乌鸦队比分落后,但他们得到了控球权。接下来的60秒将最终决定哪支球队可以问鼎超级碗。接下来的60秒将在球员的职业生涯里画上浓墨重彩的一笔。这场比赛的最后一分钟对一个经济学家来说有着更加深刻的意义:最后的60秒将最终彻彻底底地告诉我们,广告是否有效?
广告可以提高销售额的观念显然对我们的经济发展至关重要,但这一点着实很难验证。事实上,这是一个教科书式的例子,能够告诉我们区分相关性和因果关系有多困难。
毫无疑问,宣传力度最大的产品销量也最好。二十世纪福克斯电影公司曾经斥资1.5亿美元为电影《阿凡达》做宣传,该片也成为有史以来票房最高的电影,但是在《阿凡达》27亿美元的票房收入中有多少是源于这一大手笔的营销手段呢?二十世纪福克斯电影公司花了这么多钱为电影造势,其中部分原因可能是他们知道自己的产品很拿得出手。
公司认为他们知道自己的广告效果如何,经济学家却对此表示怀疑。芝加哥大学经济学教授史蒂芬·列维特曾与一家电子公司合作,当时那家公司试图让他相信他们对自己的广告效果心里有数,列维特却不以为然,他想,他们怎么能这么自信?
该公司解释说,每年在父亲节前几天,他们都增加了电视广告费用支出。果然,每年父亲节前他们的销售量都是最高的,但这或许是因为彼时许多子女为他们的父亲购买电子产品(尤其是作为父亲节的礼物),和广告无关。
列维特在讲座中说:“他们完全倒置了因果关系。”[15]其事实我们不得而知,但至少有这个可能。“这是一个非常难的问题。”列维特补充道。
尽管解决这个问题非常重要,但许多企业不愿意进行严密的试验。列维特试图说服电子公司进行一项随机控制的试验,以精确地了解他们的电视广告效果如何。由于A/B测试在电视上很难实现,所以要看在某些地区没有广告的情况下会发生什么事。
该公司是这样回应的:“你疯了吗?我们不可能撤掉20个市场的广告。首席执行官会杀了我们的!”列维特与该公司的合作就这样结束了。
这件事将我们拉回到这场爱国者队对阵乌鸦队的比赛中。一场橄榄球赛的结果为何能帮助我们判定广告的因果效应?虽然这个结果不能告诉我们某个特定公司某个特定广告的宣传效果,但是它可以为许多大型广告活动的平均效果提供证据。
事实证明,在这样的比赛中有一个隐形的广告试验。其运作方式是这样的:在冠军赛开始之前,各公司就已经购买并制作了超级碗的广告。当企业决定投放哪些广告时,他们并不知道哪两支球队会参加最终的比赛。
但是季后赛的结果将对谁在观看超级碗有很大的影响。这两支具备资格的球队将带来大量的观众。如果在波士顿附近的新英格兰队获胜,就会有更多的波士顿人观看超级碗,而不是巴尔的摩人,反之亦然。
对这些公司来说,这相当于用丢硬币的方式来决定巴尔的摩或波士顿数万名额外观众是否会接触到他们的广告,而这一“丢”则发生在他们的插播广告已经有人购买并制作完毕之后。
现在,回到赛场,哥伦比亚广播公司(CBS)的吉姆·南茨(Jim Nantz)正在宣布这项试验的最终结果。
比利·坎迪夫(Billy Cundiff)上场了,他极有可能扳平比分,把比赛拖入加时赛。在过去的两年中,他运动战进球16投16中。32码处扳平比分。射门。当心!当心!哎呀,不妙……爱国者队获胜将开启前往印第安纳波利斯的旅程。他们即将奔赴第46届超级碗总决赛。
两周后,第46届超级碗在波士顿的收视率达60.3%,在巴尔的摩达50.2%。波士顿6万多人观看了2012年的广告。
第二年,两支相同的球队在美国橄榄球联合会冠军赛再次遭遇。这一次,巴尔的摩获胜。2013年超级碗有更多的广告受到了巴尔的摩的关注(见表6–4)。
表6–4 2012—2013年超级碗收视评分
我和谷歌首席经济学家哈尔·瓦里安、卡内基–梅隆大学经济学家迈克尔·D.史密斯(Michael D. Smith)采用了这两场比赛以及2004—2013年所有其他超级碗赛事的数据来测验超级碗广告是否起到了效果。具体而言,我们考察了如若一家公司在超级碗上宣传了其电影,那么在超级碗收视率较高的城市,该影片票房是否会大幅上涨。
结果的确如此。在超级碗上宣传过的电影,在获得超级碗比赛资格的球队所在城市的上座率远比错失超级碗比赛资格球队所在城市的要高。在这些城市里有更多人看到了广告,便有更多的人决定去看这部电影。
另一种解释是有球队进入超级碗会让当地的居民更愿意去看电影。我们测试了一组预算相似、上映时间相近但未在超级碗上进行过宣传的电影,这些电影在参加比赛的球队所在城市的上座率并没有增加。
好的,正如你猜的那样,广告是有效的。这并不奇怪。
这不仅仅是那些广告起作用了那么简单。广告确实非常有效。事实上,第一次看到这些结果时,我们就对其进行了第二次、第三次甚至第四次检查,以确保结果准确无误——因为其回报实在过于丰厚。在我们的样本中,一般的电影只需付费300万美元便可抢占超级碗的广告位,而他们的票房却可以增加830万美元,投资回报率为2.8 : 1。
另外两位经济学家韦斯利·R.哈特曼(Wesley R. Hartmann)和丹尼尔·克拉佩尔(Daniel Klapper)也证实了这一结果,他们此前也曾分别提出类似的观点。他们研究了超级碗期间播放的啤酒和软饮广告,同时也利用了符合条件的各个城市的广告曝光率。[16]他们发现投资回报率为2.5 : 1。尽管超级碗广告费用不菲,但我们的结果和他们的研究都表明,超级碗广告在提高需求方面有奇效,所以公司的操作实际上极为物超所值。
所有这些,对于那些曾经和列维特共事过的电子公司里的朋友意味着什么呢?超级碗广告很有可能比其他形式的广告更具成本效益。起码我们的研究确实表明,在父亲节做广告应该算得上一个好主意。
超级碗试验的一个优势就是没有必要刻意将任何人分配到试验组或对照组中,这个试验的发生完全取决于球赛中运气球出现的概率。换句话说,它是自然发生的。为什么说这算一个优势?因为非自然的随机控制试验虽然在数字时代极为强大,而且容易实现,但并非总能办到的。
有时,我们无法同心协力地及时采取行动。有时,就像那个不愿意进行广告试验的电子公司一样,我们再怎么努力也无法得出结果。
有时,试验是无法实现的。假设你对一个国家失去一位领导人的反应很感兴趣,想知道这会不会引发战争,经济会不会因此停止运作,还是什么都不会变。显然,我们不能杀死大量的总统和总理,看看会发生什么事,这不仅是不可能的,而且是不道德的。几十年来,各个大学都建立了机构审查委员会,这些委员会将确定一个拟议的试验是否符合伦理。
如果我们想知道在某种情况下的因果效应,而在当时的情况下做试验是不道德的或者说不可行的,那么我们应该怎么办呢?我们可以利用经济学家所说的自然试验——其定义极为广泛,橄榄球也可包含在内。
不论好坏(好吧,显然是更坏),生活中总有一个巨大的随机因子,没有人确切地知道是什么东西或什么人来负责管理宇宙,但有一点很清楚:无论是谁在操控着这场表演(量子力学规律、上帝或一个在电脑前操控着这个宇宙的身着内裤的满脸青春痘的孩子),无论是规律、上帝还是那个孩子,谁都无法获得机构审查委员会的批准。[17]
自然一直在对我们做着试验。两人中弹,一颗子弹刚好停在了重要的器官一旁,而另一颗却没有。这些就是让生命变得不公平的倒霉事。要说有什么安慰的话,这些倒霉事倒是让经济学家在研究生命的时候容易了一点。他们利用生命的随机性来检验因果效应。
在43名美国总统中,有16人曾经遭到过暗杀,4人身亡,而其他活下来的人,其原因基本上也都是随机的。[18]
对比一下约翰·F.肯尼迪(John F. Kennedy)和罗纳德·里根(Ronald Reagan)便会明白这一点。[19]两人都被子弹直接射中身体最脆弱的部位,击中肯尼迪的子弹直击脑部,他马上就死了;击中里根的子弹停在了离心脏几厘米远的地方,医生挽救了他的生命。里根活了,而肯尼迪死了,不是为了押韵,也没有什么理由——只是因为运气。
这些企图夺走领导人性命的事件以及生死有命的随机性是全世界都在发生的事情。再对比一下车臣的艾哈迈德·卡德罗夫(Akhmad Kadyrov)和德国的阿道夫·希特勒(Adolf Hitler)。这两位都曾离一枚轰然爆炸的炸弹几英寸[20]远,卡德罗夫死了[21],而希特勒却改变了他的行程安排,提前几分钟离开被人做过手脚的房间,赶上火车,从而幸存下来。[22]
我们可以利用大自然冷酷的随机性(杀掉了肯尼迪而留下了里根)来看看一个国家的领导人被暗杀后的大致情况。本杰明·F.琼斯(Benjamin F. Jones)和本杰明·A.奥尔肯(Benjamin A. Olken)这两位经济学家就刚好做了一个这样的试验。试验中的对照组是领导人侥幸逃过暗杀的某一国家接下来几年的情况,如20世纪80年代中期的美国;试验组是领导人被暗杀的某一国家接下来几年的情况,如20世纪60年代中期的美国。
那么,领导人被谋杀后会产生什么结果呢?[23]琼斯和奥尔肯发现,成功的暗杀行为大大改变了世界历史,使各国走上了截然不同的道路。一个新的领导人可能会让原本和平的国家战火纷飞,也有可能会让连年战乱的国家获得和平;一个新的领导人可能会使经济蓬勃发展的国家开始萧条,也有可能会让经济萧条的国家逐渐蓬勃发展起来。
事实上,这场基于暗杀的自然试验结果推翻了几十年来关于各国政权如何运作的传统观点。许多经济学家过去认为,领导人主要是受外力推动的无能傀儡,但根据琼斯和奥尔肯对自然试验的分析,情况并非如此。
许多人不会把这种对世界领袖的暗杀企图作为大数据的例子来考虑。领导人被暗杀或险些被暗杀的案例能用于研究的少之又少,就好比那些或胜败可判或胜败难分的战争一样,有效案例不多。描述一条经济轨迹所需的经济数据集很大,可大部分都是先于数字化时代出现的。
尽管如此,这种自然试验(虽然目前大多是经济学家在使用)仍然极为强大,在具有更多、更好、更大数据集的时代也会变得越来越重要,这是数据科学家难以割舍的工具。
是的,现在应该弄清楚一点,经济学家在数据科学的发展中正发挥着重要作用。至少我愿意这样想,因为这是我一直以来的体验和经历。
还有什么地方可以找到自然试验?换句话说,还有没有什么随机过程恰巧将人们置于试验组和对照组的情况呢?
最明显的例子就是彩票,这就是为什么很多经济学家喜欢它们,但我们发现有一点很不合理——他们并不玩彩票,只是研究它们。如果带有数字3的乒乓球升到了顶部,琼斯先生就会变得有钱;而如果带有数字6的乒乓球升到了顶部,变得有钱的则是约翰逊先生。
为了检验意外横财的因果效应,经济学家比较了那些中彩票大奖的人和那些买彩票却没中的人。这些研究普遍发现,中彩票大奖短期内并不会使人快乐,但从长远来看会。(1978年一篇称中彩票大奖并不会使人幸福的著名论文已经被揭穿了真相。[24])
经济学家还可以利用彩票的随机性来了解当邻居发财时人们的生活会如何变化。数据显示,你的邻居中得彩票会影响你自己的生活。[25]例如,如果你的邻居中了彩票,你便更有可能买一辆昂贵的汽车,比如宝马汽车。为什么呢?经济学家认为,起因就是,在你那富有的邻居购买了昂贵的汽车之后,你的嫉妒心“爆棚”了,它粉碎了人性。如果约翰逊先生看到琼斯先生开着一辆全新的宝马汽车,他肯定也想要一辆宝马汽车。
不幸的是,约翰逊先生买不起这辆宝马汽车,这就是经济学家发现的彩票赢家的邻居很有可能破产的原因。[26]这种情况下,约翰逊先生想赶上琼斯先生是不可能的。
但自然试验不一定是明确随机的,就像彩票一样。一旦你开始寻找随机性,就会发现它无处不在,于是便可以用它来了解我们的世界是如何运转的。
医生是自然试验的一部分。每隔一段时间,因为一些其实非常随机的理由,美国政府都会更改用于为医生报销医保病人费用的算法。在某些县,医生的某些治疗费用上涨;在其他县,医生的这些治疗费用在下降。
两位经济学家[杰弗里·克莱门茨(Jeffrey Clemens)和我的老同学乔舒亚·戈特利布(Joshua Gottlieb)]测试了这一随机变化的影响。那些医生通常会一如既往地关照病人,给予这种关照是因为他们认为这是最起码的职责呢,还是因为受财政奖励驱动?
数据清楚地表明,医生会为金钱奖励所驱动。[27]在报销费用较高的县,有些医生会安排更多高报销额的治疗,如更多白内障手术、结肠镜检查和核磁共振。
接下来就是一个巨大的问题:在得到所有这些额外的保障之后,病人的病情会好转吗?克莱门茨和戈特利布的报告中指出,这些措施对提升人们的健康水平只发挥了“非常小的作用”。两位经济学家发现金钱奖励对降低死亡率无显著效果。这个自然试验表明,如果给医生更多的经济奖励,让他们可以安排一些治疗,那有些医生就会安排更多治疗,这对病人的健康来说效果不大,而且似乎也不会延长他们的寿命。
自然试验有助于回答生死问题,也有助于解决一些对年轻人来说生死攸关的问题。
史岱文森高中(常被称作“史岱”)位于一栋价值1.5亿美元的10层褐色砖石建筑中,俯瞰着哈得孙河,距离曼哈顿下城世界贸易中心只有几个街区。[28]总之,史岱文森高中令人心生向往。该校提供55个大学预修课程(AP)、7种语言课程、犹太历史选修课、科幻小说和亚洲裔美国文学。[29]该校大约有1/4的毕业生被常春藤联盟或者享有同等盛誉的大学录取。[30]史岱文森高中培养了哈佛大学物理学教授莉萨·兰德尔(Lisa Randall)、奥巴马竞选顾问戴维·阿克塞尔罗德(David Axelrod)、奥斯卡获奖演员蒂姆·罗宾斯(Tim Robbins)和小说家加里·施特恩加特(Gary Shteyngart)。[31]比尔·克林顿、科菲·安南(Kofi Annan)和科南·奥布赖恩(Conan O’Brien)都曾到这所高中做过开学演讲。[32]
唯一比史岱文森高中的办学条件和毕业生更夺目的是该校的教学成本:零美元。这是一所公立高中,也可以说是全美最好的高中。没错,最近的一项研究采用了30万名学生和家长的2 700万份评论来评估美国的每所公立高中,史岱文森高中排名第一。[33]难怪雄心勃勃的纽约中产阶层父母和他们同样雄心勃勃的孩子会对史岱文森高中的品牌如此痴迷了。
艾哈迈德·耶尔马兹(Ahmed Yilmaz)[34]的父母一个是保险代理人,另一个是纽约皇后区的教师,对他而言,史岱文森高中就是“那所梦寐以求的高中”。
“工薪阶层和移民家庭将史岱文森高中视为出路。”耶尔马兹解释道,“如果你的孩子上了史岱文森高中,他将来就能考上一所全美排名前20的正统大学,全家也就好了。”
那么,怎样才能进史岱文森高中呢?你必须住在纽约市的5个行政区之一,并在入学考试中达到一定的分数,仅此而已。不需要推荐,不需要论文,没有传承录取,没有弱势补偿措施。一天,一场考试,一个分数。如果你的分数够了,你就被录取了。
每年11月,约有27 000名纽约青少年参加入学考试。竞争是残酷的,参加考试的人中仅有不到5%能进入史岱文森高中。[35]
耶尔马兹说,他的母亲“拼了命工作”,把挣到的每一分每一厘都投入他的备考中。经过几个月(工作日的每天下午和整个周末)的悉心准备,耶尔马兹自信他可以考上史岱文森高中。至今他仍然记得收到成绩单的那一天,他多错了两道题,遗憾地与史岱文森高中失之交臂。
我问他当时是什么感受,他答道:“就好比你还是个初中生的时候,自己的整个世界就都崩塌了吧。”
他的安慰奖也不差——布朗克斯科学高中,另一所排名靠前的公立学校,可它终究不是史岱文森高中。耶尔马兹认为,布朗克斯科学高中是一所专为技术人员而设的学校。4年后,他又被普林斯顿大学拒之门外,念的是塔夫茨大学,毕业后也是几易其主,换了好几次工作。如今,他是一家高科技公司一位小有成就的员工,但他认为自己的工作“枯燥乏味”,报酬也不理想。
十多年后,耶尔马兹承认,他有时会想,如果当年他去了史岱文森高中,生活会是另一番模样吧。“一切都会不一样。”他说,“确实,我认识的每个人都会不一样。”他想知道史岱文森高中是否会让他获得更高的学术能力评估测试(SAT)分数,进入像普林斯顿大学或哈佛大学(他认为这两所学校都比塔夫茨大学好得多)这样的大学,或许还可以带来拥有更高薪水的工作。
对人类来说,玩这种假设游戏可以是娱乐,也可以是自我折磨。如果当初我对那个女孩或那个男孩袒露了爱意,我的生活会是什么样子?如果当时我得到了那份工作,现在会怎样?如果我去了那所学校,如今又会是什么状况?但这些假设似乎是没有答案的。生活不是电子游戏,在不同的情况下,你不可能重新来过,直到得到自己想要的结果。
捷克作家米兰·昆德拉在他的小说《不能承受的生命之轻》中有一个精句,我引用于此:“人生只有一次,我们无法得知我们抉择的对错,因为在某种情况下我们只有一次选择的机会,没有两次、三次或四次生命去比较每次抉择的不同。”
耶尔马兹将永远都不可能重回年少时的那次考试,不可能拿到那遗憾的两分。也许有一种方法,我们可以通过研究大量史岱文森高中的学生,了解若当年耶尔马兹考到了那里,他如今的生活可能(或者不可能)是怎样的情形。
最直截了当的方法就是将所有考上史岱文森高中的学生和没有考上的学生做比较。我们可以分析他们在大学预修课程考试和学术能力评估测试中的表现,再看看他们被哪所大学录取了。如果我们做过这样的工作,就会发现就读于史岱文森高中的学生在标准化考试中得分要高得多,最终考取的大学也要比那些没有被史岱文森高中录取的学生好得多,但正如本章已经讨论的那样,这种证据本身并不令人信服。也许史岱文森高中的学生表现得更好,首先是因为这所学校有更好的生源。这里的相关性无法证明因果关系。
为了测试史岱文森高中的因果效应,我们需要比较两个几乎完全相同的小组:一个是接受过史岱文森高中教育的试验组,另一个是没有接受过其教育的对照组。我们需要一个自然试验,但是到哪里去找这种对照组呢?
答案是:像耶尔马兹这样的学生,他们的分数非常接近入读史岱文森高中的条件。[36]没考上的学生是对照组,考上的学生就是试验组。
我们没有什么理由质疑分数线上下的学生在天资或动力方面有很大差异,毕竟一个人在考试中比另一个人多考一两分的原因可以有很多。或许那个得分较低的人少睡了10分钟,或者那天的早餐不够有营养。或许那个得分较高的人记得三年前与奶奶的一次谈话中一个特别晦涩的单词,而这个单词正好出现在考题中了。
事实上,这类(利用一刀切分数线的)自然试验的作用是非常强大的,经济学家还专门为其命名:断点回归。任何时候都有一个精确的数字(一个断点)把人们分成两个不同的群体,经济学家可以对极为接近截止点的人的结果进行比较或回归分析。
M.基思·陈(M. Keith Chen)和杰西·夏皮罗这两位经济学家利用联邦监狱使用的锐截止机制来测试恶劣的监狱条件对未来犯罪的影响。美国的联邦监狱会根据囚犯的犯罪性质和前科打一个分数,得分决定了囚犯所待监狱的条件。那些得分较高的人将进入一个戒备森严的监狱,这意味着与他人的联系减少、行动自由度降低,并且可能会遭受更多来自警卫或其他囚犯的暴力行为。
把那些关押进戒备森严的监狱的囚犯和那些关押进戒备不那么森严的监狱的囚犯进行比较是不公平的。戒备森严的监狱有更多的杀人犯和强奸犯,而戒备不那么森严的监狱则有更多的毒犯和小偷。
那些刚好在这个分数上下的罪犯其实有着大致相同的犯罪前科和背景。然而,这微不足道的一分就将他们送进了条件截然不同的监狱。
结果如何呢?经济学家发现,分配到条件更加严苛的监狱的囚犯,在离开监狱后还有可能犯下更多罪行。[37]严苛的监狱条件并没有阻止他们犯罪,而是使他们变得更加冷酷无情,回到现实社会中变得更具暴力倾向。
那么,这样一种“断点回归”现象为史岱文森高中带来了什么启示呢?麻省理工学院和杜克大学的经济学家阿蒂拉·阿卜杜勒卡迪罗格鲁(Atila Abdulkadiro lu)、乔舒亚·安格里斯特(Joshua Angrist)和帕拉格·帕塔克(Parag Pathak)组成了一个团队,共同展开这项研究。他们比较了在截止点分数上下的纽约学生的最后结果。也就是说,这些经济学家研究了数百位像耶尔马兹一样因一两道题而错过史岱文森高中的学生,然后将他们和数百名考试日成绩稍好,因为多对了一两道题考上史岱文森高中的学生进行了比较。他们评判成败的标准是这些学生的大学预修课程分数、学术能力评估测试分数和最终进入大学的排名。
研究的结果令人震惊,几位学者已经将这些结果撰文明确呈现出来,文章标题为:“精英幻觉”。史岱文森高中带来的影响有多大呢?[38]无!没有!零!纯属胡扯!分数线两边的学生最后的大学预修课程分数和学术能力评估测试分数都难分高下,所就读的大学也都是排名相当的名牌大学。
研究人员总结道,史岱文森高中的学生比其他学生在人生中得到的东西更多的原因是,更好的学生的首选便是就读史岱文森高中。史岱文森高中不会使你在大学预修课程考试中表现得更好,不会使你在学术能力评估测试中分数更高,也不能让你最终考上更好的大学。
几位经济学家写道:“竞争激烈的入学考试席位的价值似乎并未体现出来,入选的精英学子在这里学业进步的程度并不足以证实学校的优势。”
为什么说你去哪所学校也许并不重要呢?更多故事可以帮助你得到答案。再来看看另外两名学生萨拉·考夫曼和杰西卡·恩格的故事吧。两个年轻的纽约人从小就想进史岱文森高中。考夫曼的分数刚好在分数线上,一道题决定了她的成功。考夫曼回忆说:“再也不会有任何事能让我如此兴奋了。”恩格的得分刚刚低于分数线一分,一道题注定了她的失败。考夫曼去了她梦想的学校——史岱文森高中,恩格没去成。
那么,她们的人生现在如何呢?两个人都找到了成功且收入不菲的工作——和全纽约考试成绩永远排在前5%的那些人中的大部分人一样。可讽刺的是,恩格更喜欢高中的经历。她就读的是布朗克斯科学高中——唯一一所拥有大屠杀纪念馆的高中。恩格发现自己喜欢内容管理,因此在康奈尔大学读了人类学专业。
考夫曼在史岱文森高中却感到有些失落。在那里,学生们非常重视成绩,她觉得史岱文森高中过于强调测试而不是教学。她称自己的体验“绝对是五味杂陈”,但这也是一种学习经历。她意识到,如果要选大学,她只会申请那些更重视教学的文科学校。她进入了自己梦寐以求的学校——维思大学。在那里,她找到了帮助别人的热情,现在她是一名公益律师。
人们根据经历调整自己,是金子总会发光的。让你成功的因素是你的才华和动力,而不是谁给你做开学演讲或名校提供的其他优势。
这只是一项研究,它可能被“大多数落榜史岱文森高中的学生最后都念上了另一所好学校”这个事实弱化了,但越来越多的证据表明,尽管念一所好学校确实重要,然而顶尖的学校其实并不会为你带来很多东西。
以大学为例。如果你上的是世界上最好的大学之一,比如哈佛大学或者宾夕法尼亚州立大学这样一流的学校,那有什么了不起呢?
是的,学校排名和人们的收入之间有着明显关联。哈佛大学毕业生进入职场10年后的年薪平均达12.3万美元,宾夕法尼亚州立大学的毕业生10年后的年薪平均达8.78万美元。[39]
但是这种关联并不意味着因果关系。
斯泰西·戴尔(Stacy Dale)和艾伦·B.克鲁格(Alan B. Krueger)这两位经济学家想到了一种巧妙的方法来测试精英大学与毕业生未来收入潜力之间的因果影响。他们有一个跟踪高中生信息的巨大数据集,包括他们申请哪所大学、被哪所大学录取、就读于哪所大学、他们的家庭背景和他们成年后的收入等信息。
为了获得一个试验组和一个对照组,戴尔和克鲁格比较了家庭背景相近、被同样的几所大学录取但选择了不同学校的学生。一些被哈佛大学录取的学生最后选择了宾夕法尼亚州立大学,或许是因为想要离女朋友或男朋友更近一点,或者是因为他们想要师承某位教授。换句话说,根据招生委员会的资料,这些学生和去哈佛大学的学生一样都是天才,但他们有着不同的教育经历。
所以,当两个背景相似的学生都被哈佛大学录取,但其中一个选择了宾夕法尼亚州立大学时,会有什么事发生呢?研究人员的调查结果与史岱文森高中研究的结果一样惊人。那些学生的职业收入与哈佛大学的毕业生难分伯仲。如果以未来的收入作为衡量标准,那么家庭背景相似且被同一所知名大学录取但选择就读不同学校的学生,他们未来的处境也是大致相近的。[40]
我们的报纸上刊登了一些关于就读于常春藤联盟的成功人士的文章,如微软的创始人比尔·盖茨与脸谱网的创始人马克·扎克伯格和达斯廷·莫斯科维茨(Dustin Moskovitz),他们都曾就读于哈佛大学。(当然,他们都辍学了,这引发了关于常春藤联盟教育价值的更多讨论。)
还有一些故事,讲述了一些人因才能出众而被常春藤联盟录取,但选择去一所不那么有名望的学校,并铸就了辉煌的人生,如一开始就读于宾夕法尼亚州立大学沃顿商学院(一所常春藤商学院)的沃伦·巴菲特,他后来转学到内布拉斯加大学林肯分校,因为这所学校学费较低,再加上巴菲特本人不喜欢费城,他还认为沃顿商学院的课非常无聊。[41]数据显示,至少在赚钱方面,选择上一所名不见经传的学校对巴菲特这样的人来说是一个很好的决定。
本书名为“人人都在说谎”,通过这个书名,我主要想说人们之所以(对朋友、对调查、对自己)都说谎,是为了让自己看起来更好一些。
这个世界也在通过向我们提供错误的、误导性的数据对我们说谎。这个世界让我们看到有更多哈佛大学学子成为成功人士,但宾夕法尼亚州立大学的学生较少获得同等的成功,因此我们认为在哈佛大学学习有更大的优势。
通过巧妙地运用自然试验,我们可以正确地理解这个世界的数据——发现什么是真正有用的,什么是无用的。
自然试验也与上一章有关。这些试验经常需要放大试验组和对照组:超级碗试验中的城市、医疗保险定价试验中的县、史岱文森高中试验中录取分数线上下的学生等。正如上一章所讨论的那样,放大工作往往需要庞大而全面的数据集——随着世界的数字化,这类数据集越来越多。由于不知道大自然会选择进行什么样的试验,所以我们不能创建一个小的调查来衡量其结果。我们需要大量的现有数据来从这些干预中学习经验,总结教训。我们需要大数据。
关于那些试验(无论是人类自己的试验还是自然界的试验)还有一个更重要的观点在本章中得到了详尽的呈现。本书的大部分内容都集中在了解世界上——奥巴马为种族主义买了多少单,有多少男性真的是同性恋者,男人和女人对自己的身体有多么不自信,但是这些控制试验或自然试验有一个更实际的倾向,它们的目标是改善我们的决策,帮助我们了解哪些干预起作用,哪些干预不起作用。
公司可以学习如何获得更多的客户,政府可以学习如何使用报销来最大限度地提升医生的工作积极性,学生可以了解哪些学校是最有价值的。这些试验证明了大数据能够替代猜测、传统智慧和与实际效果相关的伪劣关系——因果关系。