我最近看到有人把一个走在街上的人称作“penistrian”。你抓到我说的点了,对吧?是“penistrian”,而不是“pedestrian”(行人)。这是我在一个大型排印错误数据集中看到的。一个人看到有人在走路,于是写下“penis”(阴茎)一词。这一定意味着什么,对吧?
一名男子梦到他走上圣坛迎娶妻子时口中还吃着香蕉,这是我在一个人们用以记录自己梦境的应用程序的大型数据集中看到的。一个男人想象着在自己结婚时嘴里还吃着生殖器形状的东西,这也一定意味着什么,对吧?
西格蒙德·弗洛伊德的理论是正确的吗?自从他的理论第一次进入公众视野以来,人们对这个问题最诚实的回答都是耸耸肩。只有奥地利裔英国哲学家卡尔·波普尔(Karl Popper)对这一问题做出了明确回答,他高调宣称我们无法验证弗洛伊德的理论。也就是说,没有任何办法可以验证这些理论的真伪。
弗洛伊德可以说那个写“penistrian”的人想要表达自己可能被压制的性欲。这个人可以回答说她并没有想要表达什么或者她就是很容易犯拼写错误,比如把“pedestrian”写成“pedaltrian”。这就是男女两性间的对话情境。弗洛伊德可以说那个梦到结婚时还在吃着香蕉的男子是在背地里想着男性生殖器,这表明他想要结婚的对象是男人而不是女人。那个男子可以回答说他只是碰巧梦到了一根香蕉,他也可能梦到走上圣坛时在吃苹果。这就是两位男性之间的对话情境。过去我们没有办法将弗洛伊德的理论应用于实际测试中。
现在有办法了。
数据科学证实弗洛伊德的许多理论是毫无根据的——这门科学将他的许多著名理论应用于测验中。我们从梦中的生殖器符号开始吧。运用有案可查的许多梦境的大型数据集,我们可以很快注意到阴茎形状的物体在梦中出现的频率。食物是这项研究的重点关注对象。食物会出现在许多梦中,许多食物的形状都和阴茎相似——香蕉、黄瓜、热狗等。然后,我们可以估量一下是什么因素让我们梦到某些特定食物的次数多于其他食物,比如多久食用一次这些食物,大多数人觉得它们的味道怎么样,以及这些食物是否具有和阴茎类似的性状。
我们可以测试两种食物在梦中出现的次数是否相同,这两种食物同样受欢迎,但其中一个形似阴茎。如果形似阴茎的食物出现在梦中的频率并不比另一种食物高,那么生殖器符号在人们的梦中就不是重要因素。借助大数据,弗洛伊德的这一理论也许真的可以被证伪。
我得到了应用软件Shadow(影子)的数据,这款软件要求用户把他们的梦记录下来。我对其中数万个梦境中出现的食物进行了编号。
总的来说,是什么让我们梦到食物呢?主要的预测指标就是我们消费这些食物的频率。最常出现在梦中的物质是水。排在前20的食物包括鸡肉、面包、三明治和米饭——显然都与弗洛伊德的性压抑说无关。
食物在梦中出现频率的第二个预测指标是人们对其味道的喜爱程度。人们最常梦到的两种食物(巧克力和比萨)都非常美味,但也与弗洛伊德的性压抑说无关。
那么形似生殖器的食物情况又如何呢?这些食物在梦中出现的频率会出人意料吗?答案是否定的。
香蕉是人们梦中出现频率第二高的水果,但也是生活中食用频率第二高的水果。所以,我们不需要弗洛伊德来解释我们为何会频频梦到它。黄瓜是人们梦中出现次数排名第七的蔬菜,也是生活中食用频率排名第七的蔬菜。这再一次证明食物的形状不见得能解释它们为何会潜入我们的梦境。热狗在梦中出现的频率远远低于汉堡,即使对人们食用更多汉堡的现状加以控制,情况也是如此。
总体来看,在对所有水果和蔬菜进行回归分析后,我发现对一种食物而言,因形似阴茎而出现在人们梦境中的可能性并不如其受欢迎程度来得大。[1]弗洛伊德的这一理论是可以被证伪的——至少,根据我对数据的研究,这个理论是错误的。
接下来,再来看看弗洛伊德式失言。弗洛伊德假定人们用失误(口误或笔误)来表达自己的潜意识,通常和性相关。可以使用大数据来检验这一理论吗?有这样一种办法:看看我们的失误(失言)是否有性的倾向。如果我们深埋的性欲望在失言中露出尾巴,就应该有大量包括“penis”(阴茎)、“cock”(大鸟)和“sex”(性)等字样的错误出现。
这就是我要研究微软研究人员搜集的那4万多个打字错误的数据集的原因。[2]这个数据集中包含人们打错字后立即纠正的错误。在这几万个错误中,有很多人的错误和性有关,有前文中提到的“penistrian”,还有人输入“sexurity”而不是“security”(安全),输入“cocks”而不是“rocks”(岩石),但也有很多“毫无邪念”的拼写错误,比如“pindows”“fegetables”“aftermons”“refriderator”[3]等。
那么,和性相关的失言次数有什么非同寻常之处吗?
为了找到答案,我首先使用了微软的数据集来模拟人们错误替换特定字母的频率。我计算了用字母s替换字母t和用字母h替换字母g这两种情况的频率。其次,我创建了一个模拟人类犯错方式的计算机程序,我们可以称之为Error Bot。Error Bot以与微软研究中相同的频率用字母s替换字母t、用字母h替换字母g等。我用这个程序对人们在微软研究中同样的错词进行了操作。也就是说,Error Bot试图拼出“pedestrian”“rocks”“window”“refrigerator”,但是它像人类一样,用字母t替换了字母r,拼出了“tocks”;它也像人类一样,用字母c替换了字母r,拼出了“cocks”。
通过比较Error Bot和粗心的人类,我们能了解到什么呢?在以人类替换字母的方式制造出数百万个错误之后,Error Bot犯了许多弗洛伊德性质的错误。它把“seashell”(贝壳)拼成“sexshell”,把“lipstick”(口红)拼成“lipsdick”,把“luckiest”(最幸运的)拼成“fuckiest”,此外还有许多其他类似的错误。重点来了,毫无潜意识的Error Bot和人类一样,也会犯与性相关的错误。这个研究警示我们,就像许多社会学家常说的一样,我们还需要做更多的研究。也就是说,这种与性相关的错误并不是人们故意为之的,而是无意间发生的。
换句话说,虽然某种思维理论认为人们会通过自己的失误透露内心秘不可宣的欲望,但对那些犯下“penistrain”“sexurity”“cocks”这类拼写错误的人来说,不见得这些错误和一些禁忌就存在某种联系。典型的拼写错误频率完全可以解释人们的“手滑”。人们会犯很多错误。如果你犯的错误足够多,最终你也会开始说“lipsdick”“fuckiest”“penistrain”这类单词。如果一只猴子一直打字,它最终也会打出“to be or not to be”(生存还是死亡)这样的文字。如果一个人一直打字,她最终一定会打出“penistrian”这样的单词。
弗洛伊德关于失误可以揭示人们潜意识需求的理论被证实是毫无根据的——并且根据我的数据分析,这个理论根本就是错误的。
大数据告诉我们,香蕉就是香蕉,“penistrain”也只是“pedestrian”的错误拼写罢了。
那么,弗洛伊德所有的理论都是无稽之谈吗?不完全是。第一次接触色情网站的数据时,我有一个意外发现,这些数据确实有点儿弗洛伊德的意思。事实上,这是我在数据调查期间发现的最令人惊讶的事情之一:大量访问主流色情网站的人都在搜索乱伦主题的图片。
男性搜索排名前100的词条中有16个在搜索乱伦主题的视频。男性对乱伦的搜索多是关于母子的场景,那么女性呢?女性搜索排名前100的词条中有9个是对乱伦主题的视频搜索,这些搜索具有相似的内容,只不过提及的家长和孩子的性别通常是调转的。因此,女性对乱伦的诸多搜索是以父女场景为主的。
至少在这个数据中不难找到弗洛伊德俄狄浦斯情结(恋母情结)的微弱回声。他假定几乎所有人在童年时期都有和异性家长发生性关系的欲望,但这一欲望在之后被抑制住了。真希望这位维也纳心理学家在世的时间能长一些,如此他便可以将自己的分析技巧用在色情网站的数据上了,这些数据中体现的似乎就是成年人对异性家长的兴趣,那种几乎没有受到任何压制的、毫不掩饰的兴趣。
当然,色情网站数据无法确切地告诉我们,在观看这些视频时,人们真正幻想的人是谁。他们真的是在幻想和自己的父母做爱吗?谷歌搜索可以提供更多的线索,确实有很多人有这样的欲望。
仔细想想“我想和……做爱”这一形式的所有搜索就会明白。[4]补全这一搜索最常见的词汇就是“妈妈”。总的来说,这种形式的搜索中超过3/4是有关乱伦的,这并非特定措辞的结果。以“我被……吸引”这一搜索形式为例,承认乱伦欲望的补全方式甚至占据了主导地位。现在我承认(弗洛伊德可能要失望了),这些并不是很常见的搜索:在美国,每年有数千人承认他们对母亲的爱慕。我们也不得不告诉弗洛伊德一个坏消息,谷歌搜索有时会偏向那些禁忌话题,这一问题在本书后文中会做进一步的讨论。
话说回来,人们还有很多不恰当的爱慕表达,我本该预料到相关搜索会在搜索中反复出现。老板?员工?学生?医生?病人?妻子的闺密?女儿的好友?妻子的妹妹?铁哥们儿的妻子?这些坦诚的欲望都不能与妈妈相比。结合色情网站数据,或许这真的意味着什么吧。
弗洛伊德一直认为,一个人的性偏好是受其童年经历影响的,这一观点也得到了谷歌和色情网站数据的支持。这些数据显示,男性保留了很多与童年有关的性幻想。根据妻子对丈夫的搜索数据,在排名靠前的成年男性恋物癖中,有一些是希望穿着尿布让妈妈哺乳。如前文所述,这种情况在印度尤甚。此外,色情漫画(生动而细致地刻画了青少年喜欢的剧集中那些人物的性爱场面)在很大程度上非常受欢迎。[5]或者再仔细想想男性在色情片中最常搜索的女性职业。年龄在18~24岁之间的男性最常搜索的就是保姆。25~64岁之间和65岁及以上的男性同样如此。对每个年龄段的男性来说,老师和啦啦队队员始终排在前四。[6]显然,儿时的生活似乎对成年男性的性幻想产生了巨大的影响。
到目前为止,我还没能运用这所有全新的成人性行为数据来准确地了解性偏好是如何形成的。在接下来的几十年中,我和其他社会科学家将会创造出新的、可验证的成人性行为理论,并用实际数据进行测试。
我已经可以预测到一些基本的主题,这些主题定将成为基于数据的成人性行为理论的一部分。这一理论明显和弗洛伊德所说的那个假设(那个特定的、定义明确的、普遍意义上的童年阶段和性压抑说)不是一回事。根据我对色情网站数据的初步研究,我十分肯定对成年人性行为的最终定论会体现弗洛伊德强调的一些关键主题,童年将发挥重要作用,妈妈也是。
10年前,我们可能还无法以这种方式分析弗洛伊德的理论。当然,在弗洛伊德还活着的80年前肯定更加不可能。那么,让我们来看看为什么这些数据来源有所帮助吧。这项实践有助于我们了解为何大数据会如此强大。
请记住,我们已经说过,单纯的一堆堆数据,其本身并不会自动生成任何见解。数据大小本身被高估了。那么,为什么大数据又如此强大呢?为什么它又可以掀起一场“如何看待自己的革命”呢?我认为,大数据有四大独特功能,对弗洛伊德的这一分析提供了一个很好的例证。
你可能已经注意到,我们关于弗洛伊德的讨论一开始就在严肃地探讨色情内容,而且本书后文中我们还会多次利用色情资料。意外的是,社会学家很少使用色情数据,大多数人更愿意依靠他们职业生涯中建立起来的传统调查数据集。稍微反思一下,广泛使用色情内容(以及随后生成的搜索和观点数据)是我们了解人类性行为的能力最重大的进步……好吧,事实上这可能才是最重要的。数据一直以来都是叔本华、尼采、弗洛伊德和福柯垂涎若渴的东西。在他们的有生之年,这些数据是不存在的。几十年前,这些数据仍不存在。现在,它们出现了。有关各种主题的独特数据来源为我们打开了一扇窗,通往过去仅存在于我们猜测中的领域。提供新型数据是大数据的第一大功能。
色情数据和谷歌搜索数据不仅是全新的,而且是可信的。在前数字时代,人们在人前掩饰着自己羞于启齿的想法。在数字时代,他们在人前仍然将这些想法隐藏起来,但没能瞒过互联网,尤其是谷歌和色情网站这种保护他们隐私的网站。作为一种数字真相的精华,这些网站起着重要的作用——使我们可以发现乱伦的广泛关注度。大数据使我们终于可以看到人们真正想要的和真正在做的,而不是他们嘴上说想要的和想做的。提供可靠的数据是大数据的第二大功能。
因为现在有了如此多的数据,所以即便只有一小群人也可以提取有意义的信息。比如,我们可以把梦到黄瓜的人数与梦到西红柿的人数进行比较。允许我们放大人群子集是大数据的第三大功能。
大数据有一个更令人印象深刻的功能——我在对弗洛伊德的短期研究中没有使用这项功能,但可能在未来的某项研究中会加以运用:它允许我们进行快速且受控制的试验。这样一来,我们不仅可以测试相关性,而且可以测试因果性。这些测试现阶段大多用于商业,但它们定将成为社会科学家的强大工具。允许我们进行许多因果试验是大数据的第四大功能。
现在是解开大数据功能之谜的时候了,让我们一起来探索大数据的重要性和奥秘吧。
1 我按照阴茎形状将食物编号,前提是它们的长度得明显大于宽度,而且大体得是圆柱形的。因此,我把黄瓜、玉米、胡萝卜、茄子、南瓜和香蕉算了进来。数据及编号详见我的个人网站sethsd.com。
2 数据库可从https://www.microsoft.com/en-us/download/details.aspx?id=52418自行下载。研究人员让亚马逊旗下的机械土耳其人网站(Amazon Mechanical Turk)用户描述图像,分析用户的击键记录,并记录用户改正单词的时间。更多细节详见YukinoBaba and Hisami Suzuki,“How Are Spelling Errors Generated and Corrected? A Study of Corrected and Uncorrected Spelling Errors Using Keystroke Logs,” Proceedings of the Fiftieth Annual Meeting of the Association for Computational Linguistics, 2012。数据、编号和研究的进一步说明参见我的个人网站sethsd.com。
3 “pindows”是“windows”(窗户)的错误拼写,“fegetables”是“vegetables”(蔬菜)的错误拼写,“aftermons”是“afternoons”(下午)的错误拼写,“refriderator”是“refrigerator”(冰箱)的错误拼写。——编者注
4 完整数据(警告:表格)如下
“我想和……做爱”
5 例如,在谷歌网站对各类流行动画片的搜索中,“色情”是最常见的词汇,如下。
卡通动画片遇见色情
(有关各类卡通动画片最常见的谷歌搜索词汇)
6 根据作者的计算,列出男性搜索色情内容中最常见的女性职业,按男性的年龄划分。
女性在男性色情内容搜索中扮演的角色(按男性的年龄划分)