现在,将描述解释的正式框架。解释是完成分类的映射。
解释(interpretation)
解释是从对象、情境、问题和事件到词语的一个映射。在一个解释中,一个词语可以用来表示许多对象。
正如在阿方先生身上看到过的那样,解释往往只涉及几个片断,或者更准确地说,解释通常表示只从高维截取少数几个维度。正如在下文中将会看到的,解释涉及的往往是在某个视角下的几个维度。假设我们正在对一堆乐高积木进行分类,并进一步假设每个积木块都有自己的大小和颜色,且没有两个积木块是完全相同的。如前所述,用它们的大小和颜色对积木块进行编码,就构成了一个视角,这是用视角定义的方法,每个积木块都有唯一的标识。而解释则要将积木块分组。其中一种解释是按颜色对积木块进行分类,另一种解释则是按大小进行分类。
现在,就有了一个构造解释的启发式:采取一个视角并忽略维度。例如,当把一道用精选索诺玛兔肉为原料、龙蒿橄榄油耐心腌制、雪松木枝精心细烤,并用波特酒小心收汁的名菜,简单地称为“兔肉”时,就使用了这种启发式。为了进一步说明这一点,再举一个更正式一些的例子。假设有五只狗在公园里玩耍:一只黑色的拉布拉多犬、一只黑色的纽芬兰犬、一只褐色的马士提夫獒犬、一只褐色的沙皮犬和一只白色的玩具贵宾犬。这里可以构建一个视角,使每只狗的颜色和大小构成一对一映射(见表3-1)。
表3-1 颜色-大小视角
这种视角为每只狗都分配了一个独特的词语,它可以用来生成两种解释,也就是维度投影。其中一种解释是基于颜色的,另一种解释则是基于大小的(见表3-2和3-3)。
表3-2 颜色维度的解释
表3-3 大小维度的解释
投影解释(projection interpretation)
投影解释是指忽略了视角某些维度的解释。
这两种解释将这些狗分成了不同的类别。哪一种分类方法最好则依赖于所要实现的目标。如果试图搞清楚,哪种狗可以带上飞机,那么就应该采用基于大小的解释。如果担心让狗待在烈日炎炎的院子里会不会导致它们中暑,那么就应该采用基于颜色的解释。当一种解释只考虑可能的所有维度的某个子集时,就称它为投影解释。
并不是所有的解释都是投影解释。一些解释创造了一系列可能性的聚丛。例如,如果按照是不是符合“风水”的原则来对房子进行分类,就不是从属性空间中截取切片。相反,则会得到某种聚丛,因为要满足所谓的“风水”要求,需要将能够“和谐”共存的诸多属性组合起来。
聚丛解释(clumping interpretation)
聚丛解释创建了由类似的对象、情况、问题或事件组成的类别,这种类别不是简单的属性投影。
例如,当依赖诸如“昆虫”“蚂蚁”或“哺乳动物”这样的类别进行交流时,就是在创建这种聚丛。在这些情况下,我们所做的是,忽视分类表上的某些分支,但是可以把这种做法视为将可能事物的空间划分成了若干聚丛。4
“足球妈妈”是一群什么样的人
我们可以不那么严格地直接将解释视为分类。解释把动物(它是一只猫)、厨房用品(把这铲子与其他铲子放到一起)、电影(这是一部浪漫的喜剧片)、衣物(这些就是他们所说的“裙裤”),甚至个性(他是一个INTJ性格的人)等。分成不同的类别。通过构建这样的类别来理解世界。要在这个世界上生存,需要把特殊理解转化为更一般的、把一般的理解转化为较具体的。如果我们怕狗,那么可能首先会将所有的狗都归入“可怕的狗”的类别,然后再改进为只把体型庞大的狗归入“可怕的狗”的类别。随着时间的推移,这种推论还可以进一步改进为不愿意去追逐网球玩的大狗是“可怕的狗”;而小狗,除了杰克罗素梗犬之外,则都是可爱的。
当专家分析选举结果时,他们要讨论足球妈妈、纳斯卡爸爸、工会成员、波波族和里根民主党人等的投票模式,这样做是为了解释为什么选举结果会这样。与此类似,将不同的人归并起来,归入不同的群体,有助于解释哪些人会购买哪些产品、观看怎样的电视节目或生活在哪些特定的社区。关键是,这些类别并不是从远古传下来的,它们并未刻在出土的石碑上,是我们将它们构造出来的。
考虑人们可能关注的不同维度,以及每个维度上不同的人的区别(见表3-4)。表3-4的最后一列给出了每个维度上不同类别数量的估计值。
表3-4 个人维度
这些类别并不能将每一个人单独地识别出来,但是它们创造出来众多的不同人的类型十分有用。可以区分不同类型人的数量等于类别与数量的乘积,也就是2×4×10×5×2×4×6×5×5×3×4×2×3。这个数字超过了3 000万。由于美国的总人口只有3亿左右,因此这种分类方法将导致归入每个类别的人平均只有10人。如果使用了所有这3 000万种类型,那么在任何一个子类别中,都无法得出任何具备统计有效性的推断,因为一个类别中的人太少了。
至于可以从这些类别中创建可能解释的数量,就更加多得令人难以置信。假设想要给出这样一个解释,它将考虑表3-4中列出的这些维度的某个子集,那么会有1 000多种方法来选择4个维度、2 000多种方法来选择5个维度。一旦选定了这4个或5个维度,又有成千上万种方法来创建包含这些维度的类别。
在通常情况下,专家、市场营销人员和社会科学家比较依赖于大的类别,他们希望这些类别可以适用于更多的人。因此,我们就有了足球妈妈这个“类别”:年龄在30~40岁之间,有子女、有工作、有配偶,住在郊区的已婚女性。足球妈妈这个“类别”忽略了很多维度,比如宗教、地区、教育、种族,以及头发的颜色。
足球妈妈这样的类别,只有当这种类型人的行为或行动不同于其他类型的人时,才具有信息价值。否则,这种区分就不能改善预测。有效的市场营销和政治宣传都需要确定相关的类别,我们把这称为有效的解释。如果要把一种产品销售给富裕白人家庭的青少年,那么生产该产品的公司就必须针对这类消费者进行营销活动。在政治领域,如果某个候选人对某类选民缺乏吸引力,或者如果这类选民尚未决定如何投票,那么该候选人就应该针对这类选民发表演讲、提出政策建议、推出专门的竞选广告。我们不会看到政治评论员大谈特谈长着一双特别大的脚的人是如何投票的,因为这类选民的投票行为不会与其他类型的人不同。
再举一个例子。假设一项民意调查的结果如表3-5所示。
表3-5 民意调查结果(%)
超过一半(54%)的足球妈妈仍未决定要给谁投票。因此,民主党和共和党的政治家应该把注意力集中在足球妈妈身上,他们将针对足球妈妈投放广告,甚至会提出专门迎合足球妈妈的政策项目。根据这些数据,政治家将会选择忽略已经决定给谁投票的富有的老年公民。
因果关系才是有意义的解释
由于可能的解释数量非常可观,因此似乎可以认为解释就像视角一样容易创建。事实上,它们比视角更容易创建。对每一个可以创建出来的视角,都存在大量可能的解释。一个解释可以忽略视角的某个维度,也可以忽略视角的一组维度的某个分支,或者说它可以形成微乎其微的差别。例如,如果一种解释是用来预测某人会不会购买蓝莓味鸡蛋华夫饼的可能性的,那么它可能完全忽略教育程度这个维度,或者,它也可能将那些至少接受过高中教育的人排除在外。
现在的研究者,已经可以利用高明的编程技术,让计算机去搜索可能类型的空间,找出行为模型与总体平均值不一样的聚合类型。这种技术被称为数据挖掘(data mining)或法证统计(forensic statistics)。但是,数据挖掘能揭示的只是相关性,而不是因果关系。直接依靠数据挖掘得出的因果关系可能是虚假的。既然可能的维度如此之多,一些与结果相关的建构类型就变得有可能了。最近搬到郊区、喜欢养狗、每天开6千米车去上班的人,膀胱癌发病率可能非常高,但是那又如何?这种相关性可能是虚假的。爱养狗或最近搬到郊区,“似乎”都会导致膀胱癌。真正的挑战是,如何对所有的相关性进行排序,并确定哪一个是真正具有因果关系的。