假设我们正在考察一家公司,想要看一下决定员工工资的因素中,更重要的那个是学历还是工作经验。我们收集了该公司员工目前的工资数据,见表8.1。我们用EX表示工作经验,ED表示学历,S表示工资。为简单起见,我们假设只有3种学历水平:0=高中学历,1=大学学历,2=研究生学历。因此,如果员工u是高中毕业生,但不是大学毕业生,则SED?=0?(u),或者S0?(u)就表示该员工u的工资。如果员工u是大学毕业生,则其工资就是S1?(u)。我们可能会想问的一个典型的反事实问题是:假如爱丽丝有大学学位,那她的工资应该是多少?换句话说,S1?(爱丽丝)是多少?
关于表8.1,首先要注意的是所有由问号表示的缺失数据。对于同一个体,我们能观察到的潜在结果永远不会超过1个。这件事虽然显而易见,但仍然非常重要。统计学家保罗·霍兰德曾经称之为“因果推断的基本问题”,这一名称现在已深入人心。如果我们真的能在问号处填写内容,那我们就可以回答所有的因果问题了。
表8.1 潜在结果示例的虚拟数据
?
但我本人从来不认同霍兰德将表8.1中的缺失值描述为一个“基本问题”的说法。也许是因为我很少使用表格描述因果问题吧,但更根本的原因是,将因果推断问题看作一个数据缺失问题,可能会造成非常严重的误导,这一点我们很快就会看到。请注意,除了最后三列的标题外,表8.1完全不涉及任何关于ED、EX和S的因果信息,例如是学历影响工资还是工资影响学历。更糟的是,即便我们已经掌握了一些关于这些变量的因果信息,这张表格仍然不允许我们把它们表示出来。但是对于那些认为缺失数据就是“基本问题”的统计学家来说,这张表格似乎包含着无穷的可能性。的确,如果我们不把S0?、S1?和S2?看作潜在结果,而看作普通变量,我们就能借助许多插值方法把空格填满,或者,就如统计学家所说的,我们完全可以采用某种最优的方式“推定出缺失数据”。
一种常见的推定方法是匹配。我们需要寻找几对个体,除了目标变量,这些个体在所有其他变量上都能匹配得很好。然后我们就可以根据这种匹配关系填写数据空缺的格子了。一个最明显的配对是伯特和卡罗琳,他们在工作经验上完全匹配。因此我们认定,假如伯特有研究生学位,则他的工资就会与卡罗琳的相同(97000美元);假如卡罗琳只有本科学位,则她的工资就会与伯特的相同(92500美元)。请注意,这种匹配法与控制变量(或数据分层)有着相同的思路:挑选共享某一观察特征的比较组,通过比较来推断它们看起来不共享的特征。
但是,我们很难用这种方式估计爱丽丝的工资,因为在我所提供的数据中,我们找不到能与其完美匹配的对象。不过这也没有难倒统计学家,统计学家已经开发出了一些相当巧妙的方法用以根据近似匹配推断缺失数据,鲁宾一直是开发此类方法的先驱。遗憾的是,即使是世界上最具天赋的匹配者也不能将数据转化为潜在结果,连近似转化也不可能。我将在后文说明,真正正确的答案取决于是学历影响工作经验,还是反过来,工作经验影响学历,而这些信息在表格中是找不到的。
第二种可能的推断方法是线性回归(此处不可将其与结构方程混为一谈)。在使用这种方法时,我们需要假设数据来自一些未知的随机源,然后使用标准统计方法来查找数据的最佳拟合直线(在本例中为平面)。这种方法的输出结果如以下方程所示:
S=65000美元+2500美元×EX+5000美元×ED (8.1)
方程8.1告诉我们,平均而言,没有工作经验且只有高中文凭的员工的基本工资是65000美元。每增加一年工作经验,工资会增加2500美元,而学历每升一级(最多可提升2级),工资会增加5000美元。因此,一个回归分析专家会说,假如爱丽丝有大学文凭,则我们对她的工资估计就是65000美元+2500美元×6+5000美元×1=85000美元。
这种填补技术的简便和精确?[3]??解释了将因果推断看作一个缺失数据问题这一观点广受欢迎的原因。可惜的是,尽管这些插值方法看似无伤大雅,但它们本质上是有缺陷的。它们是数据驱动的,而不是模型驱动的。所有的缺失数据都是通过检查表格中的其他值来填充的。而正如我们从因果关系之梯中学到的,没有哪种纯粹基于数据的方法(第一层级)可以回答反事实的问题(第三层级)。
在将这些方法与结构因果模型方法进行对比之前,让我们先直观地审视一下模型盲数据填补法的错误所在。具体而言,让我们来解释一下为什么在工作经验上完全匹配的伯特和卡罗琳,其潜在结果实际上可能完全不具可比性。而一个更出人意料的结论是,一个合理的(与表8.1相符的)因果叙述说明,为推测卡罗琳的工资,她的最佳匹配对象应该是一个在工作经验上与她并不匹配的人。
在此例中,我们要认识的第一个关键点是,工作经验很可能取决于学历。毕竟,那些拥有更高学历的员工花了更长的时间去接受教育,如此一来在年龄相同的情况下,他们的工作年数就会相应缩短。因此,假如卡罗琳只有大学学历(和伯特一样),则她就可以利用多出来的这部分时间换取比现在更多的工作经验。这就让她在和伯特有着相同程度的学历的前提下,比伯特拥有更多的工作经验。因此,我们可以得出这样的结论:S1?(卡罗琳)>S1?(伯特),这与此前我们根据简单粗暴的匹配所预测的结果截然不同。我们可以看到,一旦我们有了一个合理的因果叙述,即学历影响工作经验,那么对工作经验的“匹配”将不可避免地造成潜在工资的不匹配。
具有讽刺意味的是,同样的工作经验,原先是促成匹配的要素,现在却变成了导致不匹配的警示信号。当然,表8.1将继续对这一警示保持沉默。鉴于此,我也无法认同霍兰德将因果推断阐述为数据缺失问题的观点。事实与这一观点正好相反。我以前的一名学生,卡西卡·莫汉近期的一项研究显示,即使是标准的数据缺失问题也需要借助因果建模来解决。