• 精选
  • 会员

寻找一种语言(伯克利大学招生悖论)(2)

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

对我来说,他们的信件往来令人着迷。两个伟大的思想家为他们缺乏足够的词汇来描述的一个概念(因果关系)而展开辩论,这并不常见。毕克尔后来通过不断的努力在1984年获得了麦克阿瑟基金会的“天才”奖。但在1975年,他才刚开始他作为一名研究者的职业生涯,对他来说,与美国统计界的巨擘克鲁斯卡尔的斗智斗勇既是荣耀,也是挑战。

克鲁斯卡尔在给毕克尔的信中指出,“院系”与“录取结果”之间的关系可能存在一个未测的混杂因子,例如申请者的居住州。他用虚构数据举了一个例子,假设存在这样一所大学,它有两个存在性别歧视的院系,其产生的数据和毕克尔例子中的数据完全相同。一个前提假设是两个院系都接收所有本州的男性和外州的女性,并拒绝所有的外州男性和本州女性,这是他们唯一的录取标准。显然,这项招生政策是一个明目张胆的教科书式的性别歧视案例。但是,由于两种性别的申请者中被接受和被拒绝的申请者的总数与毕克尔的例子完全相同,因此毕克尔应该会断定性别歧视并不存在。在克鲁斯卡尔看来,这些院系看起来清白无辜,完全是因为毕克尔只控制了一个变量而不是两个。

克鲁斯卡尔一针见血地指出了毕克尔论文的缺陷:缺乏一个明确的、经过检验的标准来确定到底应该控制哪个变量。克鲁斯卡尔并没有提供一个解决方案,事实上在他的信中,他表示对找到一个解决方案丧失了信心。

与克鲁斯卡尔不同,我们可以绘制一张因果图,看看问题到底出在哪里。图9.5所示的是克鲁斯卡尔提出的反例的因果图。它看起来是不是有点眼熟?事实上,它与巴巴拉·伯克斯在1926年绘制的因果图完全一致,只是具体的变量有所不同。可能有人不禁要说一句“英雄所见略同”,但更恰当的说法也许是,伟大的问题总能吸引伟大的头脑。

图9.5 伯克利大学招生悖论的因果图(克鲁斯卡尔的版本)

克鲁斯卡尔认为,要在这种情况下分析直接效应,我们就必须同时控制“院系”和“居住州”,图9.5解释了其中的原因。要关闭除直接路径之外的所有路径,我们需要按院系对数据进行分层,也就是控制院系这个变量,这将关闭间接路径“性别→院系→录取结果”。但在这样做的同时,我们就打开了伪路径“性别→院系←居住州→录取结果”,因为“院系”在该路径中是一个对撞因子。因此我们就需要控制“居住州”这个变量来关闭这条路径。如此一来,剩下的任何关联都必定是由(歧视的)直接路径“性别→录取结果”引起的。由于缺乏因果图,克鲁斯卡尔只能用虚构数据说服毕克尔,而实际上他的数据反映出的正是刚刚我们描述的这种情况。如果我们不控制任何变量,那么数据将显示女性的录取率较低。如果我们只控制“院系”,那么女性似乎反而有较高的录取率。如果我们同时控制“院系”和“居住州”,则数据将再一次显示女性的录取率较低。

从这样的论证中,你可以看到为什么中介这一概念曾经激起(而且仍在激起)各方的怀疑。它看起来非常的不稳定,而且很难锁定。通过不同的变量控制操作,录取率先是呈现出对女性的歧视,接着又呈现出对男性的歧视,之后又是对女性的歧视。在对克鲁斯卡尔的答复中,毕克尔仍然坚持,以决策部门(“院系”)为条件与以决定标准(“居住州”)为条件有所不同。但他对此主张并没有他表现出来的那么自信,而是可怜兮兮地问道:“我发现了一个非统计学的问题:我们所说的偏倚到底是什么意思?”为什么偏倚迹象会随我们测量方式的变化而发生变化?事实上,他在区分偏倚和歧视时所提出的定义是正确的。偏倚是一个不稳定的统计概念,如果用不同的方法切分数据,偏倚就可能会消失。而作为一种因果概念,歧视反映的是现实,因而必须保持稳定。

他们的词汇表所缺少的那个关键短语是“保持恒定”(hold constant)。要关闭从“性别”到“结果”的间接路径,我们就必须保持变量“院系”恒定,然后对变量“性别”进行扰动。当我们保持“院系”恒定时,我们就可以(打个比方来说)阻止申请人选择申请哪个院系。而因为统计学家没有表示这个概念的词,他们就采取了一种表面上类似的做法:以“院系”为条件。这正是毕克尔所做的:他逐个院系地查看数据资料,并得出结论说没有证据证明伯克利大学歧视女性。当“院系”和“录取结果”之间不存在混杂时,这一做法是有效的;在这种情况下,“观察”结果和“干预”结果是一样的。而克鲁斯卡尔提出的问题也是正确的:如果存在‘居住州’这个混杂因子呢?他可能没有意识到自己是在追随伯克斯的脚步,毕竟他所绘制的那张因果图与伯克斯在研究智力的先天后天之争时所绘制的因果图相差无几。

我特别想要强调的正是这一在过去几年中反复出现的错误——以中介物为条件(对中介物进行变量控制),而不是保持中介物恒定(设其为常量)。我称其为中介谬误(mediation fallacy)。诚然,如果中介物和结果之间没有混杂,则这个错误并无实际危害。然而,如果确有混杂,那么这一错误完全可以反转分析结果,正如克鲁斯卡尔的虚构数据例子所展示的那样。它将误导调查人员得出错误的结论,即在事实上存在歧视的情况时,宣称歧视并不存在。

伯克斯和克鲁斯卡尔识别出了中介谬误这个错误,这很了不起,尽管他们并没有提出有效的解决方法。费舍尔在1936年也犯了同样的错误,而80年后,统计学家仍在尝试解决这个问题。幸运的是,自费舍尔时代以来,我们已经取得了巨大的进步。例如,流行病学家现在已经知道,必须密切注意中介物和结果之间的混杂因子。而那些回避因果图语言的人(比如一些顽固的经济学家)则对此问题抱怨不已,并承认,解释这一警告的含义是一种折磨。

谢天谢地,克鲁斯卡尔提出的这一被他自己称为“或许不能解决的”问题在20年前就被do演算的提出解决了。我认为克鲁斯卡尔肯定会喜欢这个解决方案,我甚至能想象出向他展示do演算和反事实算法化的力量的情景。遗憾的是,他在1990年退休了,当时do演算规则刚刚成形。他于2005年去世,没能看到这一解决方案的正式提出。

我相信有些读者很想知道:伯克利大学案最后怎么样了?答案是,什么也没发生。汉默尔和毕克尔相信伯克利大学没有什么可担心的,而事实上伯克利大学也没有遭遇任何诉讼或联邦调查。这些数据反而暗示了对男性申请者的歧视,因为有明确的证据表明,“在大多数存在女性优先录取条件的院系中,招生委员会的录取规则都体现了他们为克服长期存在的领域内的女性短缺问题所做出的努力”,毕克尔如此写道。而就在3年后,有关加州大学另一分校的一起关于平权法案的诉讼一路告到了最高法院。如果最高法院最终驳回了平权法案,那么这种“女性优先”的操作很可能就会被判定为非法行为。然而,最高法院支持了平权法案,伯克利大学案也就因此成为这段历史的一个注脚。

聪明如我当然不会将决定权交给最高法院,而是留给自己的妻子。为何我的妻子有如此强烈的直觉,认为在每个院系都公平行事的情况下,整所学校就完全不可能存在歧视呢?这涉及了一个类似于确凿性原则的因果运算定理。正如吉米·萨维奇在最初提出这一原则时所说的那样,确凿性原则属于总效应,而这个因果运算定理则适用于直接效应。总体的直接效应据其定义就应取决于子总体直接效应的总和。

简言之,每个局部的公平就意味着总体的公平。我的妻子是对的。

核心关键词不超过3个

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000