• 精选
  • 会员

休厄尔·赖特、豚鼠和路径图

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

1912年,当休厄尔·赖特刚刚来到哈佛大学时,其学术背景很难让人相信此后他会对科学界造成如此深远的影响。他曾就读于伊利诺伊州一个不起眼(现已解散)的大学——伦巴第学院。毕业时,他所在的班级只有7名学生。他的父亲菲利普·赖特曾是他的老师之一。菲利普·赖特是个学术多面手,甚至担任过学院打印社的经营者。休厄尔和他的兄弟昆西也曾在这家打印社帮忙,期间他们还代为发表了卡尔·桑德堡的第一首诗——后者当时尚未出名,只是伦巴第学院的一名普通学生。

大学毕业后很长一段时间里,赖特和他的父亲菲利普一直保持着密切的联系。在赖特搬到马萨诸塞州之后,菲利普也搬去了。之后,赖特前往华盛顿特区工作,菲利普也随之迁居,先是在美国关税委员会任职,然后是在布鲁金斯学院做经济学研究。尽管他们的学术兴趣有所不同,但他们还是找到了合作的方法:菲利普是第一个使用他儿子发明的路径图的经济学家。

赖特来到哈佛大学学习遗传学,这是当时最热门的学科之一,因为格雷戈·孟德尔的显性和隐性基因理论刚刚被重新发现。赖特的导师威廉·卡斯托已经确定了影响兔子毛色的8种不同的遗传因子(我们现在称之为基因)。卡斯托指派赖特对豚鼠进行同样的研究。1915年获得博士学位后,赖特得到了一个特别适合他的工作岗位:在美国农业部负责饲养豚鼠。

后来的人可能很想知道,美国农业部在雇用赖特时是否预料到了他们会得到怎样的回报。或许农业部当时只是希望雇用一个手脚勤快的动物管理员,顺便帮他们整理好之前20年积累下来的混乱的饲养记录。赖特不仅完成了任务,而且做了很多额外的工作。赖特所饲养的豚鼠是他整个职业生涯的跳板,也是他提出其进化理论的基石,就如同激发了查尔斯·达尔文提出进化论灵感的加拉帕戈斯群岛的雀鸟一样。赖特是这一观点的早期倡导者:进化不是如达尔文假想的那样渐进地发生,而是一种相对突然的爆发。

1925年,赖特在芝加哥大学得到了一个终生教职。这个职位本来可能更适合一个拥有广泛理论兴趣的研究者,但他仍十分专注于豚鼠研究。有个广为流传的轶事是:有一次,赖特在上课时带来了一只豚鼠,其间一不留神就开始用它擦起了黑板(见图2.6)。尽管他的传记作者认为这个故事很可能是虚构的,但这至少说明,赖特对豚鼠的执着给公众留下了深刻的印象。

图2.6 休厄尔·赖特首次建立了一套根据数据回答因果问题的数学方法,这种方法被称为路径图或路径分析。他对数学的热爱仅次于对豚鼠的热情(资料来源:由达科塔·哈尔绘制)

最令我感兴趣的是赖特在美国农业部所做的早期工作。赖特发现,豚鼠的毛色遗传与孟德尔遗传定律是相抵触的。事实证明,纯白或纯色的豚鼠根本无法培育出来,甚至连多代近亲交配的豚鼠家族的后代在毛色上也存在明显的变异,毛色从多半为白色到多半为彩色不等。这一事实与孟德尔遗传定律的预测是相矛盾的,该预测认为,多代近亲繁殖能够“固定”某种特质。

赖特开始怀疑毛发白色素的数量是由某个基因独立控制的,并据此提出一种假设:是母鼠子宫内存在的某种“发育因子”(developmental factors)导致了豚鼠某些特征的变异。我们现在已经知道赖特的这一假设是正确的。不同的毛色基因会表现在豚鼠身体的不同部位,毛色的图案不仅取决于豚鼠继承的基因,而且取决于这些基因的遗传表现出现在豚鼠的什么身体部位,以及它们以何种组合得以表达或抑制。

亟待解决的研究问题催生出了新的分析方法——该现象在科学界可谓屡见不鲜(至少对于具有独创性的研究者来说确实如此)。赖特开创的分析方法在他之后得到了极大的发展,其应用范畴远远超越了最初的豚鼠基因研究。不过,对当时的休厄尔·赖特来说,测算发育因子可能只是一个大学水平的问题,在伦巴第学院他父亲教授的数学课中就可以得到解决。在寻求某个未知量的值时,你可以先赋予该量一个符号,然后用数学方程的形式描述你对该量和其他相关量的认识,最后,如果你有足够多的耐心和足够多的方程,你就可以解出方程式,并算出目标量的值。

在赖特的例子中,未知的目标量是d(见图2.7),即“发育因子”对白色毛发的影响。被纳入方程式的其他表示因果关系的量(下文简称因果量)还包括“遗传因子”h,这也是一个未知量。赖特表示,如果知道图2.7中的因果量,我们就可以通过一个简单的图形规则推测出数据中的相关关系(图2.7中没有显示此部分内容)。这一方法正体现了赖特的独创性。这条规则在深奥而隐秘的因果关系世界和处于表层的相关关系世界之间架起了一座桥梁。这是研究者在因果论和概率论之间建立的第一座桥梁,其跨越了因果关系之梯第二层级和第一层级之间的障碍。在建造了这座桥梁之后,赖特就可以进行反向的实践,从根据数据测算出的相关性(第一层级)中发现隐藏在背后的因果量d和h(第二层级)。他通过求解代数方程完成了这个任务。这一想法对赖特来说也许很简单,但实际上是一种极具革命性的思路,因为它首次证明了“相关关系不等于因果关系”这个判定应该让位于“某些相关关系确实意味着因果关系”。

图2.7 休厄尔·赖特的第一个路径图,其中西雷(Sire)和达姆(Dam)分别是豚鼠父母的名字,左侧“Chance”一词在此表示随机因子。该路径图说明了决定豚鼠毛色的因子。D=发育因子(存在于豚鼠母亲怀孕以后,子鼠出生之前),E=环境因子(存在于子鼠出生以后),G=来自豚鼠父亲或母亲个体的遗传因子,H=来自豚鼠父母双方的混合遗传因子,O、O'=豚鼠后代。该分析的目的是估计D、E、H的影响强度(图中记作d、e、h)(资料来源:休厄尔·赖特,《国家自然科学院学报》,1920,第320–332页)

最后,赖特的分析结果表明,假设中的发育因子比遗传因子发挥了更重要的作用。在随机繁殖的豚鼠中,42%的毛色变异是由遗传因子引起的,58%是由发育因子引起的。相比之下,在一个多代近亲繁殖的豚鼠家族中,白色毛发的变异只有3%是出于遗传因子的影响,而有92%是出于发育因子的影响。换言之,在经过的20代近亲交配后,由遗传因子引起的变异已被完全消除,但由发育因子引起的变异依然存在。

这一结果十分有趣,不过对于本书的主题而言,问题的关键还在于赖特阐述自己观点的方式。图2.7中的路径图就相当于一张导航地图,告诉了我们该如何通过第一层级和第二层级之间的桥梁。这是一场借助一张路径图完成的科学革命——可爱的豚鼠也做出了它的贡献!

注意,这张路径图显示了所有你能想到的可能影响后代豚鼠毛色的因子。字母D、E和H分别表示发育因子、环境因子和遗传因子。每个父鼠(西雷)或母鼠(达姆)及其每个子女(后代O和O答属于因果关系之梯第二层级的问题的。

有时人们问我:“这难道不会引起循环论证吗?你所做的难道不正是假设你想证明的东西?”答案是否定的。通过将非常中庸的、定性的、显而易见的假设(例如,豚鼠后代的毛色不会影响豚鼠父母的毛色)与20年的豚鼠培育数据相结合,赖特得出了一个定量的,且并不显而易见的结论:后代豚鼠毛色42%的变异来自遗传。从显而易见的事实中提取非显而易见的内容并不是循环论证——这是科学的胜利,我们理当为此鼓掌欢呼。

赖特的贡献是独一无二的,因为他得出结论(42%的遗传性)所需要的信息分属于两种截然不同的、几乎不相容的数学语言:一种是图形语言,另一种是数据语言。这种将定性的“箭头指向信息”与定量的“数据信息”(完全是两门外语!)相结合的独具创新的想法简直是一个奇迹,它完全迷住了我,将我这个计算机科学的研究者引向了一个全新的研究领域。

许多人仍然会犯尼尔斯的错误,认为因果分析的目的只是证明X是Y的因或从头开始找到Y的因。这的确是因果关系研究中的因果发现难题,也是我第一次投身于图形化建模时雄心勃勃地试图解决的问题,直到现在,这依然是一个充满活力的研究领域。相比之下,赖特的研究重点,以及本书的讨论重点,则是用数学语言表达看似合理的因果知识,将其与经验数据相结合,回答具有实际价值的因果问题。赖特从一开始就明白,解决因果发现问题要困难得多,甚至几乎可以说是不可能的。在对尼尔斯批评文章的回应中,他写道:“作者(赖特本人)从未提出过这一荒谬的主张,即路径系数理论为因果关系的推导提供了通式。作者希望强调的是,将相关关系的知识与因果关系的知识相结合以获得某些结果的做法,与尼尔斯所暗示的从隐含的相关关系推导因果关系不是一回事。”

因果推断

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000