在用了一章的篇幅专门讨论了贝叶斯网络之后,你可能想知道它们与本书的其余部分,特别是与我们在第一章介绍的那种因果图有何联系。当然,我曾详细讨论过部分细节,因为它们恰恰是我个人最终转向因果关系科学的契机。但更重要的是,从理论和实践的角度来看,贝叶斯网络抓住了实现因果图与数据的交互的关键。贝叶斯网络的所有概率性质(包括本章前面讨论的接合形式)和在其基础上发展起来的信念传播算法在因果图中仍然有效。事实上,对于理解因果推理,它们不可或缺。
贝叶斯网络和因果图的主要区别在于它们的构造及用途。实际上,贝叶斯网络只不过是一张巨大的概率表的简洁表示形式。其中的箭头表示子节点的概率通过某个公式(条件概率表)与父节点的值相关联,并且此相关关系是充分的,即发现该子节点还有其他祖先节点不会改变这个公式。同样,一旦我们知道任意两个节点的父节点的值,那么这两个节点之间缺失的箭头就意味着它们是相互独立的。我们曾在讨论链接合的屏蔽效应时看到过这个命题的简单版本。在A→B→C链中,一旦我们知道A和C二者父节点的值后,A和C之间缺失的箭头就意味着A和C是相互独立的。因为A没有父节点,而C的唯一的父节点是B,因此,一旦我们知道B的值,A和C就是(条件)独立的。
然而,如果同样的关系图被绘制成一张因果图,那么绘制因果图的思路和最终我们对图示的解释就会发生改变。在构建阶段,我们需要检查每个变量,比方说C,然后在选择C的值之前弄明白它究竟“听从于”哪些其他变量。在A→B→C链中,B只听从于A,C只听从于B,A不听从于任何变量,即它是由外部力量决定的,这些外部力量不是我们所构建的模型的一部分。
这个听从隐喻浓缩了因果网络所传达的全部知识;其余的知识都可以借此被推导出来,其中在某些情况下我们还需要用到数据。请注意,如果我们反转链接合中箭头的顺序,从而得到A←B←C,那么我们对该结构的因果解读将发生剧烈变化,但其条件独立性则保持不变。A和C之间缺失的箭头仍然意味着,一旦我们知道B的值,A和C就是相互独立的,就像在最初的那个链接合中一样。这一特性具有两个极其重要的含义:首先,它告诉我们,因果假设不能是心血来潮的虚构;它们必须经过数据的审查,并且是可证伪的。例如,以B为条件,如果我们观测到的数据并没有表明A和C是独立的,那么我们就可以很有把握地断定链模型与数据不兼容,我们必须放弃(或修复)这一假设。其次,因果图的图形属性决定了哪些因果模型可以借助数据来区分,哪些模型永远无法借助数据来区分,无论数据集有多大。例如,仅靠数据我们不能区分叉接合A←B→C与链接合A→B→C,因为这两种接合的因果图有相同的条件独立性。
解读因果模型的另一种便捷的方法是假设实验。因果图中的每个箭头可以被看作一个假设实验的结果陈述。从A到C的箭头表示,如果我们可以只调整A,那么我们理论上就可以看到C的概率发生变化。从A到C的箭头缺失则表示,在同一个实验中,一旦我们保持C的父节点不变(换言之就是上例中的B),我们在调整A后就不会看到C的任何变化。请注意,“一旦我们知道了B的值”这一概率表达,已经被“一旦我们保持B不变”这一因果表达取代,这意味着我们在这里所做的是在事实上阻止了B的变化,从而使从A到B的箭头失效。
建构因果网络时所使用的因果思维当然能够为你带来回报,你可以借此在网络中发现新的能够得到回答的问题类型。如果说贝叶斯网络只能告诉我们一个事件发生的可能性有多大,其前提是我们观察到了另一个事件(第一层级的信息),那么因果图就可以回答更高层级的关于干预和反事实的问题。例如,因果叉接合A←B→C就非常明确地告诉了我们,调整A不会对C产生任何影响,无论调整的幅度有多大。与此相对,贝叶斯网络则不具备处理“调整”的能力,也不能辨别“观察到”和“实施调整”的区别,或者明确区分叉接合和链接合。换句话说,链接合和叉接合都能预测我们观察到的A的变化与C的变化有关,但二者都无法预测“调整”A的效果是什么。
现在我们来谈谈刚刚提到的第二个意义,也是更为重要的一点,即贝叶斯网络对因果推断的影响。(被揭示出的)因果图的图形结构与它所代表的数据之间的关系,允许我们在不进行实际操作的情况下模拟调整。具体来说,利用一系列巧妙的控制变量操作,我们就可以在没有实际进行实验的情况下预测行动或干预的效果。为了论证这一点,我们可以再想想因果叉接合A←B→C。首先,我们宣称A和C之间的相关是伪相关。我们可以通过一个实验来验证这一论断——调整A,然后发现A和C之间没有相关关系。但我们还可以做得更好。我们可以利用因果图来模拟这个实验,让它告诉我们是否可以通过控制变量操作重现我们在实验中看到的关于相关性的结果。答案是肯定的:在对B进行变量控制之后,在因果图中测得的A和C之间的相关性将等同于我们在实验中得到的相关性结论。这种相关性可以从数据中估计出来,在这个例子中,相关性为零,它如实地确认了我们的直觉,即调整A不会影响到C。
倘若贝叶斯网络的统计特性没有在1980年至1988年间被发现,我们就不可能获得这种通过智能化观测来模拟干预的能力。而现在,我们能够据此决定我们必须测量哪一组变量,以便通过观察性研究预测干预的效果。不仅如此,我们还可以回答一些关于“为什么”的问题。例如,有人可能会问,为什么调整A会使C发生变化,这种变化是源自A的直接效应,还是受到了中介变量B的影响?如果两者都有,那么我们是否可以评估变化的哪一部分是B介导的结果?
为了回答这种中介效应问题,我们必须设想两个同时进行的干预:调整A和保持B恒定(与“以B为条件”的控制变量操作有所区别)。如果我们能在物理上进行这种干预,我们就可以很容易地得到问题的答案。但是如果我们受到观察性研究的限制不能实际实施干预,我们就需要利用一系列巧妙的智能化观测手段来模拟这两项行动。再一次,因果图的图形结构将告诉我们模拟是否可能。
1988年,当我开始思考如何将因果关系与图示结合起来时,所有这些功能都尚未被开发出来。我只知道根据我当初的设想,贝叶斯网络无法回答我提出的问题。意识到自己甚至不能仅依靠数据来区分A←B→C和A→B→C,实在令人感到挫败和痛苦。
我知道读者现在急于弄清因果图是如何让我们能够做出上述计算的,我将在第七章到第九章谈到这部分内容。但现在,我们还没有准备好,因为当我们开始谈论观察性研究与试验性研究的对比时,我们就离开了人工智能领域相对平静的水域,进入了波涛汹涌的统计学水域,这些汹涌的波涛正是由统计学与因果关系令人不快的恩断义绝激起的。回想起来,比起我不得不为科学界认同因果图所做的种种斗争,为人工智能领域接受贝叶斯网络所付出的努力简直是一次野餐——不,是一次豪华的巡游!这场战斗仍在继续,目前只剩下几个岛屿仍在负隅顽抗。
为了穿过这片新的水域,我们必须了解传统统计学家所掌握的处理因果关系的方法以及这些方法的局限性。我们上面提出的关于干预效果的问题,包括估计直接效果和间接效果,并不是主流统计学的一部分,主要原因就在于主流统计学的始创者们清除了因果语言。不过,统计学家会在一种特殊的情况下“赦免”因果关系的讨论:随机对照试验(RCT),其中“处理A”被随机地分配给某些个体,而不分配给其他个体,之后我们需要对比在两组个体中观察到的结果变量B的变化的差异。在这里,传统的统计学和因果推断一致认同“A导致B”这句话的含义。
在转向由因果模型照亮的因果关系新科学之前,我们应该先试着理解旧的、模型盲科学的优势和局限性:为什么我们必须进行随机化处理才能得出A导致B的结论,以及随机对照试验试图消除的威胁(被称为“混杂”)的性质。我们将在下一章讨论这些话题。根据我的经验,大多数统计学家和当代的数据分析人员对这些问题中的任何一个都不会感到舒服,因为他们不能用以数据为中心的词汇来明确表达这些问题。事实上,他们对于“混杂”的含义都持有不同的意见!
在我们根据因果图梳理过这些问题之后,我们就可以将随机对照试验置于一个更为适当的理论框架中来讨论了。我们可以将其视为因果推断引擎的一个特例,也可以将因果推断视为随机对照试验的一个宽泛的扩展。两种观点都是对的,不过对于那些接受了大量传统统计学的培训,已经被训练为视随机对照试验为因果关系仲裁者的人来说,后者可能会让他们感觉更舒适吧!
[1] 贝叶斯留给后世的资料很少,他生前发表过的两篇文章都与概率论无关,但他的遗作《论有关机遇问题的求解》(1763)给他带来了无尽的荣耀。在这篇论文中,他推导出了逆概率公式,即著名的贝叶斯法则。很难评述贝叶斯本人对概率的哲学认识,他的学说被后继者们赋予了更广泛、更深刻的内涵,以致发展成为贝叶斯学派,甚至贝叶斯主义。频率派和贝叶斯学派对贝叶斯法则的理解是不同的,因而两派借助它来进行推断的手法也不相同。贝叶斯法则是贝叶斯推断的核心,拉普拉斯称之为“最基本原理”。——译者注
[2] 贝叶斯学派认为,随机事件(或不确定性事件)A的概率仅是个体主观认为A会发生的信念度。例如,我认为“爱因斯坦在1945年8月6日早上掷过骰子”的概率是90%,而显然没有可重复的随机试验能证实此事,它仅仅表达了我对这个陈述的相信程度。——译者注
[3] 换句话说,P(火灾,警报|烟雾)=P(火灾|烟雾)P(警报|烟雾)。请注意,独立性只是概率测度的一种性质,而不是事件本身的性质。——译者注