• 精选
  • 会员

贝叶斯网络:应如何看待数据

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

贝叶斯的逆概率规则是一种形式最为简单的贝叶斯网络,虽然贝叶斯本人并不知道这一点。我们现在已经看到了这个网络的几种形式:茶→饼,疾病→检测,或者更具普遍意义的说法是:假设→证据。不同于贯穿于本书的因果图,贝叶斯网络并未假设箭头有任何因果意义,这里的箭头仅仅意味着我们知道前向概率,比如P(烤饼|茶)或P(检测|疾病)。贝叶斯法则告诉我们的是如何逆转正向推理的过程,具体做法就是用先验概率乘以似然比。

在形式上,信念传播采用了完全一致的处理方式,且并不考虑箭头是非因果的还是因果的。然而,你可能会有这样一种感觉,即相比非因果情形,我们在因果情形中做的事更有意义。这是因为我们的大脑被赋予了理解因果关系(如乳腺癌和乳房X光检查结果)的特殊机制,而非仅能察觉到关联(如茶和烤饼的关系)。

在介绍完只包含一个连接的两节点网络后,我们的下一步自然是引入包含两个连接的三节点网络,我称此种网络为“接合”(junction)。这是所有贝叶斯网络(以及因果网络)的构建模块。接合有三种基本类型或形式,借助这些基本形式,我们就可以在网络中表征出所有的箭头模式。

1.A→B→C。这种接合形式是被称为“链”接合或中介接合的最简单的表现形式。在科学中,人们常常将B视为某种机制,或“中介物”,它将A的效应传递给C。一个熟悉的例子是“火灾→烟雾→警报”。虽然我们称这个系统为“火灾警报”,但实际上它应该叫烟雾报警。火灾本身并没有引起警报,所以这里也就没有从火灾直接指向警报的箭头。火灾也不会通过任何其他的变量,比如高温来引发警报,只有火灾向空气中释放的烟雾分子才会触发警报。如果我们禁用这个链中的第二个连接,例如我们利用通风管道吸走了所有的烟雾分子,那么警报就不会被触发了。

这个观察引出了关于链接合的一个重要概念点:中介物B“屏蔽”(screen off)了从A到C的信息或从C到A的信息(这一概念由德裔美籍科学哲学家汉斯·赖欣巴哈首次指出)。例如,一旦我们知道了烟雾的“值”,关于火的任何新信息便不会再以任何理由让我们增强或削弱对警报的信念。这种信念的稳定性是第一层级的概念,因此,当它可获取的时候,它就应该会体现在数据中。假设我们有一个数据库,这个数据库包含关于何时出现火灾、何时有烟雾、何时警报被触发的所有实例。如果我们只看“烟雾=1”的那些行数据,则无论是“火灾=0”还是“火灾=1”,我们都可以预料到该行满足“警报=1”。即使警报触发这一结果包含不确定性,这种屏蔽模式仍然成立。例如,假设现在有一个出故障的警报系统,它有5%的时间无法正确报警。此时如果我们仍然只看“烟雾=1”的那些行,那么我们会发现,对于“火灾=0”和“火灾=1”来说,“警报=1”的出现概率是一致的(都是95%)。

只看表中“烟雾=1”那些行数据的做法,被称为“以某个变量为条件”或“对某个变量进行控制”。同样地,若已知烟雾的值,我们就可以说火灾和警报是条件独立的(conditionally independent) [3]  。如果你正在为一台机器编写程序以供其更新信念,那么知道这一点很重要。条件独立性赋予了机器关注相关信息而忽略其他信息的自由。在日常思考中,我们每个人都需要这种许可,否则我们会把很多时间花在寻找虚假的信号之上。但是,当每条新信息的出现都在改变着相关信息和无关信息的界限时,我们要如何决定忽略哪些信息呢?对人类来说,这种筛选的能力是与生俱来的,即使是刚刚三岁,还在蹒跚学步的幼童也能理解这种屏蔽效应,尽管他们叫不出它的名字。我相信,他们的本能一定来自某种心理表征,这种表征的形式很可能类似于因果图。但是机器没有这种本能,这也是我们必须给它们配备因果图的一个原因。

2.A←B→C。这种接合形式被称为“叉”接合,B通常被视作A和C的共因(common cause)或混杂因子(confounder)。混杂因子会使A和C在统计学上发生关联,即使它们之间并没有直接的因果关系。一个好例子(来自大卫·弗里德曼)是“鞋的尺码←孩子的年龄→阅读能力”。穿较大码的鞋的孩子往往阅读能力较强。但这种关系是非因果的——给孩子穿大一号的鞋不会让他有更强的阅读能力!相反,这两个变量的变化都可以通过第三个变量,即孩子的年龄来解释。越年长的孩子鞋码越大,他们的阅读能力也越强。

正如卡尔·皮尔逊和乔治·乌德尼·尤尔所说的那样,我们可以通过“以孩子的年龄为条件”这一操作来消除这种虚假关联。例如,如果我们只看年龄为“七岁”的孩子,我们就会发现这些孩子的鞋码和阅读能力之间没有关系。正如在链接合的例子中,给定B之后,A和C就是条件独立的。

在介绍第三个接合形式之前,我们需要额外说明一点。我刚才提到的条件独立性是在我们孤立地看这些接合时才展现出来的。如果另有因果路径包围它们,那么我们就需要把这些路径也考虑在内。贝叶斯网络所创造的奇迹就在于,理解了我们现在分别介绍的这三种基本接合就足以让我们读取贝叶斯网络所蕴含的所有独立性,不管这个网络有多复杂。

3.A→B←C。这是最让人着迷的一种接合形式,被称作“对撞”(collider)接合。菲利克斯·艾尔威特和克里斯·文史普以好莱坞演员的三个特征为例阐释了这个接合的含义。这个例子是:才华→名人←美貌。在此,我们认定才华和美貌都有助于演员的成功,但对于一般人而言,美貌和才华完全不相关。

可以看到,当我们以中间的变量B为条件时,这种对撞接合的运作方式与链接合或叉接合正好相反。如果A和C原本是相互独立的,那么给定B将使它们彼此相关。例如,如果我们只选取著名演员的数据(换言之,我们现在只观察“名人=1”的数据),那么我们就会看到才华与美貌之间出现了负相关,这种负相关可以解释为:发现某位名人并不美貌这一事实,会使我们更相信他富有才华。

这种负相关有时被称为对撞偏倚或“辩解”效应(explain-away effect)。为简单起见,我们假设成为名人不需要你既有才华又有美貌,你只需要具备其中的一个就足够了。也就是说,一方面,如果名人A是一个演技极佳的演员,那么光是这一点就足以“辩解”他的成功了,他也就不需要比普通人更漂亮了。另一方面,如果名人B是一个糟糕的演员,那么他获得成功的唯一原因就是他长得好看。因此,如果我们已知“名人=1”,那么才华和美貌就是负相关的,即使二者在一般人的总体数据中并不相关。甚至在更现实的情况下,即成功是美貌与才华经过某种复杂的结合形成的结果,辩解效应仍然存在。这个例子固然还存在可质疑之处,因为美貌和才华难以客观衡量,但它已经充分说明了对撞偏倚是真实存在的,我们在本书中还将看到许多这方面的例子。

这三种接合形式,链接合、叉接合和对撞接合,就像分隔因果关系之梯第一层级和第二层级大门的锁眼。透过锁眼向第二层级窥探,我们就可以发现观测数据背后的因果过程的秘密。每一种接合都代表了一个因果流的不同模式,并在数据中以条件独立性和非独立性的形式留下标记。在公开讲座中,我常称它们为“神的恩赐”,因为它们能让我们检测已有的因果模型,发现新的模型,评估干预效应,等等。尽管如此,它们仍然距离现在的我们很远,我们只能惊鸿一瞥,管中窥豹。我们需要一把能完全打开这扇门的钥匙,让我们真正登上第二层级。我们将在第七章了解到,这把钥匙叫作d分离(d-separation,也叫分隔定理),其涉及所有这三种基本接合形式。这个概念能够告诉我们,对于模型中任何给定的路径模式,我们应该期望在数据中看到怎样的概率依存模式。原因和概率之间的这一基本联系构成了贝叶斯网络对因果推断科学的主要贡献。

证据

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000