• 精选
  • 会员

真实世界中的贝叶斯网络

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

如今,贝叶斯网络已经是一项成熟的技术,你可以从好几家公司买到现成的贝叶斯网络软件。此外,贝叶斯网络也被应用于许多“智能”设备。为了让你了解贝叶斯网络是如何应用于现实世界的,让我们回到本章开始提到的波拿巴DNA匹配软件。

荷兰法医研究所每天都会用到波拿巴,主要用于处理失踪人口案件、刑事调查和移民案件(申请难民庇护的人士必须证明他们在荷兰至少有15名亲属)。不过,波拿巴所做的最令人印象深刻的工作仍然是借助贝叶斯网络进行巨大灾难之后的遇难者身份识别,马来西亚航空17号航班坠机事件后的遇难者身份识别就是一例。

空难遇害者极少能通过与中央数据库中存储的DNA数据进行对比而确认出身份。除一些特殊情况外,最好的做法就是要求遇难者的家庭成员提供DNA信息,寻找与之形成部分匹配的空难遇害者DNA。一些传统的(非贝叶斯的)方法也可以做到这一点,使用此类技术的软件辅助我们解决了在荷兰、美国和其他地方发生的多起惨案中的遇害者身份识别难题。例如,一个被称为“亲子关系指数”(Paternity Index)或“同胞关系指数”(Sibling Index)的简单公式就可以用于估计不明DNA(遇难者)来自DNA提供者(可能的遇难者家属)的双亲或兄弟姐妹的概率。

然而,这些指数或公式是有局限性的,因为它们只适用于判定某种特定的关系,且只对近亲有效。波拿巴软件的设计初衷则是让人们能够使用来自远亲或多个亲属的DNA信息来判定遇难者身份。波拿巴通过将家谱(见图3.7)转换成贝叶斯网络实现了这一目的。

图3.7 马航坠机事件中多名遇难者的真实家谱(资料来源:数据由威廉·伯格斯提供)

在图3.8中,我们看到了波拿巴是如何将家谱的一小部分转换为(因果)贝叶斯网络的。需要解决的核心问题是:在DNA测试中检测到的个体基因型同时包含了父亲和母亲的贡献,但我们不知道哪部分来自父亲,哪部分来自母亲。因而在贝叶斯网络中,父亲和母亲的基因贡献(被称为“等位基因”)不得不被视为隐藏的、不可测的变量。波拿巴的部分工作是从证据[例如,遇难者有一个蓝眼睛基因和一个黑眼睛基因;其父亲一方的堂兄弟(姐妹)都是蓝眼睛,而其母亲一方的表兄弟(姐妹)都是黑眼睛]推断出因(遇难者的蓝眼睛基因来自他的父亲)的概率。这是一个逆概率问题,也是贝叶斯法则被发明出来的原始目的。

图3.8. 从DNA测试到贝叶斯网络。在贝叶斯网络中,白色节点代表等位基因,黑色节点代表基因型。只有黑色节点是有数据的,但基因型无法指明哪个等位基因来自父亲,哪个来自母亲。贝叶斯网络可以对不可观测的节点进行推理,同时也可以估计某一特定DNA样本来自图示谱系中的子女的可能性(资料来源:马雅·哈雷尔绘图)

一旦建立了这一关于家谱的贝叶斯网络,我们要做的最后一步就是输入遇难者的DNA,并计算出它与家谱中的特定位置相匹配的可能性。这一计算是借助基于贝叶斯法则开发的信念传播来完成的。该计算以对网络节点的每个可能陈述赋予一定的信念度为起点,随着新证据进入网络,网络中上上下下每个节点的信念度将发生连锁式的变化。因此,例如,一旦我们发现特定的样本可能与家谱中的某个人相匹配,我们就可以在网络中“四处传播”这个信息。如此,波拿巴就不仅能从在世的家庭成员的DNA中抓取信息,而且可以从它已经做出的鉴别中学习。

这个例子生动地说明了贝叶斯网络的诸多优势。网络一经建立,调查员就不再需要对其进行干预,告诉它该如何评估新的数据片段。整个网络的升级更新可以很快完成。(贝叶斯网络尤其适合在分布式计算机上汇编和运行。)这个网络是一体化的,这意味着它作为一个整体对所有的新信息做出反应。这就是为什么即使是某位遇难者的姑妈或二表哥的DNA也能被用于识别遇难者身份。贝叶斯网络近乎一个有生命的有机体,这并不意外,因为这正是我竭力攻克各种难题以让它发挥作用时所想到的画面。我希望贝叶斯网络像人脑的神经细胞网络一样运作:触碰一个神经元,整个网络就会以向系统中的所有其他神经元传播信息作为回应。

贝叶斯网络的透明性使它有别于机器学习的其他模型,后者多倾向于制造高深莫测的“黑箱”。在贝叶斯网络中,你可以一个节点接一个节点地追踪,了解每一个新的证据是如何以及为何改变了整个网络中各个连接的信念的。

尽管波拿巴已经足够简洁优雅了,但必须指出的是,它仍然有一个缺陷:欠缺人类的直觉。一旦分析工作完成,它就可以为法医研究所的专家提供每个DNA样本与家谱中的各个节点的匹配程度(用似然比来表示)从高到低的排名。然后,调查人员就可以将DNA证据与从坠机现场搜集到的其他物证以及他们的直觉进行自由结合,做出最终决定。目前为止,还没有哪一种识别工作是由计算机独立完成的。而因果推断科学的一个目标就是创建更顺畅的人机接口,比如将调查人员的直觉也纳入信念传播的计算过程。

实际上,利用波拿巴进行DNA鉴别的例子只触及了贝叶斯网络在基因学中的一个浅显的应用。不过,我认为现在我们已经可以开始讨论贝叶斯网络在当今社会普遍存在的第二个应用形式了。事实上,很有可能你的口袋里现在就有一个贝叶斯网络,当然,我们一般把它叫作手机,每个手机都用到了基于信念传播的纠错算法。

首先,在你使用电话交谈时,它会将你动听的声音转换成一串1和0(被称为比特),并使用无线电信号传送这一信息。遗憾的是,没有任何无线电信号拥有完美的保真度。当信号传到手机信号塔,然后再传到你朋友的手机时,一些比特将随机地从0跳到1或者从1跳到0。

为了纠正这些错误,我们可以添加一些冗余信息。一个特别简单的纠错方案是将每个信息比特重复三次:将1编码为“111”,将0编码为“000”。有效字符串“111”和“000”被称为码字。如果接收主体接收到无效的字符串,如“101”,其将搜索最可能的有效码字来解释它。相比于“101”中的两个1,0更可能是错误的,因此解码器便将这个消息解释为“111”,其得出的结论就是:该信息比特是1。

遗憾的是,这个代码效率很低,因为它让我们传递的所有信息在量上都增长了2倍。而为了不断优化纠错码,通信工程师已经努力了70年。

关于解码的问题与我们讨论过的另一个逆概率问题是类似的,因为我们再次希望从证据(收到的消息是“Hxllo wovld!”)推理出一个假设(发送的消息是“Hello world!”)的概率。看起来,应用信念传播的时机似乎已经成熟了。

1993年,一位名叫克劳德·贝鲁的法国电信工程师震惊了编码世界,他开发的纠错码表现出了近乎最优的性能。(换言之,其所需的冗余信息的数量接近于理论最小值。)他的构思被称为“turbo码”,非常适用于通过贝叶斯网络来解释。

图3.9(a)显示了一个传统纠错码是如何工作的。你对着电话所讲的话被转化为信息比特显示在第一行。这些信息比特被任意一套代码(我们称之为代码A)编码为码字(第二行),然后携带着一些错误被接收(第三行)。这张图就是一个贝叶斯网络,我们可以使用信念传播从接收到的信息比特中推断出发送的信息比特是什么。但是,所有这些处理并不会改善代码A。

图3.9(a)传统纠错码编码过程的贝叶斯网络表示:信息比特被转化为码字,它们到达接收方的传输和接收过程都伴随着噪声(错误)。(b)turbo码的贝叶斯网络表示:信息比特被加扰并被编码两次,然后通过在贝叶斯网络中重复应用信念传播进行解码。在一个迭代过程中,底部的每个处理器都能使用来自其他处理器的信息改进其对隐藏码字的猜测

贝鲁的绝妙想法是对每条消息进行两次编码,一次是直接编码,另一次是在对信息进行加扰之后编码。如此,我们就得到了两个分开的码字,并且让接收方也接收到了两条带噪音的信息[见图3.9(b)]。没有已知的公式可以直接解码这种双重信息,但贝鲁通过实验证明,如果你在这一贝叶斯网络上重复应用信念传播公式,两件特别神奇的事情就会发生:多数时间(我的意思是99.999%的时间)里,你都会得到正确的信息比特。不仅如此,你还可以使用更短的码字。简言之,使用两套代码A的效果要胜于使用一套。

我所讲述的这个故事是真实的,只有一件事例外:贝鲁当时并不知道他使用的是贝叶斯网络!他只是独立地发现了信念传播算法。直到5年后,剑桥大学的大卫·马凯才意识到这与他在20世纪80年代末使用的贝叶斯网络是同一种算法。这一发现将贝鲁的算法妥善地归于一个为我们所熟悉的理论语境中,使信息论学者得以借助以往的研究成果加深对其性能的理解。

事实上,早在1960年,另一位工程师,麻省理工学院的罗伯特·加拉格就使用信念传播(尽管当时它还不叫这个名字)发现了一个类似的代码。这一发现是如此之早,因而被马凯形容为“跨时代的发现”。从任何层面上说,这个代码都远远走在了时代之前。为应用这一代码,加拉格需要一个芯片,其载有数以千计的处理器,用以来回传递关于某个特定信息比特是1还是0的信念度的信息。在1960年,这显然是不可能的事,他的代码也因此几乎被所有人遗忘,直到1998年马凯重新发现了它。如今,它正活跃在我们的每部手机当中。

无论用哪种标准来衡量,turbo码都取得了惊人的成功。在“turbo革命”之前,2G手机使用的是“软解码”(概率),而不是信念传播。3G手机使用的是贝鲁的turbo码,4G手机使用的是加拉格的类turbo码。从消费者的角度来看,使用了新代码的手机耗能更少,电池续航时间更长,因为编码和解码是一部手机中能耗最大的部分。另外,使用这种手机也意味着你不必靠近信号塔就能获得高质量的信号传输。换句话说,贝叶斯网络使手机制造商得以真正兑现了他们的承诺:沟通无处不在。

证据

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000