• 精选
  • 会员

贝叶斯牧师与逆概率问题(2)

2020年7月10日  来源:为什么:关于因果关系的新科学 作者:[美]朱迪亚·珀尔;[美]达纳·麦肯齐 提供人:kangtao76......

为阐释贝叶斯方法的工作原理,让我们从一个简单的茶室顾客的例子开始。在这个例子中,我们收集了关于茶室顾客个人偏好的数据。从第一章的讨论中我们已经知道,数据对于因果不对称是完全不敏感的,因此应该能为我们提供一种解决逆概率难题的方法。

假设光顾茶室的顾客中有2/3的人点了茶,点茶的人中还有1/2同时点了烤饼。那么,有多少顾客同时点了茶和烤饼?这个问题没什么技术含量,答案近乎显而易见。因为2/3的一半是1/3,所以有1/3的顾客同时点了茶和烤饼。

我们借助一组虚拟数据来重新阐述一下这个例子。假设我们为接下来进店的12位顾客的订单列一个表。如表3.1所示,有2/3的顾客(编号为1、5、6、7、8、9、10、12的顾客)点了茶,其中又有1/2的人点了烤饼(编号为1、5、8、12的顾客)。因此,正如我们在看到具体数据之前所预测的那样,同时点了茶和烤饼的顾客比例是(1/2)×(2/3)=1/3。

表3.1 茶—烤饼示例的虚构数据

贝叶斯法则的提出就是源于贝叶斯注意到了我们可以反向地分析数据。即我们观察到有5/12的顾客(编号为1、2、5、8、12的顾客)点了烤饼,其中4/5的顾客(编号为1、5、8、12的顾客)点了茶。因此,同时点了茶和烤饼的顾客的比例就是(4/5)×(5/12)=1/3。当然,两个结果的相同并非巧合,我们只是采用了两种不同的方法来计算同一个量。顾客下订单的时间顺序对此没有影响。

为了将这种解决思路拓展为一般法则,我们可以用P(T)表示顾客点茶的概率,用P(S)表示点烤饼的概率。如果我们已知一个顾客点了茶,那么P(S|T)就表示这位顾客点烤饼的概率。(我们之前说过,竖线意为“假设我知道”。)同样,如果我们已知某位顾客点了烤饼,则P(T|S)就表示这位顾客点茶的概率。如此一来,我们在上文做过的第一个计算就是:

P(S且T)=P(S|T)P(T)

第二个计算则是:

P(S且T)=P(T|S)P(S)

正如欧几里得在2300年前说的,如果两个量分别等于第三个量,那么这两个量也相等。在此例中,这意味着:

P(S|T)P(T)=P(T|S)P(S) (3.1)

这个看似简单的方程就是贝叶斯法则。如果仔细观察它所表达的内容,我们就能发现它提供了逆概率问题的一种通用解决方案。它告诉我们,如果我们知道给定T后S的概率,即P(S|T),那么我们就应该能够计算出给定S后T的概率,即P(T|S),当然前提是我们已知P(T)和P(S)。这也许是贝叶斯法则在统计学中最重要的应用:我们可以在我们的判断较为可靠的一个方向上直接估算出条件概率,并利用数学工具推导出在我们的判断较为模糊的另一方向上的条件概率。在贝叶斯网络中,该方程也扮演了同样的角色:我们告诉计算机前向概率,在需要时,计算机告诉我们逆概率。

为了解贝叶斯法则在茶室例子中的工作原理,现在我们假设你没有费心计算P(T|S),而是将包含数据的电子表留在了家里。不过你碰巧记得,有1/2点了茶的顾客也点了烤饼,并且有2/3的顾客点了茶,有5/12的顾客点了烤饼。此时,店主突然问你:“点了烤饼的顾客中还点了茶的顾客占比是多少?”不必惊慌,因为你可以根据已知的其他概率算出答案。根据贝叶斯法则,P(T|S)(5/12)=(1/2)(2/3),所以,你的答案就是P(T|S)=4/5,因为对于P(T|S)来说,4/5是使这个等式成立的唯一值。

我们还可以将贝叶斯法则看作一种方法,用以更新我们对某一特定假设的信念。理解这一点非常重要,因为人类对未来事件的信念大多取决于该事件或类似事件在过去发生的频率。事实上,当一位顾客走进茶室大门时,根据我们过去与类似顾客的接触,我们会判断他可能想要喝茶。而如果他先点了烤饼,那我们就更确定他会点茶了。事实上,我们甚至可以主动建议:“我猜你想点茶配烤饼。”贝叶斯法则所做的只是让我们能够将数字融入这个推理过程。从表3.1可以看出,顾客想点茶的先验概率(意思是顾客走进茶室后,在真正点餐之前他想要点茶的概率)是2/3。而如果这位顾客点了烤饼,那么我们就掌握了更多以前所不知道的关于他的信息:鉴于他已经点了烤饼,那么现在他想点茶的更新(后)概率是P(T|S)=4/5。

从数学的角度来说,这就是贝叶斯法则的全部内容。看起来似乎平凡无奇,只涉及条件概率的概念以及少许古希腊逻辑常识。你可能会问,这么一个简单的招数是如何让贝叶斯就此扬名学界的?为什么人们为贝叶斯法则争论了250年之久?毕竟,数学知识是用来解决争议的,而不是用来制造争议的。

这里我必须承认,在茶室的例子中,我从数据推导出贝叶斯法则的过程有意掩盖了两条深刻的异议的存在,一条是哲学层面的,另一条是应用层面的。哲学层面的异议聚焦于将概率解释为一种信念度(degree of belief) [2]  的观点,我们在茶室例子中含蓄地使用了这种解释。但没有人明确说过,信念可以等同于或应该等同于数据中的比例。

这一哲学争论的关键在于,我们是否可以合法地将“假设我知道”这句表达翻译成概率语言。即使我们承认无条件概率P(S)、P(T)和P(S且T)反映了我对这些命题的信念度,但谁能证明我对T的修正后的信念度就应该等于P(S且T)/P(T),就像贝叶斯法则所规定的那样?“假设我知道T”是否就等同于“在T发生的情况下”?以符号P(S)作为表示法的概率语言,其根本目的是捕捉概率游戏中的“频率”这一概念。但“假设我知道”是一种认识论范畴的表达,受到知识的逻辑而非频率和比例的逻辑的约束。

从哲学的角度来看,托马斯·贝叶斯的成就在于他首次提出了条件概率的正式定义,即P(S|T)=P(S且T)/P(T)。但应当承认,他的阐释是晦涩的,他没有使用“条件概率”这个术语,而是使用“假设第一个事件发生了,第二个(事件)发生的概率”这种烦琐的描述。直到19世纪80年代,人们才意识到“假设”这种关系需要有它自己的表示符号。最终,哈罗德·杰弗里(多以地球物理学家而非概率论学者的身份为人所知)于1931年正式提出了现在我们在P(S|T)中使用的标准竖线表示符号。

正如我们看到的,在形式上,贝叶斯法则只是贝叶斯给出的条件概率定义的一个初等推论。但在认识论上,它远远超出了初等概念的范畴。事实上,它作为一种规范性规则,能够应用于根据证据更新信念这一重要操作。换言之,我们不仅应该把贝叶斯法则看作“条件概率”这一新概念的便捷定义,而且应该将其视作一个实证性的指称,其忠实地表达了“假设我知道”这句短语。这句话断定,人们在观察到T之后对S的信念度,永远不会低于人们在观察到T之前对“S且T”的信念度。此外,它还暗示了证据T越出乎意料,即P(T)越小,人们就越应相信它的因S存在或发生。难怪作为主教牧师的贝叶斯的朋友普莱斯认为这是对休谟的有效驳斥。如果T是一个发生概率极低的神迹(“基督复活了”),而S是一个与之密切相关的假设(“基督是上帝之子”),则当我们知道T真实发生了之后,我们对S的信念度就会大幅提升。神迹越是不可思议,在神迹发生后可以解释它为何发生的假设就越可信。这也说明了为何目击者证据给《新约全书》的作者留下了如此深刻的印象。

证据

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000