从客观性到主观性——贝叶斯连接

2020年7月10日　　来源：为什么：关于因果关系的新科学　作者：[美]朱迪亚·珀尔；[美]达纳·麦肯齐　提供人：kangtao76......

在赖特的回应中，他所讨论的另一个主题很可能暗示了统计学家抵制因果关系的另一个原因。他在文章中一再指出，他不希望路径分析变成“陈规俗套”。赖特认为：“路径分析这种灵活的方法与为尽可能避免偏离客观性而设计的刻板的描述统计方法有很大的区别。”

这句话是什么意思？首先，赖特想说的是，路径分析的应用应该以研究者对因果过程的个人理解为基础，这种理解就反映在其所绘制的因果图或路径图中。它不能被简化为一个机械性的程序，就像统计手册里列出的那些操作方法一样。对于赖特来说，绘制路径图不是一种统计学实践，而是一种遗传学、经济学、心理学实践或其他诸领域的研究者在自己的专业领域所进行的一种实践。

其次，赖特将“无模型方法”的诱人之处归因于其客观性。自1834年3月15日伦敦统计学会成立伊始，客观性就是统计学家的圣杯。学会的创始章程规定，在所有的情况下，数据都优先于观点和解释。数据是客观的，而观点是主观的。这个规则的提出远远早于皮尔逊时代。为客观性而奋斗，完全根据数据和实验进行推理的思想，自伽利略以来一直是科学定义自身存在方式的一部分。

与相关性分析和大多数主流统计学不同，因果分析要求研究者做出主观判断。研究者必须绘制出一个因果图，其反映的是他对于某个研究课题所涉及的因果过程拓扑结构的定性判断，或者更理想的是，他所属的专业领域的研究者对于该研究课题的共识。为了确保客观性，他反而必须放弃传统的客观性教条。在因果关系方面，睿智的主观性比任何客观性都更能阐明我们所处的这个真实世界。

在上段中，我说“大部分”统计工具都力求完全客观，也就是说存在一个重要的例外。在过去的50多年里，作为统计学分支之一的贝叶斯统计越来越受人青睐。它曾被认为是一种异端邪说，如今则完全变身为主流思想。在今天的统计学会议上，你已经不会再见到“贝叶斯学派”和“频率派”（frequentists）之间发生激烈辩论的情形，而在20世纪60年代和70年代，此类争论曾频繁爆发。

贝叶斯分析的原型是这样的：先验判断+新的证据→经过修正的判断。例如，假设你抛掷10次硬币，发现其中有9次结果是正面朝上。那么此时你认为硬币抛掷是一个公平的游戏这一判断就可能会发生动摇，但你具体在多大程度上动摇了呢？一位正统的统计学家会说：“在没有任何额外证据的情况下，我倾向于认为这枚硬币掺有杂质，所以我敢打赌，下一次抛掷硬币时，硬币正面朝向的概率为9∶1。”

而一位贝叶斯统计学家会说：“等一下，我们还需要考虑一下我们对于这枚硬币的先验知识。”这枚硬币是从附近的杂货店买的，还是从一个名声不怎么样的赌徒那儿得来的？如果这只是一枚普通的硬币，那么大多数人是不会因为9次结果为正面朝上的巧合就发生动摇的。相反，如果我们可以合理怀疑这枚硬币被做了手脚，那我们会更愿意得出这一结论，即9次正面朝上的结果充分证明了偏倚的存在。

贝叶斯统计为我们提供了一种将观察到的证据与我们已有的相关知识（或主观判断）结合起来以获得修正后的判断的客观方法，借由这种方法，我们就可以对下一次硬币抛掷结果的预测进行修正。而频率派无法忍受的正是贝叶斯学派允许观念以主观概率的形式“入侵”“纯洁”的统计学王国的做法。在贝叶斯分析被证明是一种优秀的工具，且适用于各种应用场景，包括天气预报和追踪敌方潜艇之后，主流的统计学家也只能勉强地承认对手的成功。此外，许多例子已经证明，随着数据量的增加，先验判断的影响会越来越小，乃至彻底消失，这就让我们最终得到的那个结论仍然是客观的。

遗憾的是，主流统计学界对贝叶斯学派的主观性的接受并没能促进其对因果主观性的接受，他们仍然排斥在分析问题之前先依据已有的因果知识绘制路径图的方法。为什么？答案在于表述语言上的巨大障碍。为了阐明主观假设，贝叶斯统计学家沿用了高尔顿和皮尔逊的“母语”——概率语言。而阐述因果推断的假设需要的是一种内涵更丰富的语言（如因果图），这对于贝叶斯学派和频率派而言同样陌生。贝叶斯学派与频率派之间的和解表明，哲学上的障碍还可以用善意和通用语言来弥合，而语言上的障碍则远没有那么容易克服。

此外，即使数据量增加，因果信息中的主观成分也不一定会随着时间的推移而减少。绘制出两个不同的因果图的两个人可以分析相同的数据，但很可能永远不会得出相同的结论，无论数据有多“大”。这对于科学客观性的倡导者来说是一个可怕的前景，也说明了他们拒绝依赖主观因果信息的确有其必然性。

从积极的一面说，因果推断在一个极其重要的意义上是客观的：一旦两个人就假设达成了一致，因果推断就为他们提供了一种百分之百客观的方法用以解释任何新出现的证据（或数据）。因果推断的这一属性与贝叶斯推断是一致的。因此，对于我在真正进入因果推断科学领域之前，曾以贝叶斯概率为起点，围着贝叶斯网络走了一大圈弯路的经历，内行的读者可能并不惊讶。我将在下一章讲述这个故事。

[1]中心极限定理是概率论的“无冕之王”，高尔顿曾盛赞它所蕴涵的宇宙秩序之美妙无可比拟，可见其对人类认知的影响是多么深远。——译者注

[2]也称作“高斯分布”，是高斯在研究误差理论时首次明确提出的，其密度函数曲线关于均值对称，中间高两边低。中心极限定理揭示了在一定的条件下为何正态分布是普遍存在的。——译者注

[3]1英尺≈30.48厘米。——编者注

[4]回归“regression”一词在英语中还有退化、退步、衰退、倒退的意思。——译者注

[5]女性的身高一般低于男性，因此高尔顿利用计算出的男女平均身高之比（1.08）将女性的身高乘以1.08换算成男性身高。高尔顿据此定义了“中亲”（mid-parents）身高=1/2（父亲的身高+1.08×母亲的身高），用来计算父辈的身高。本书为了讲述方便，将之简化为父子身高。——译者注

[6]列联表检验是卡方检验的特例，是独立性假设检验的常用方法之一。——译者注

因果推断

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。