数理统计中有频率学派和贝叶斯学派之分。关于两者的差异,众说纷纭,网上博客、知乎有专门的讨论。
然而,从更高的哲学上看待这个问题,就会发觉,贝叶斯论和频率论的真正区别在于人们如何解释概率之间的哲学差异。本文将透彻分析贝叶斯背后的哲学与数学思想。让大家从一个更高的视角来把应用贝叶斯思想及推理,不光是应用于机器学习算法,还能指导工作生活。
贝叶斯定理的证据思想
将A视为关于世界的一些命题,将B视为一些数据或证据。例如,A代表今天下雨的命题,B代表外面人行道潮湿的证据,那么分析一下这个贝叶斯推理过程的思想。
p(雨|湿) 问道,"外面潮湿,下雨的几率是多少?" 为了评估这个问题,让我们来看看方程式的右侧。在看地面之前,下雨的概率是多少, p(下雨)?将此视为对世界的假设的合理性。然后我们问在这个假设下,外面潮湿的观察有多少可能性, 即p(潮湿|下雨)?根据证据,这个过程有效地更新了我们对一个命题的初步信念,在一些观察的支持下最终衡量了降雨的合理性。
我们的初始信念由先验分布p(下雨)表示,我们的最终信念由后验分布p(雨|湿)表示。分母只是问:"证据的总合理性是多少?",我们必须考虑所有假设,以确保后验是一个合适的概率分布。
这种思维方式可以帮助你摆脱对世界的黑白解释,而不是通过概率镜头来观察事物和解释。
从一个基于证据的世界观开始,如果引入新证据,你的初始世界观的概率会发生变化。
贝叶斯哲学本质:动态的看待世界
贝叶斯定理本质:
贝叶斯定理是一种基于最佳可用证据(观察,数据,信息)计算信念(假设,主张,命题)的有效性的方法。最本真的描述:最初的信念加上新的证据=新的和改进的信念。
所以你对自己信仰的确定性并不是固定的,而是流动的、可塑的。您应该能够根据新证据修改您的意见。
辩证法强调不要静止的看问题,要动态的看问题。所以为突出强调动态看问题的哲学思想,进一步的描述为:
我们用客观信息修改我们的观点:初始信念+最近的客观数据=新的和改进的信念。每次重新计算系统时,后验都成为新迭代的先验。这是一个不断发展的系统,每一点新信息都越来越接近于确定性。
这种思维方式可以帮助人们减少确认偏差的影响,从而开启对新可能性的看法。
贝叶斯推理过程,是一个不断修正的趋近于真理的过程。
贝叶斯定理的另一个用法是判断一个假设发生在另一个假设上的可能性。
中心前提是第一原则,即这个世界上大多数事物都是不确定的。很多时候你没有完美的信息,你不知道一切,你需要做出推论。
贝叶斯定理,在一个充满不确定性的世界中,为我们的决策提供信息。随着新信息的出现,需要反思这些新证据如何改变对事物的看法,然后根据它进行修正。
贝叶斯哲学精神:科学的客观性和精确性
伯茨麦格雷恩有一个对贝叶斯的经典陈述:
贝叶斯坚信,现代科学需要客观性和精确性。贝叶斯是信仰的衡量标准。它说我们甚至可以从缺失和不充分的数据,近似和无知中学到东西。
随着人们开始认识到人类思考和决策方式的固有不完善性,贝叶斯思想的应用正在不断增长。
很长一段时间,经典的经济学模型将人视为理性行为者,在开明的自我利益的基础上做出决策是完美的。现在我们开始意识到这种观点是有缺陷的,相反,人类行为经济学作为认知偏见的牺牲品的观点正变得越来越普遍。
贝叶斯思维也是我们学习方法的一个很好的近似。纳特?西尔弗在《信号与噪音》中说:
" 相反,它(贝叶斯定理)是一种在数学和哲学上表达我们如何了解宇宙的声明:我们通过近似来了解它,在我们收集更多证据时越来越接近真相。"
贝叶斯数学思想:用数据调整先验
贝叶斯推理是非常强大的工具,可用于对任何随机变量进行建模,例如回归参数的值、人口统计数据、业务KPI或单词的词性。对于在机器学习建模中当数据有限、担心过拟合等情况下更有非常有用。
接下来通过高斯分布估计来讲解贝叶斯在应用于参数估计中的数学思想与方法。
在分布参数前提下的数据的概率:条件概率分布
假设我们给出了高斯随机变量X的样本数据集,D = {x1,...,xN},并且给出数据的方差是σ2
我们对μ的最佳猜测是什么?这里假设数据是独立的并且分布相同。
把高斯分布写成似然函数的形式如下,就是在当前参数下数据发生的概率密度函数:
我们希望选择最大化此表达式的μ。
贝叶斯概率
对于上边高斯分布参数估计,我们用贝叶斯定理的思想解决,我们的目的是求得参数,换作概率的表达就是,求在参数d的概率条件下的θ的概率,即p(θ|d):
p(d|θ)是似然函数,概率的形式,实质上就是上文中写成条件概率形式的概率密度函数。p(θ)
是先验概率(先前的信念)。
归一化常数,也就是证据的总合理性量度,必须考虑所有假设。p(θ|d)是后验分布,在面对数据时重新调整我们先前的信念(先验概率)。
这样,我们就把一个求取参数的过程转化为贝叶斯定理的求解过程。
最大后验概率估计MAP
在高斯分布估计中,假设我们事先认为某个随机变量X的平均值是μ0,我们的信念的方差是σ02,然后我们给出X的样本数据集,d = {x1,...,xN},如下图所示,并且以某种方式知道数据的方差是σ2,本文只给出求取一个参数的情况。
现在求后验分布参数μ?
上面的假设,已知知道高斯分布两个参数如下,即先验。
根据贝叶斯概率,我们所求即为:
p(d|u)是似然函数,如下图所示:
p(u)是μ的先验概率:
后验概率可写为:
根据两个高斯分布的乘积也是高斯分布,后验概率也是高斯:
通过变换形式,最后得到: