• 精选
  • 会员

信息熵

2019年6月8日  来源:返朴 作者: 提供人:jiashou88......

1. 信息熵

对需要交流的人类而言,通讯犹如吃饭睡觉一样重要。就像人类不断探索水稻增产一样,不断改进通讯质量与速度的科学研究一直是全世界方兴未艾的事业。1948年,博士毕业后就在贝尔实验室里研究通讯技术的电子工程师克劳德 ? 香农(Claude Shannon, 1916-2001)在《贝尔系统技术杂志》(Bell System Technology Journal)上分两期发表了他一生中也许是最有名的一篇论文:《通讯的数学理论》(A mathematical theory of communications,1948),引入了一条全新的思路,震撼了整个科学技术界,开启了现代信息论研究的先河。在这一伟大的贡献中,他引进的“信息熵”之一般概念举足轻重:它在数学上量化了通讯过程中“信息漏失”的统计本质,具有划时代的意义。

信息熵是怎样炼成的 | 纪念信息论之父香农

克劳德-香农(Claude Shannon, 1916-2001)

香农生于美国密歇根州,本科毕业于“美国大学之母”密歇根大学。他儿时崇拜的英雄人物是大名鼎鼎的、造福全人类的美国大发明家托马斯-爱迪生(Thomas Alva Edison, 1847-1931),后来他发现这位英雄是他家的一个远亲。二十岁本科毕业时,他拿回了电子工程和数学两张学士文凭。而他在密西根大学修课时接触到英国数学家和哲学家乔治-布尔(George Boole, 1815-1864)最有名的工作“布尔代数”,成就了他二十一岁在麻省理工学院完成的题为《中继及开关电路的符号分析》(Symbolic analysis of relay and switching circuits,1937)的硕士学位论文。有人说这是二十世纪甚至人类历史上最有价值的硕士论文,因为它用布尔代数的理论首次表明对付真假李逵的“符号逻辑”与对付电路开关的“0-1数字”具有一致性,从而论证了数字计算机和数字线路的逻辑设计之可能性。

香农最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information(信息)”,但又认为这个名词太过大众化,已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty(不确定性)”,但它却更像抽象名词,缺乏量化的余地,确实难于定夺。终于有一天,他遇见了天才的数学家冯 ? 诺依曼(John von Neumann, 1903-1957)。真是找对了人!冯·诺依曼马上告诉他:

就叫它熵吧,这有两个好理由。一是你的不确定性函数已在统计物理中用到过,在那里它就叫熵。第二个理由更重要:没人真正理解熵为何物,这就让你在任何时候都可能进能退,立于不败之地。

香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说,如果天气预报说“今天中午下雨的可能性是百分之九十”,我们就会不约而同想到出门带伞;如果预报说“有百分之五十的可能性下雨”,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。

对于一般的不确定事件,我们怎样数学地刻画它的不确定程度呢?设想有n个“基本事件”,各自出现的概率分别为

信息熵是怎样炼成的 | 纪念信息论之父香农

则它们构成一个样本空间,可以简记为所谓的“概率数组”

信息熵是怎样炼成的 | 纪念信息论之父香农

样本空间最简单的例子是我们上面提到的抛硬币游戏,它只有两个基本事件:抛硬币结果是“正面朝上”或“反面朝上”,其中每个事件的概率均为 1/2,其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称,使得抛硬币时正面朝上的概率增加到7/10,而反面朝上的概率减少到3/10,则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度,用数 H(7/10, 3/10) 代表第二个样本空间的不确定度,那么直觉马上告诉我们:数 H(1/2, 1/2) 大于数 H(7/10, 3/10),也就是前者比后者更加不确定。

更一般地,若用

信息熵是怎样炼成的 | 纪念信息论之父香农

记样本空间

信息熵是怎样炼成的 | 纪念信息论之父香农

所对应的不确定度,运用同样的直觉分析,我们相信当所有的基本事件机会均等,即都有同样的概率1/n时,其不确定度最大。因而,不确定度函数H应该满足如下的基本不等式:对所有的加起来等于1的非负“概率数”

信息熵是怎样炼成的 | 纪念信息论之父香农

信息熵是怎样炼成的 | 纪念信息论之父香农

如果我们不抛硬币,而像澳门赌场的常客那样掷骰子,每掷一次,小立方骰子的每一个面朝上的概率均为1/6。想一想就知道,某个指定面朝上的不确定度应大于玩硬币时正面或反面朝上的不确定度。将这个直观发现一般化,我们就有不确定度函数H 应该满足的单调性要求:

信息熵是怎样炼成的 | 纪念信息论之父香农

假设物理系赵教授、数学系钱教授和孙教授竞争理学院的一笔科研基金,他们每人申请成功的概率分别为1/2、1/3、1/6。院长为求公平,让每个系得此奖励的机会均等。若物理系拿到资助,就到了赵教授的名下。如数学系得到了它,钱教授有2/3的概率拿到,孙教授则有1/3的机会到手。通过分析“条件概率”,我们能得出不确定度 H(1/2, 1/3, 1/6) 的数值:这三个教授获得基金的不确定度,等于物理系或数学系拿到这笔基金的不确定度,加上数学系赢得该基金的概率与在数学系拿到基金的条件之下,钱教授或孙教授得到它的不确定度之乘积。换言之,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ? H(2/3, 1/3)。推而广之,可以得出不确定度与条件概率有关的“加权和”性质:

信息熵是怎样炼成的 | 纪念信息论之父香农

既然我们想用一个漂亮的数学公式来表达不确定度这一样本空间概率值函数,我们自然希望这个函数表达式和几乎所有的物理公式一样连续依赖于公式中的所有变元。这样,第四个条件就自然而然地加在了不确定度函数的头上:

信息熵是怎样炼成的 | 纪念信息论之父香农

香农无需什么高深的数学,甚至连微积分都可不要,就证明了:任何在所有样本空间上都有定义的函数H,只要它满足以上的“三项基本原则 (2)(3)(4)”,就非如下的表达式莫属:

信息熵是怎样炼成的 | 纪念信息论之父香农

其中符号 ln 代表以 e 为底的自然对数函数,C 可以是任意一个常数。并可证明,条件(1)自动满足(有兴趣的读者可用初等微积分证之)。当然,熵公式的证明需要的是一种创造的头脑思维、一手精湛的代数技巧、一个巧妙的极限思想。如果C取成玻尔兹曼常数,它就能和当年吉布斯在统计热力学中得到的“吉布斯熵”一模一样。香农取 C = 1,如此得到了非负函数:

信息熵是怎样炼成的 | 纪念信息论之父香农

按照冯 ? 诺依曼的建议,该函数被定义为样本空间 (p1, p2, …, pn) 所对应的信息熵。现在,这个数被广称为“香农熵”,以纪念它的创造者、信息论之父——香农。

现在,为了满足读者追根求源的好奇心,我们在此给出一个高中生也能看懂的简单证明。这是活学活用初等代数的好机会,我们分三步来证明:

信息熵是怎样炼成的 | 纪念信息论之父香农

信息熵是怎样炼成的 | 纪念信息论之父香农

信息熵是怎样炼成的 | 纪念信息论之父香农

信息熵是怎样炼成的 | 纪念信息论之父香农

信息熵是怎样炼成的 | 纪念信息论之父香农

如上证明是我在1989年从我的博士导师李天岩教授于密歇根州立大学所作的公众报告中听到的。细看一下香农熵的公式,除了负号,它是基本函数 x ln x 的有限个函数值之和。这个函数的图像就像大厨师手中侧面看过去的长勺子。向上弯曲的曲线有几何性质:连接上面任意两点的直线段都在这两点之间的曲线段之上。运用初等微分学,读者可以证明,对任意两个正数a和b,有

a – a ln a ≤ b – a ln b。

这就是现在冠以吉布斯大名的初等不等式,在一切与熵有关的数学问题中均有上乘表现,比如说我们在下面的第3节就要用到它。

当所有的概率值pi都取为1/n时,吉布斯熵就还原成玻尔兹曼熵,它可看成是最大可能的吉布斯熵。同理,这时的信息熵取值最大,等于 ln n。

信息熵 / 信息论 / 香农

如涉及版权,请著作权人与本网站联系,删除或支付费用事宜。

0000