伴随高超的想象力和创造性的思维,即便初等数学也能导致伟大的发现。信息熵现在也叫“香农熵”,它简单而美丽的表达式,是五彩缤纷的现代信息与通讯时代的发源地,也是“数学,只有数学,才是科学技术发展的原动力”这句断言的见证者。
撰文
丁玖(美国南密西西比大学数学系教授)
一百年前,中美两国各自诞生了一位科学名人,他们是分别出生于1916年4月30日和7月7日的信息论之父香农(Claude Elwood Shannon, 1916-2001)及应用数学翘楚林家翘 (1916-2013)。他们都是数学奇才,又同在麻省理工学院执教多年,一个在电子工程系,一个在数学系,也被教务长任命为校级应用数学委员会的首批委员。去年我写了一篇长文,纪念流体力学“不稳定性先生”林家翘的百岁诞辰(详见纪念林家翘先生的《数坛风流,百年翘楚》),这次禁不住再次挥笔,回顾信息天使香农的灿烂人生。
香农的一生,可以说是数学与理工这对恋人的最佳组合,也可成为诠释林家翘应用数学理念的极好例证。他的一生杰作无数,许多学术成果都是数学思想的直接产儿,甚至有些文章的题目都有模式:某某论题的数学理论。例如1941年发表的《微分分析机的数学理论》(Mathematical Theory of the Differential Analyzer)及1945年提交给雇主贝尔实验室的报告《密码术的数学理论》(A Mathematical Theory of Cryptography),从标题上看好像是数学家为工程师们写的文章。
微分分析机,一种用来解决微分方程的电子仪器
香农最伟大的论文《通信的数学理论》(A Mathematical Theory of Communication)发表于1948年,题目格式也跟上述文章如出一辙。该文宣告了“信息论”作为一门学科的诞生。他几乎同样伟大的创造是21岁时于麻省理工学院完成的硕士论文《中继及开关电路的符号分析》(A Symbolic Analysis of Relay and Switching Circuits)。在这篇文章中,他运用在密歇根大学读本科时学到的“布尔代数”,论证了数字计算机及数字线路逻辑设计之可能性。第一台现代电子数字计算机 ENIAC 研制者之一的戈德斯坦(Herman H. Goldstine, 1913-2004),曾写过获奖图书《计算机:从帕斯卡到冯诺依曼》(The Computer from Pascal to von Neumann),他把香农的硕士论文称为“有史以来最重要的一篇硕士论文”。
香农最伟大的论文《通信的数学理论》中文版封面
1940年,香农以名为《理论遗传学的代数》(An Algebra for Theoretical Genetics)的学位论文获得麻省理工学院的数学博士文凭,之后在普林斯顿高等研究院待了一年,与爱因斯坦、外尔、冯·诺依曼等数理大家时有接触,翌年去了贝尔实验室工作。经过七年的不懈努力,他提炼出“信息熵”这一重大概念,证明了一系列关于熵的数学定理。然而,“熵”这个信息论专业词汇最终却是冯·诺依曼替他起的。在建立这个有关信息传输不确定性的量化过程中,他一开始想用“信息”(information)这个词表示“不确定程度”,但这个已被老百姓用滥了的普通名词根本没有数量化的资本。后来他又想用“不确定性”(uncertainty)来表达“不确定度”,但这个抽象名词无法胜任它应肩负的量化责职。某天他碰到知识丰富的大数学家冯·诺依曼,便向他求教。后者建议他就用“熵”这个词,理由有二:一是它来自热力学与统计物理,已有不确定性的含义,二是没人真懂熵为何物,容易避免争论。
熵的英文原名及其汉译也颇有意思。德国数学物理学家克劳修斯(Rudolf Clausius, 1822-1888)于1865年首次使用 Entropie 这个源自希腊文的熵德语单词,来表达热力学中的热量转换。他并用大写的“S”代表之,以纪念法国的热力学先驱卡诺(Sadi Carnot, 1796-1832) 。1923年,当他的后辈物理学家、热力学教授普朗克(Rudolf Plank, 1886-1973)来中国讲学时(注:1923年访华的“普朗克”通常被误会为参与创立量子力学的 Max Planck教授,然而经中科院物理所曹则贤研究员等人的考证,大名鼎鼎的 Max Planck不曾访华,访华的应是一位出生于乌克兰,后在 Dantzig(原属东普鲁士,现属波兰)工业大学担任热学教授的 Rudolf Plank。有兴趣的读者可参看曹则贤《物理学咬文嚼字:卷一(增补卷)》第27篇“熵非商——the myth of entropy”的补缀部分),他提到的 entropy 表达为两数之商的形式,因而在旁翻译的胡刚复博士(1892-1966)灵机一动,将它翻译成“熵”,既有数学的“商”又有热力学的“火”。真是妙译!
香农1948年提出的信息熵不仅成了他开创的信息论的基本概念,而且帮助了苏联大数学家柯尔莫哥洛夫在1957年建立保测变换动力系统的测度熵概念以及 1965年其他三位数学家发展连续变换拓扑动力系统的拓扑熵概念。1957年去世的冯·诺依曼大概没想到熵在动力系统中扮演着系统内部混乱程度测量器角色。从谷歌学术(scholar.google.com))网页上可知,香农这篇文章的被引用次数已超过 87400。
香农出生在美国密歇根州一个名叫 Petoskey 的湖边小城,这个湖就是五大湖之一的密歇根湖。美国历史上家喻户晓、在中国也赫赫有名的大发明家托马斯·爱迪生(Thomas Alva Edison, 1847-1931)是他家的远房亲戚,也是他从小无比崇拜的英雄。不知他身上流淌的血液与爱迪生有多少交集,他和这个伟大的前辈一样从小到老喜欢动手,热衷实验。不过他比爱迪生更进一步的是,他更喜欢数学,因而 20 岁于密歇根大学本科毕业时,拿回家的双学士证书是电子工程和数学,而后者赐予他的严格逻辑思维训练让他一辈子受益无穷。比如,正是他在密歇根大学修课时接触到英国数学家布尔(George Boole, 1815-1864)的最伟大发明布尔代数,才成就了他那篇麻省理工学院历史上的最优秀硕士论文。他的求学经历对中国的工科大学生和研究生很有启发:如果你想成长为杰出的工程师,年轻时多学点数学思想,多读些数学书籍,而不要急于沉湎于琐碎的工程细节。
少年香农
香农的学术生涯闪耀着应用数学的光彩,与林家翘的人生轨迹不谋而合。两个同龄人,都不是象牙塔里埋头推导公式的纯粹数学家,而是向自然进军对症下药的应用数学家,一个在流体力学和天体力学里竖立了两座高峰,一个开创了整个数字线路信息通讯时代,让亿万民众充分享受了现代文明的乐趣。他们是追随英国人牛顿的数学家,不甚欣赏另一个英国人哈代对纯数学的“孤芳自赏”。自然科学和工程技术是他们玩耍数学十八般武艺的疆场,因为正如伽利略早就宣称的:“自然之书是用数学符号写的!”
数学,几百年来多少人为你唱赞美歌。八百年前的罗吉尔·培根(Roger Bacon, 1212-1294)就预见到“所有科学都需要数学”,怀特海(Alfred Whitehead, 1861-1947)更把纯数学视为“人类灵性最富于创造性的产物”,爱因斯坦也把它誉作“逻辑思想的诗歌”,而狄拉克则感叹“上帝用美丽数学创造了世界”。我在罗素自传中也读到,年轻时代的他曾想自杀,但未践行,因为“我希望知道更多的数学”。
在学术界,纯粹数学家们常有“高傲公主”般的自我陶醉,而应用数学家们时常做的又是林家翘所不屑一顾的“实用数学”,沦为“科学的仆人”。怎样才让应用数学家也成为“科学的主人”呢?套用莎士比亚的名言:“这是个问题。”纵观香农的科学人生,我们似乎能窥见部分解答。
根据前人的定义,数学研究现实世界的数量关系和空间形式。科学探索自然界的基本规律,包括物理科学与生命科学,而工程则将自然科学的规律造福于人类。科学缔造工程,工程推动科学;科学认识自然,工程改造自然。而数学作为科学之皇后,在科学技术的进步中往往起着不可思议的关键作用。工程的第一原理源自科学发现,科学的分析工具落脚数学推理。工程研究的突破口往往在于数学的奇思妙想,抽象思维的引入使得工程科学如虎添翼。
香农的魔方机器人
历史上,最有用的数学微积分的创立来自急需解决的科学与工程问题:航海学与天体力学导致通过位置函数求解速度与加速度;光学的透镜设计提出曲线的切线问题;行星与太阳的最远最近距离等同于求函数的最优值;万有引力的结论引出曲线求长、区域面积体积及重心位置。接踵而至的一些数学分支简直就是理工问题的孪生兄弟,如变分法脱胎于伯努利的“最速降线问题”,最终催生了欧拉-拉格朗日变分法基本微分方程。到了近代,黎曼几何成就了爱因斯坦的相对论,薛定谔把纯粹数学的虚数单位放进了他的最著名方程,冯·诺依曼用泛函分析的算子理论诠释量子力学,甚至哈密尔顿脑袋瓜杜撰的四元数也派上了大用场。
到了现代,数学在理论物理等重要学科中扮演的角色更是举不胜举。最典型的生动例子当数杨振宁与陈省身之间的对话。杨振宁和米尔斯1954年将外尔的交换群规范场论推广到非交换群。二十年后杨教授得知规范场就是微分几何中的纤维丛的联络而觉得不可思议:数学家居然先于物理学家无中生有地创造了概念。陈省身却回答他“不,不。这在数学上是自然而真实的。”深受全世界病人欢迎的X-线层析摄影仪(俗称CT),其思想得益于奥地利数学家1917年发明的“拉东变换”,而美国理论物理学家与英国电子工程师的携手杰作,得到了诺贝尔生理学或医学奖。
数学的持续发展离不开科学技术不断提出的新问题、新挑战。计算数学中的有限元最初由结构力学工程师们开发。研究天体力学的三体问题使得庞加莱首次发现天体运动中的混沌现象,并开创了微分方程的定性理论及对拓扑学的研究。幻想长期天气预报的可能性让洛伦茨在数值计算玩具天气模型时无意中发现了“蝴蝶效应”,但如果他缺乏足够的数学训练,这个发现就可能因稍纵即逝而把“混沌之父”的桂冠让给他人。谷歌之所以能在网络搜索引擎上一鸣惊人,就得益于它的两位创始人使用随机矩阵的利器而创造的“网页排序”新方法,世界上最大的矩阵——谷歌矩阵,就是他们创业的最大宝库。数学在这些创新活动中总是扛着大旗走在前的。
香农在创立信息论的过程中,也是通过数学来揭示信息世界的规律,数学地思考通讯的基本问题,着重探索信息编码与信息传输这些关键术语,将概率论创造性地应用于信息不确定性的量化研究中,从而首次提出“信息熵”的革命性概念。他的研究方式与林家翘的应用数学理念完全一致,这就是主动提出研究对象中的科学问题,通过问题的解决加深认识,或创造新知识,最终解决问题。这就是应用数学的真谛。
简洁性是数学美的特点,也是应用数学美的标准。在外尔眼里,数学中的“美”比“真”更令他向往。爱因斯坦的质能等式 E=mc2 很美,更不要说被称为最美公式的欧拉等式 eiπ+1=0 了。香农推导出的信息熵表达式也是美得不得了,因为它仅仅由简单函数 -xlnx 在有限个点上的值相加而成。更令人惊奇的是,这个信息世界最伟大的数学式子,竟然可用初等数学的工具完全推导出。下面我们看看香农是怎样推演出信息熵公式的。
设想一个有限的样本空间有 n 个各自用其概率 p1, p2, … , pn 表示的基本事件,简记为 (p1, p2, … , pn)。香农用熵来数学量化这个样本空间所具有的“不确定度”,这个数就是熵函数 H 在 p1, p2, … , pn 上的值 H(p1, p2, … , pn)。不确定度和概率一样容易通过例子理解。比方说,听到气象预报员说“今天下雨的可能性是 90%”,我们大概就会出门带伞,但如果她预计“今天有50%的可能下雨”,那我们就会犹豫是否带伞。这就涉及到不确定度的比较:后者的不确定程度较大。用熵的语言来讲,就是 H(9/10, 1/10) < H(1/2, 1/2)。将这个常识一般化,我们就知道熵函数必须满足如下的最大值原理:对所有加起来等于 1 的非负数 p1, p2, … , pn,恒有
香农并未用上述公理来推导熵公式,而只给出如下“三项基本原则”就本质上确定了熵的漂亮式子。第一项基本原则是:H(1/n, 1/n, …, 1/n) 是自然数 n 的严格递增函数。这个事实可以用玩抛硬币和掷骰子的游戏看出。每抛一次硬币,正面或背面朝上的概率均为 1/2,而每掷一次骰子,立方体每个面朝上的概率均为 1/6。我们知道,方块某个面朝上的不确定度应大于硬币正面或反面朝上的不确定度,即 H(1/2, 1/2) < H(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)。
第二项基本原则是:如果一个不确定事件分解成几个持续事件,则原先事件的不确定度等于持续事件不确定度的加权和。这个理解起来稍难一点,我们用例子帮助说明。假设物理系赵教授、数学系钱教授和孙教授竞争理学院习院长发放的科研基金,每人申请成功的概率分别为 1/2, 1/3, 1/6。院长很公平,让两系得奖机会均等,即获奖概率都是 1/2。若物理系拿到基金,就到了赵教授名下。如数学系得奖,钱教授有 2/3 的概率到手,而孙教授只有1/3的机会取胜。这三个教授获得院长基金的不确定度 H(1/2, 1/3, 1/6),就应该等于物理系或数学系拿到这笔基金的不确定度 H(1/2, 1/2),加上数学系赢得该基金的概率 1/2 与在数学系拿到基金的条件下,钱教授或孙教授得到它的不确定度 H(2/3, 1/3) 之乘积。换言之,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ? H(2/3, 1/3)。
剩下的基本原则只属于数学:对固定的自然数 n,不确定度函数 H 是 (p1, p2, … , pn) 的连续函数。这是一切数学公式的基本属性。
香农证明了:任何定义于所有样本空间上的函数 H,只要它满足上述的“三项基本原则”,除了常数因子,必有如下表达式:
由此可见,对应于样本空间 (p1, p2, … , pn) 的熵是函数 - xlnx 在点 p1, p2, … , pn 上的值之和。如果此表达式乘上热力学中著名的玻尔兹曼常数,信息熵完全就和十九世纪美国最伟大的数学物理学家吉布斯在统计热力学中得到的“吉布斯熵”一模一样。
现在展示熵公式的初等证明,无需大学知识,分三步进行。
第一步:记 A(n) = H(1/n,1/n,…,1/n)。我们通过图示
用 n = 23 引出一般结论。逐次应用上述第二项基本原则得到
推而广之就有
现在假设四个自然数 t, s, n, m 满足不等式
两边求对数,得 mlns ≤ nlnt < (m + 1) lns,即
m/n ≤ lnt / lns < m/n + 1/n 。
因而有
|m/n – lnt / lns| < 1/n 。······ (II)
由第一项基本原则,A(k) 是 k 的递增函数。故式 (I) 推出 m A(s) ≤ n A(t) < (m + 1)A(s),因此
|m/n – A(t)/A(s)| < 1/n 。······(III)
式 (II) 和 (III) 保证了
|A(t)/A(s) – lnt / lns| < 2/n 。
既然 n 可为任意自然数,就有 A(t)/A(s) = lnt / ln s,或言之,
A(t) / lnt ≡ A(s) / lns。
故存在正常数 C(取为1),使得 A(t) = Clnt = lnt。因此
即熵公式在 p1, p2, … , pn = 1/n 时成立。
第二步:证明熵公式对所有和为 1 的正有理数 p1, p2, … , pn 都对。我们用p1 = 1/2, p2 = 1/3, p3 = 1/6 来阐述证明的思想。
根据第二项基本原则,
移项后,
如此分解是为了用到第一步的结果。将分数写成具有共同分母的形式
上述分解就是
推广到一般情形 p1, p2, … , pk:设
则有等式
将 A(n) = lnn 代入,就有
第三步:既然熵公式对所有和为 1 的正有理数成立,那么由第三项基本原则推出它对所有和为 1 的非负实数成立。这就完成了证明。
信息熵公式基于的函数 - xlnx,它的图像是向下弯曲的曲线,其上任意两点的连线都在这两点之间的曲线段之下。可用初等微分学证明对任意不同正数 a 和 b,有吉布斯不等式 a – alna < b – alnb。运用它可证信息熵的确满足我们前面指出的最大值原理,即当所有的 p1, p2, … , pn 都选为 1/n 时,信息熵取最大值 lnn,这与我们的直观相符。
没想到吧?伴随高超的想象力和创造性的思维,即便初等数学也能导致伟大的发现。信息熵现在也叫“香农熵”,它简单而美丽的表达式,是五彩缤纷的现代信息与通讯时代的发源地,也是“数学,只有数学,才是科学技术发展的原动力”这句断言的见证者。
晚年的香农擅长杂耍
我们现在探讨一下怎样成为好的理工学家。历史上,数学家没有专门的称号,因为他们同时也是其它学家,如阿基米德既被美国数学史家贝尔称为史上最伟大的三个数学家之一(另两个是牛顿和高斯),同时也是古希腊最伟大的物理学家,并是了不起的工程学家,他用杠杆原理制作的远程石炮让敌舰狼狈逃窜。文艺复兴后三百年间的科学家,许多兼任数学家与工程师,如伽利略、帕斯卡、牛顿。20世纪前最后的全能数学家庞加莱也是被提名诺贝尔物理奖次数最多的科学家和工程师。进入20世纪不久,大量的纯数学家与科学家、工程师渐行渐远,老死不相往来,躲在象牙塔证明他们的定理去了。
但是新世纪看到了曙光!现在数学家与科学家、工程师又开始了合作。这是个“双赢”的时代,数学家与工程师的联姻催生了壮硕的“产儿”:密码学、运筹学、计算流体力学、复杂网络、材料科学、控制论等等。科学技术的理想状态是:“工程师”与“应用数学家”几乎成为同义词。这就对工程师的培养提出了极高的要求。科学史上有两位同样伟大的英国物理学家,但由于其不同的数学训练,让其中的一位终身遗憾。他们是法拉第与麦克斯韦。前者发现了电磁感应,但他有限的数学知识未能使他理论上“更上一层楼”,而后者从大学起就接受了良好的数学教育,大一即拜得哈密尔顿为导师,最终成为了伟大的数学家、物理学家。麦克斯韦方程源自法拉第的实验,是法拉第定律等的数学化,是电磁场论中的“牛顿力学”,是经典电动力学的基石。在麦克斯韦电磁理论的指引下,赫兹实验证明了电磁波的存在,并证明电磁波与光波速度一样。麦克斯韦方程是电磁波之母,她对于电子工程学犹如牛顿力学对于工程力学。即便现在,计算数学家与电子工程学家还在马不停蹄地研究它。
香农手稿
受过数学训练的工程师更易成功。比香农更早的典范非空气动力学家冯·卡门莫属。他早年钻研数学与理论物理,在希尔伯特时代的哥廷根大学受过抽象思维的熏陶,其杰出成就让他在肯尼迪总统手上接过美国的第一枚国家科学奖。我熟悉的一位任教香港的华人电子工程学家,跟香农一样是个数学博士,著作等身、成就卓然。另一位为《数学文化》写过文章的大陆工程系教授,也是名校响当当的数学博士。我曾在一次演讲稿中用排比句描绘了好的工程学家:
既如工程师具备现实主义针对性,
又像数学家充满浪漫主义想象力,
既保持工程科学一丝不苟的传统,
又崇尚数学思维海阔天空的探索。
既行使“拿来主义”的天赋权利,
又充满“归纳提高”的创新意识。
既对实际问题对症下药一展良方,
又能抽象提高顶天立地上下求索。
一言以蔽之,好的工程学家应该是一位有敏锐数学头脑的工程师。香农从求学到创造,给我们最大的启示就是,我们工程学院的教育应该多重视数学思维的逻辑训练,我们正在求学的未来工程师应该去数学系修一些充满抽象语言的“无用数学”。