信息,就是出人意料,而出人意料其实讲的是概率。
——坤鹏论
从今天开始,坤鹏论将进入到阶段性的思考整理。
脉络将是从信息熵,到熵,再到复杂性科学,一直回到这个系列的起点塔勒布的《反脆弱》。
一、这是一个概率的世界
随着不断地学习与思考,坤鹏论越来越感觉到,香农的信息熵与热力学的熵,基本就是一回事。
热力学的熵,还有后来由其派生出来的麦克斯韦妖,其最重要的贡献以及开创是:
由概率到统计,再到脱离成为普适的自然规律,信息熵亦然。
写到这里,坤鹏论突然有些顿悟——这所有的一切皆因为我们的世界、我们的宇宙完全是在概率统治之下。
那么,这个世界的最强法则应该是概率。
我们常说,除了死亡,一切皆有概率!
但是,如果不以肉体消灭为标准,而是从基因和遗传信息的角度看(想想之前坤鹏论举过的柳絮的例子),那真的是一切都有着概率。
既然如此,只要牢牢把握住概率这条真理,从它出发,坚定地前行,都能够获得不菲的成就。
那么——
不管是熵;
还是信息熵;
亦或者复杂性科学、复杂性系统;
其实都不过是概率下的蛋!
所以,不是它们牛,不是它们是自然规律。
而是它们摸到了支撑这个世界背后的真理——概率。
尽管都只能算是一方面,一点点。
并且,但凡能够理解概率,并应用到实践,都是很牛的事和很牛的人。
比如:保险、赌博、金融、投资等。
比如:巴菲特、索罗斯等投资大师,他们成功的关键就在于——风险的管理。
而概率就是风险的数学语言。
所有投资,不管是价值投资,还是投机。
只要是投入今天的钱购买未来,哪怕未来就是下一秒,都会有概率,都有风险。
所以,这种行为应该统一称为风险投资,或者概率投资。
而以概率为灵魂的学科则可以被视为人类探究概率的工具,比如:统计学。
统计力学也是,信息论也是。
没有概率,它们都不可能存在!
二、无序?不确定性?其实都是概率
正如上面所说,概率才是这个世界至高的规律。
所以,只有从概率的角度去理解熵、信息熵,才能算是本质级的理解。
下面,坤鹏论就以信息熵为例说明一下。
香农用熵度量的是不确定性。
而维纳则用熵度量无序程度。
如果站在概率的高度,就知道它们从根本上就是一回事。
一段文字的内在有序性越强,其可预测性也就越高。
换用香农的话来说,也就是后续字母所传递的信息量越少。
如果你对下一个字母是什么,信心十足,那么这个字母就是冗余的,它的出现没有贡献新的信息。
信息,就是出人意料!
而出人意料其实讲的是概率。
比如:在英语中,如果紧跟在字母t之后的是字母h,那么信息量就不大,因为字母h在此出现的概率相对较高。
而不管是维纳的无序度,还是香农的不确定性度,但它们都叫熵,这已经证明了,它们和热力学的混乱程度是一个意思。
我们再来重温理解一下,为什么熵越大混乱程度越大?
什么时候热力系统中没有熵呢?
就是只有一种微观态的时候。
这时的概率是1,其他微观态的概率为0,这就是完全的有序,没有混乱度。
那什么时候系统中熵最大?
自然是所有微观态的概率相等的时候。
这时,系统对于取什么微观态没有偏向性,所以混乱度最大。
接着,我们再理解,为什么熵越大,信息量越大?
因为熵越大,系统承载信息的能力越大。
道理很简单!
所有微观态等概率出现时,也就是系统中存在着所有微观态。
将微观态直接视为信息,想想看,明白了吗?
而一个熵为0的系统只能取一个微观态,自然承载不了任何信息。
因为,信息是消除不确定性的东西,一个微观态自然就没有不确定性,自然就能闭着眼选择,根本不用”还能说什么“,自然也就没有信息了,也就没了”还能说多少“——信息量。
然后,我们再理解,为什么信息熵中,语言越”混乱“,信息量越大?
这最好从语言的上下文关联度来分析。
英文单词中的字母相关度很高,比如:ing、tion,以及各种前缀后缀。
因为相关度大,所以就算从ing、tion中拿掉一个字母,也完全不会影响阅读。
显然说明了这些组合中单个字母提供的信息量很小。
而中文的上下文关联度低很多,所以,单个汉字信息量大。
由此,结论就是:
上下文关联度越高,也可以理解为符号系统越有序,不确定性程度越低;
上下文关联度越低,也可以理解为符号系统越无序,不确定性程度越高。
因此,将信息的不确定性用熵来命名再恰当不过,它和统计力学中的熵,就是同一个问题——概率。
还记得坤鹏论在复杂性科学中讲过的混沌边缘吗?
那是一种最好的系统状态。
琢磨一下,有没有发现语言其实也符合混沌边缘的道理。
简单联想一下就能明白。
假设一群人开会,人们越是意见不一致,越是混乱,人们越希望表现自己的意见,于是大量信息会不断产生。
而往往正是这样的会议才证明了公司的活力四射。
最可怕的会议是,只有有序,没有混乱。
也就是只有领导滔滔不绝,其他人全都默不作声。
所以,复杂性系统同样也是概率的问题。
这可能就是传说中的融会贯通,大道至简,殊途同归吧!
三、麦克斯韦妖
坤鹏论曾经讲过《人类就是麦克斯韦妖》。
在这个著名的思想实验中,麦克斯韦妖在密闭容器中所做的只是控制闸门。
它如何控制闸门?
分子过来时,它会根据它运动的速度和轨迹,判断是快分子,还是慢分子,从而选择是否开闸门。
而分子运动的速度和轨迹,就是信息。
也就是说,麦克斯韦妖根据获得的信息作出选择。
它每处理一个分子,都是做了一次信息与能量的转换。
提出这个观点的齐拉特的贡献非常伟大,因为自此之后,信息也是物理的了。
正如布里渊所论述的,麦克斯韦妖要看得清楚分子,不可能摸黑进行,必须要有灯光照在分子之上,光被分子散射,而被散射的光子被麦克斯韦妖的眼睛吸收,这样它才会看清。
这意味着,麦克斯韦妖不做功,要使系统熵减少,必须获得信息,这需要通过(眼睛)吸收外界能量实现。
因此,麦克斯韦妖这个思想实验的先决条件——密闭被打破了。
自此容器不再密闭,而是可以接收外部能量。
也只有这样,麦克斯韦妖才能干活。
我们可以这样设想修改版的麦克斯韦妖:
外部注入能量,使得麦克斯韦妖看得清分子,从而获得它们的运行速度和轨迹信息,根据信息,麦克斯韦妖做出是否开闸门的选择。
这是一个能量转换为信息,信息再转换为能量的过程。
有了上面这个基础,我们再来看香农的信息论和信息传输模型。
你会发现其实就是麦克斯韦妖实验的现实翻版。
容器:所有可能讯息组成的集合
分子:字符
麦克斯韦妖:信宿,接收者
外部能量:信源
麦克斯韦妖的功能是在获得分子运动的信息后,通过操作闸门做出选择,分离快分子和慢分子,从而减少系统的熵。
一个信息集合的接收者同样也是在接收到信源的讯息后,做出选择,减少信息集合的信息熵(不确定性)。
并且,不管是麦克斯韦妖还是接收者,他们都很单纯地做着是或否的二元选择题。
麦克斯韦妖只关心是快还是慢。
接收者只关心不确定性和确定性。
四、接收者=麦克斯韦妖
自从香农提出信息论后,他迅速成为了学术圈内的当红人物,享有偶像级的声望。
有时,他还会到大学和博物馆就“信息”进行通俗的演讲。
在这些演讲中,他曾引用过《新约·马太福音》第5章第37节的话:
“你们的话,是,就说是;不是,就说不是;若再多说,就是出于那恶者。”
这就牵扯出了信息熵另一个定义,它是通过只允许回答是或否的问题,来猜出一条未知信息时所需问问题的平均数目。
坤鹏论认为这个讲成实例,很容易让人理解信息熵是怎么一回事,那就不厌其烦地分享给大家,希望大家也不厌我烦地读一读。
假设你是麦克斯韦妖,如果分子是一快一慢成对过来,表面上看不出区别。
那么,你需要提几个问题可以知道它们的状态呢?
对的,只需要一个问题。
你可以问:“A是快(慢)分子吗?”;
或者问:”B是快(慢)分子吗?“
如果对面一下子来了A、B、C、D四个一模一样的分子,其中只有一个是快分子,你需要提几个问题来确定它?
有人可能会下意识地说,4个!
惯性思维害人呀。
明智的提问方法是二分法。
你可以先问:A和B中有一个是快分子,对吗?
分子回答说:是。
你可以接着问,快分子是不是A(或B)?
分子回答说:否。
那你就知道答案肯定是B。
整个过程,一共2个问题。
如果答案不是A,也不是B。
答案自然就在C和D中间,你只需要再问:快分子是不是C?
分子回答说:否。
你自然就知道正确答案是D了。
还是提两个问题搞定。
也就是,如果4选1,你平均需要提两个问题能够得到确定答案。
显然,你提问题的过程,就是在消除自己对分子的不确定性。
香农将对于分子的不确定性称为信息熵。
为了衡量信息熵,香农建立起了它与概率的数学关系,也就是从不确定性到确定性,需要提出问题的平均数量。
因此,上面的例子中,两个等概率的分子,提一个问题知道答案,信息熵就是1比特,四个等概率的分子,提两个问题知道答案,信息熵就是2比特。
坤鹏论以此为例,换个角度再讲一遍信息熵,其目的是,回到初心,回到热力学的熵,回到熵与信息发生关系的麦克斯韦妖,最终回到概率!