互联网信息分发简明史
这是关于互联网过去和现在的一个思考。
1/ 互联网与世界的比特镜像
我曾经和很多朋友探讨过一个很朴素的问题,在你的眼中,互联网是什么?
要回答这个问题,必须先回答另一个问题,互联网为什么而出现?
在我看来,这个世界是由三个要素构成的,也即是:物质、能量、信息。那么什么是信息呢?
按照信息学祖师爷CE Shannon在《信息论》里给的定义,信息是对事物的运动状态与存在方式不确定的描述。
人类获取信息的过程就是消除不确定性的过程。因为描述信息混乱与不确定性的概念是“信息熵”,所以你也可以把人类获取信息的的这个过程看做是一个“信息熵减”的过程。
二元信源的信息熵
换成人话说就是:获取信息能够让你从“不明白”到“明白了”。
人类为了在这个世界生存下来,我们的基因把我们“设计”成了一个高效的信息获取与处理信息的系统。比如我们(或者说所有的灵长类)进化出了色彩识别的能力,我们的眼球能够识别380~780nm波段范围的光谱,这让我们拥有可以通过色彩分辨食物,寻找掩体,感知危险的能力。
人类肉眼可见光谱
当然,这还只是非常基础的信息获取能力,在人类数百万年的演化过程中,为了满足我们社会组织的需要,我们进化出了更复杂高级的对抽象信息的获取与理解的能力,这也就是对文字、图画、音乐等信息的处理能力。
简单说,获取信息对我们很重要,但这和互联网又有什么关系呢?
这里我们还需要理解两个概念,一个是信号,一个是信道。
信息的传递
信息发布者(信源)发布了一个信息,这个信息以某些物理介质承载(这就是信号),通过媒介传递了出去(这就是信道),被信息的接受者接收(信宿)。
举个栗子就是,你说了一句话(这句话包含的就是信息),这句话转化成了音波信号,通过空气这个信道媒介传到了我这里,被我听到了,这就是个信息传递的过程。这个过程里,信道中会有“噪音”,噪音会干扰信号,信息传递就会出现偏差,最后甚至会导致信息传递失败。所以不同的信号承载形式和不同的信道会有相对的信息传递的物理极限。比如你在1公里外说了一句话,我可能就听不到了。
因此信号能够不受干扰的传递距离对我们能维系多大的社会组织的效率产生了很大的影响。
所以为了最大程度的保存信号不受干扰,尽可能远距离的传递/获取信息,我们人类发明了各种科技。而迄今为止,传递信息的最先进的科技工具是“互联网”。
以上内容,如果你在大学本科读过信息学的话,基本上第一课就讲这个。
但如果只理解到工具的层面,我们对互联网的理解就不够深刻。因为互联网传递信息的时候,不是单向的传递,实际上,互联网保留了现实世界的让每个人发布和获取信息的能力,因此互联网形成了一个“网络”。这个网络在尽可能的提取这个世界上已知的所有具象客观的和抽象主观的信息,把这些信息映射到互联网上,然后以电信号(光速)传递这些信息。
所以,我经常说,互联网是现实世界的比特(BIT,信息的单位)镜像。
而且这个比特镜像上信息是以“光速”运转传递的。
S=VT
我们都知道这个简单的公式,意思就是距离=速度*时间。简单说就是,如果信息被以光速的速度在传递,那么在同样的时间里,我们获取信息的半径距离就非常长。长到什么程度呢?你肯定听过“地球村”这个概念,在互联网刚传进中国的那十年里,人们特别喜欢说这个概念。虽然有点土,但这句话确实很形象。地球变成了个村。
一开始这挺好的,我们获取信息的半径扩大了,我们用计算机和互联网完成了一次“进化”。但我们其实不一定能够习惯这种变化,因为人类面对的环境从文明诞生的1万年来,第一次从“信息匮乏”变成了“信息过载”。
实际上互联网的发展过程,我们可以梳理出两个主脉络,分别是:
- 网络上的信息越来越多;
- 上网的人越来越多。
而这两条主脉络本身又互相促进构成了一个闭环,也就是越来越多的人上网制造、发布、卷入了越来越多的信息到互联网上,互联网上的信息越来越多也吸引越来越多的人去使用它。
我们都知道,到2019年的时候,全球的网民的数量大概正好是40亿出头点,其中大概有不到9亿是中国网民。那么你知道互联网上一共有多少信息吗?
我们都知道,到2019年的时候,全球的网民的数量大概正好是40亿出头点,其中大概有不到9亿是中国网民。那么你知道互联网上一共有多少信息吗?
数据来源:IDC,2017年《数据时代2025》白皮书
2017年的时候IDC(国际数据公司)做过一次研究,他们估计当时互联网上的信息大概20多个ZB(1ZB=1万亿GB),当时预测这个数据到2019年大概会翻一倍,达到40个ZB。
2019年的全球数据量
所以粗略计算一下,每个网民理论上平均被分配到1ZB的信息。当然,实际情况并不是平均主义,这里只是便于理解。我只想说,即便我们行使这样的平均主义,你依旧没可能在你短暂的一生里,把这些信息都完整的接受一遍。更何况,在可以被重复消费的信息海洋里,实际情况是今天的你终其一生需要在40ZB的信息海域里找的,不过是需要的那几十个TB而已。
你能获取的信息超过了你能处理的信息的上限,这就是信息过载。
互联网的先驱其实很早就意识到这个问题了。
世界上第一个网站,http://info.cern.ch/hypertext/WWW/TheProject.html
万维网(WWW)之父Tim Berners-Lee在发明万维网的同时,也发布了世界上第一个网站,这个网站用超文本(hypertext)技术把CERN(欧洲核子研究中心)各个实验室连接起来,因为用了超文本(也就是后来的链接),所以人们可以方便的浏览聚合的信息。1991年8月6日Tim Berners-Lee公开了这个项目,这一天也被认为是万维网的诞生。这个网站介绍了超文本的规范、网站的建站细节、浏览器的安装使用等信息,后来这个网站还收录了一些其他的网站范例,所以也被认为是世界上第一个网站目录。
也是从这一天起,每个接入万维网的人(或者说,你熟悉的因特网),都有获得了建立一个属于自己的图形化的网站和对应的http网址的权力。然后采用更自然的拼写的http网址,已经比之前的FTP地址要容易访问的多。
当然,在万维网诞生的时代,尽管Tim Berners-Lee已经试着去做一些万维网站的目录工作,但http网址在后来发生如此巨大的爆炸式增长,以至于这个工作显然已经需要专门的机构来服务。所以从那个时代开始,互联网信息分发漫漫之路就被开启了。
我们大概可以把互联网信息分发的模式按照其主导的信息分发的模式流行的时期大致划分成四个时代:
- 分类索引-门户时代;
- 搜索引擎-搜索时代;
- 订阅关注-SNS时代;
- 推荐算法-Feed时代;
在这四个时代以外还并行了一个长期存在的“高热更新-社区热帖”模式(这个模式在国内因为百度贴吧在搜索时代的崛起,一度也成为了非常重要的一种信息分发模式)。有必要注意的是,以上的这些时代所诞生的信息分发模式,大多都随着相应的技术变革应用所产生,而背后又都伴随了商业模式的彻底升级革新而兴起主导了一个网络时代。
这些信息分发模式的演化塑造了不同时代的互联网巨头。不过这些模式也并非完全的先后替代,更多的是新的信息分发模式向下兼容了早期的模式,然后通过商业模式的创新,后者主导的企业把前辈按在了地上摩擦(至少也是某种程度上的打破了前辈的领导者地位)。