信息到底是什么?
牛顿的激光烈焰剑理论
如果非要用一个词来形容我们这个时代,那应该就是:信息时代。
在此之前,瓦特的蒸汽机开启了蒸汽时代,而对于电和磁的了解,人类进入了电气时代。如今,由于人类对于信息的探索,人类开启了信息时代。在信息时代,有发明电报的莫尔斯,有发明电话的贝尔,有发明无线电技术的马可尼等等伟大的发明家和科学家。
莫尔斯自画像
但是一直以来有一个问题困扰着科学家们,那就是:信息到底如何度量?
举个例子,我们常说:信息量好大啊。那到底什么样的信息才算信息量很大?其实谁也说不清楚。
如果我们梦回到牛顿时代,就会发现,牛顿的代表作《自然哲学的数学原理》当中,前十几页只干了一件事情,那就是:下定义。
我们现在耳熟能详的很多概念,比如:密度,质量,力。都是牛顿下的定义。
牛顿的定义不同于一般的定义,他的定义使得这些物理量可以被测量,并且量化度量。
相对于伟大的牛顿力学,牛顿对于物理学开创性的研究方法更是奠定了现代物理学的基础。数学家Mike Alder曾经在一篇文章里总结并且提出了:Newton's Flaming Laser Sword.
翻译过来就是牛顿的激光烈焰剑理论,具体的内容就是:
所有不能进行实验和观测的东西都不值得辩论。
所以,对于科学而言,定义和观测十分重要,更是有国际七大单位制,当然还有其他不在这当中的,不过可以通过七个国际单位推出来。
信息论
因此,信息论要成为一门科学,首先要把信息的定义确立下来,可以量化度量,而且还得有个靠谱的单位才行。
其实道理科学家都懂,但是落到实处真的很难,很多科学家尝试了很多方法,比如:通过对比信息的重要性,来度量信息,但都失败了。
直到1948年,一位天才发表了一篇名为《通信的数学原理》的文章,里面对信息做了非常详尽的定义,而这篇文章也彻底地奠定了现代信息论的基础,一直沿用至今。这位天才作者叫做:克劳德·艾尔伍德·香农。
信息的基本单位:比特
那香农是如何解决这个问题的呢?
香农认为:
一个东西的信息量大小在于它克服了多少不确定性。
比方说,我和你有个特别要好的朋友,他平时早上10点到公司,晚上10点回到家。有一天,我跟你说:他今晚11点在家里。这句话对你来说,其实就是一句废话,信息量是零。这是因为,你本身就知道这个时刻,他大概率就在家里。所以,意外或者说不确定性才是信息。
因此,香农把信息的量化度量和不确定性联系了起来,并给出了信息的基本单位:比特。
我们可以这么理解比特,如果有抛一枚理想的硬币,正面和反面的概率是一模一样的。要搞清楚到底是正面还是反面,就需要1比特的信息。
如果这枚硬币并不是理想的硬币,而是正面更重一点,抛硬币有更大的概率是正面朝下,反面朝上。这时,要搞清楚正面还是反面朝上,所需要的信息就要小于1比特了。这是因为你有更大概率能够猜中结果。
如果再复杂一点,假设你在做选择题,一共有4个选项。如果你要确定这道题的最终答案,那需要多少比特的信息呢?
可能很多人的第一反应是:4比特。实际上,这并不对。你要知道,你不会傻到一个选项一个选项去问对方(通过信息消除不确定性的过程)。
如果机智一点,会采取二分法,
你可以先问:答案是不是在A和B当中?
对方如果回答:是。
那你就只需要在A和B当中再问一遍:答案是不是A?
如果对方答:是。
那你就已经确定了结果是A,而整个过程你只用了2比特的信息。
同理如果,你先问:答案是不是在A和B当中?
对方如果回答:否。
那其实就排除了A和B,答案就在C和D当中,所以你只需要再问:答案是不是C?
对方如果回答:否。
那你就已经确定了结果是D,而整个过程也还是用2比特信息。
你甚至可以把比特想象成人民币,假设1比特就是一块钱,每次做选择时都要花一块钱,如果要解决抛理想硬币的问题,你只需要一块钱就能够搞定。而四选一,就需要2块钱。
所以,这下子应该明白了吧?信息其实是用来消除不确定性的。但问题又来了,到底消除什么的不确定性?
答案是:信息源。
这个信息源其实就是指抛硬币这个事件本身,它本身具有不确定性,可能是正面,也可能是反面。而信息源的不确定性就叫做:信息熵。于是,我们就可以知道,
信息就是用来消除信息熵(不确定性)的。抛硬币如果正反概率都是50%,那就是不确定性最高的之后,信息熵也就最大。反之,如果正面朝上的概率更高,那其实这个系统的不确定性就小了,信息熵也就小了。
所以,信息量其实本身就是信息源的信息熵。
信息熵
因此,我们只要能够计算信息熵,那就可以计算信息量具体是多少了?
那具体如何计算呢?其实香农从热力学中找到了灵感。在热力学当中,熵用来表示:
一个系统的无序状态(不确定性)。
举个最常见的例子,如果你把一点墨水滴到水中,墨水会和水融合在一起,整个杯子的无序状态数会增加(因为变混乱了嘛),这里我们可以把这杯子里的水看成是一个系统。
在物理学中,衡量一个系统的混乱度,其实可以通过统计整个系统的状态数来确立。
可能性越多,不确定性就越大;在状态数量保持不变时,如果各个状态的可能性相同,不确定性就很大;
因此,科学家给出了统计系统状态数的公式(不看也没有关系):
其实信息熵其实也就是表示了一个系统(信息源)的不确定性(信息熵)。
由于热力学的启发,香农也给出了类似的计算信息熵(信息量)的公式:
具体咋用呢?我们回到刚才抛硬币的例子来:
抛出一个理想硬币,信息熵为log2(2/1) = 1比特;
抛出两个理想硬币,信息熵为log2(4/1) = 2比特。
自从信息论被提出来之后,科学家就一直在思考一个问题,这个世界到底是什么?我们都知道是物质是原子构成,那世界就是原子的?
但我们也要知道,原子的排列构成了世界,而排列本身就是信息,因此原子是通过交换“比特”来实现有序排列的,意思就是说,某种程度上来看,世界又是比特的。