信息到底是什么?

牛顿的激光烈焰剑理论

如果非要用一个词来形容我们这个时代,那应该就是:信息时代

在此之前,瓦特的蒸汽机开启了蒸汽时代,而对于电和磁的了解,人类进入了电气时代。如今,由于人类对于信息的探索,人类开启了信息时代。在信息时代,有发明电报的莫尔斯,有发明电话的贝尔,有发明无线电技术的马可尼等等伟大的发明家和科学家。

莫尔斯自画像

但是一直以来有一个问题困扰着科学家们,那就是:信息到底如何度量?

举个例子,我们常说:信息量好大啊。那到底什么样的信息才算信息量很大?其实谁也说不清楚。

如果我们梦回到牛顿时代,就会发现,牛顿的代表作《自然哲学的数学原理》当中,前十几页只干了一件事情,那就是:下定义

我们现在耳熟能详的很多概念,比如:密度,质量,力。都是牛顿下的定义。

牛顿的定义不同于一般的定义,他的定义使得这些物理量可以被测量,并且量化度量。

相对于伟大的牛顿力学,牛顿对于物理学开创性的研究方法更是奠定了现代物理学的基础。数学家Mike Alder曾经在一篇文章里总结并且提出了:Newton's Flaming Laser Sword.

翻译过来就是牛顿的激光烈焰剑理论,具体的内容就是:

所有不能进行实验和观测的东西都不值得辩论。

所以,对于科学而言,定义和观测十分重要,更是有国际七大单位制,当然还有其他不在这当中的,不过可以通过七个国际单位推出来。

信息论

因此,信息论要成为一门科学,首先要把信息的定义确立下来,可以量化度量,而且还得有个靠谱的单位才行。

其实道理科学家都懂,但是落到实处真的很难,很多科学家尝试了很多方法,比如:通过对比信息的重要性,来度量信息,但都失败了。

直到1948年,一位天才发表了一篇名为《通信的数学原理》的文章,里面对信息做了非常详尽的定义,而这篇文章也彻底地奠定了现代信息论的基础,一直沿用至今。这位天才作者叫做:克劳德·艾尔伍德·香农

信息的基本单位:比特

那香农是如何解决这个问题的呢?

香农认为:

一个东西的信息量大小在于它克服了多少不确定性。

比方说,我和你有个特别要好的朋友,他平时早上10点到公司,晚上10点回到家。有一天,我跟你说:他今晚11点在家里。这句话对你来说,其实就是一句废话,信息量是零。这是因为,你本身就知道这个时刻,他大概率就在家里。所以,意外或者说不确定性才是信息。

因此,香农把信息的量化度量和不确定性联系了起来,并给出了信息的基本单位:比特

我们可以这么理解比特,如果有抛一枚理想的硬币,正面和反面的概率是一模一样的。要搞清楚到底是正面还是反面,就需要1比特的信息。

如果这枚硬币并不是理想的硬币,而是正面更重一点,抛硬币有更大的概率是正面朝下,反面朝上。这时,要搞清楚正面还是反面朝上,所需要的信息就要小于1比特了。这是因为你有更大概率能够猜中结果。

如果再复杂一点,假设你在做选择题,一共有4个选项。如果你要确定这道题的最终答案,那需要多少比特的信息呢?

可能很多人的第一反应是:4比特实际上,这并不对。你要知道,你不会傻到一个选项一个选项去问对方(通过信息消除不确定性的过程)。

如果机智一点,会采取二分法,

你可以先问:答案是不是在A和B当中?

对方如果回答:是。

那你就只需要在A和B当中再问一遍:答案是不是A?

如果对方答:是。

那你就已经确定了结果是A,而整个过程你只用了2比特的信息。

同理如果,你先问:答案是不是在A和B当中?

对方如果回答:否。

那其实就排除了A和B,答案就在C和D当中,所以你只需要再问:答案是不是C?

对方如果回答:否。

那你就已经确定了结果是D,而整个过程也还是用2比特信息。

你甚至可以把比特想象成人民币,假设1比特就是一块钱,每次做选择时都要花一块钱,如果要解决抛理想硬币的问题,你只需要一块钱就能够搞定。而四选一,就需要2块钱。

所以,这下子应该明白了吧?信息其实是用来消除不确定性的。但问题又来了,到底消除什么的不确定性?

答案是:信息源

这个信息源其实就是指抛硬币这个事件本身,它本身具有不确定性,可能是正面,也可能是反面。而信息源的不确定性就叫做:信息熵。于是,我们就可以知道,

信息就是用来消除信息熵(不确定性)的。抛硬币如果正反概率都是50%,那就是不确定性最高的之后,信息熵也就最大。反之,如果正面朝上的概率更高,那其实这个系统的不确定性就小了,信息熵也就小了。

所以,信息量其实本身就是信息源的信息熵

信息熵

因此,我们只要能够计算信息熵,那就可以计算信息量具体是多少了?

那具体如何计算呢?其实香农从热力学中找到了灵感。在热力学当中,熵用来表示:

一个系统的无序状态(不确定性)。

举个最常见的例子,如果你把一点墨水滴到水中,墨水会和水融合在一起,整个杯子的无序状态数会增加(因为变混乱了嘛),这里我们可以把这杯子里的水看成是一个系统。

在物理学中,衡量一个系统的混乱度,其实可以通过统计整个系统的状态数来确立。

可能性越多,不确定性就越大;在状态数量保持不变时,如果各个状态的可能性相同,不确定性就很大;

因此,科学家给出了统计系统状态数的公式(不看也没有关系):

其实信息熵其实也就是表示了一个系统(信息源)的不确定性(信息熵)。

由于热力学的启发,香农也给出了类似的计算信息熵(信息量)的公式:

具体咋用呢?我们回到刚才抛硬币的例子来:

抛出一个理想硬币,信息熵为log2(2/1) = 1比特;

抛出两个理想硬币,信息熵为log2(4/1) = 2比特。

自从信息论被提出来之后,科学家就一直在思考一个问题,这个世界到底是什么?我们都知道是物质是原子构成,那世界就是原子的?

但我们也要知道,原子的排列构成了世界,而排列本身就是信息,因此原子是通过交换“比特”来实现有序排列的,意思就是说,某种程度上来看,世界又是比特的

(0)

相关推荐

  • 看这位跨界的天才,如何为我们描绘未来

    中科院物理所 中科院物理所官方账号.爱上物理,改变世界.1小时前 有了这位孤独的天才的突破性工作,如今的信息时代才成为了可能 01 香农其人 科学寻求自然的基本定律,数学则在旧基础上构造新的定理,而工 ...

  • 【信息伦之父】香农:喜欢杂耍的天才,如何量化了信息呢?

    Part 01:香农:天才的童年很平凡 Part 02:香农的双学位:数学与机械 Part 03:机器可以拥有逻辑吗? Part 04:香农与布尔代数 Part 05:香农在贝尔实验室 Part 06 ...

  • 信息哲学 | #1 信息是熵还是负熵?

    本文目录:    0. 一个被忽视的负号     1. 香农的两个思维翻转     2. 信息与不确定性     3. 违反日常感受的信息量     4. 调和矛盾的补丁 4.1 补丁1:已知与未知 ...

  • 克劳德·香农:看我如何发明未来

    [导读]克劳德·艾尔伍德·香农,美国数学家.电子工程师和密码学家,被誉为信息论的创始人.他发表了划时代的论文--通信的数学原理,奠定了现代信息论的基础.不仅如此,香农还被认为是数字计算机理论和数字电路 ...

  • GPL平台的soft文件提供的注释信息到底准确吗

    这个月初,我推出3个R包, 第一个是整合全部的bioconductor里面的芯片探针注释包. 第二个是整合全部GPL的soft文件里面的芯片探针注释包. 第三个是下载全部的GPL的soft文件里面的探 ...

  • 夫妻为要“完美孩子”做产前基因检测后堕胎,信息边界到底在哪?

    虽然二胎和三胎的基因检测结果完全相同,但庆辛做出了完全不同的决定.先进的基因检测技术给了她信息,却也让她陷入了更多的谜团.庆辛说,现在出生的第三个孩子,是用第二个流掉的孩子换的. 文|康子 编辑|陈晓 ...

  • 整天说信息差,信息差到底怎么获得

    作者丨编辑:宋大叔 公众号:宋大叔项目情报站 用心写每一篇文章,希望被用心的你看到. 原创不易,且看且珍惜.文章如果能给你启发,我的荣幸. 真正的信息差,从来不是我们眼睛上看到明面的东西,而是躲在你看 ...

  • 信息与文献检索的“学问”到底在哪 | 伦敦求学记2

    题图:记一个双层巴士游伦敦的'悠闲'下午(没有茶) 今天的课是我期待已久而且两位导师都强力推荐的一门"工具课". 其实细细回想起来我们当初在南师大读本科的时候也有图书馆开设的信息检 ...

  • 买家索要当地老客户信息,到底该不该给?

    MIKE外贸说 做外贸久了会遇到各种各样的客户,各种各样的要求,各种各样的谈判难点,而面对每个问题,我们需要做的不是马上对客户的邮件做出回复,而是应该给予针对的分析,而后做出针对性的回复,只有这样,才 ...

  • 他到底为什么不回我的信息?

    "他到底为什么不回我的信息?" "她为什么不能给我一点私人空间?" 这大概是我的闺蜜和我男朋友的兄弟最常听见的我们对彼此的吐槽了. 谈恋爱,不就应该24小时事事 ...

  • 征信报告到底记了哪些信息?

    朋友们,大家好,我是瓜爷今天我给大家科普了征信报告里对逾期时间的记录,很多人问征信报告到底记录了哪些信息,今天咱们就说说这件事. 征信报告里主要记录了五类信息: 1.基本信息 包括身份信息.居住信息. ...

  • 在海量信息和知识大爆炸的时代,我们到底应...

    在海量信息和知识大爆炸的时代,我们到底应该学什么? 掌握正确的认知方法--学习分享(四十四) 一.深度认知 1.临界知识 所谓临界知识,就是让我们经过深度思考后发现的具有普遍指导意义的规律和定律: 2 ...

  • lncRNA芯片的探针到底该如何注释到基因组信息呢

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.但是部分粉丝提出了更过分的要求,说自己没有服务器,我以前的教程:( ...