幂律分布
什么是幂律分布?
用数学表达就是“节点具有的连接数和节点数的乘积是一个定值”。简单说,在一个系统里,如果拥有1万元的人有10个,那么拥有1000元的人就有100个,而有10块钱的人就有1万个。这种分布现象就是幂律分布。
幂律分布的两个特征:1、高度的不平均。 2、无标度(分形)
说幂律分布,你可能不太了解,但你肯定听过一个词,叫“二八法则”。比如全社会80%的财富集中在20%的人手里,一个行业80%的市场被20%的头部公司占据,一家公司80%的生意来自20%的重点客户……二八法则,其实就是幂律分布最直观的表现。这也是幂律分布特征之一,高度的不平均。
图里横坐标,代表随机变量的取值;纵坐标,代表发生的概率。而幂律分布就是一条向下的曲线,拖着一个长长的尾巴。它的含义也非常明确——在随机变量中,越小的数值,出现的概率越大;越大的数值,出现的概率则越小。
虽然幂律分布无处不在,但它的数学特征只有一个,就是无标度,也叫“无尺度”“尺度无关”。不管怎么叫,意思是一致的——在任何观测尺度下,幂律分布都呈现同样的分布特征。
一般的分布都会有个尺度范围,在这个范围内服从这个分布,超过这个尺度可能就不服从这种分布了。而幂律分布没有尺度的限制,不管截取任何一个部分,都仍然呈现幂律分布的特征。
比如,图书销量是服从幂律分布的,最畅销那本书的销量在前10名销量中占的比例,和前10名的销量在前100名的销量中占的比例,和前100名在前1000名的总销量中占的比例,大体都是相同的。
这就是幂律分布的数学特征——无标度。符合幂律分布的网络,又被称为“无标度网络”。如果你懂”分形“的话,分形的结构自相似性符合幂律分布。
世界是不公平的
幂律分布和正态分布,给我们展示了两个不同的世界。在正态分布的社会里,中等收入阶层占绝大多数,低收入和高收入阶层只占极少数。这种分布,被认为是非常理想的社会结构,对聪明勤奋的人有激励,让弱者的落差感没那么大。但是真实世界的趋势,是越来越像幂律分布。第一个为幂律分布命名的是经济学家帕累托。他发现,在19世纪的意大利,极少数的富人赚走了绝大部分的钱,大部分家庭的收入都很低。他的这一发现被后人称为“帕累托法则”,也叫“二八定律”
用《新约·马太福音》里的话就是:“凡有的,还要加倍给他叫他多余;没有的,连他所有的也要夺过来。”用现在的话来说,就是“穷者越穷、富者越富”。
为什么会产生幂律分布?
幂律分布之所以产生,是网络中的相互影响和正反馈的结果。因为这些分布里头的个体并不是独立的,而是相互联系的。如果一个分布中的个体相互独立,那么这样子的分布就会倾向于比较温和,比如身高、体重、智商,这些现象,人和人之间是互不影响、彼此独立的。它们不是网络现象,所以,它们服从的是正态分布。
但是,财富、人脉、声望,还有人口和点击量,它们都是网络现象。一个人有多少钱、有多少人脉、有多少关注度,是在跟别人的互动中形成的。你必须把这些现象放到网络之中,才能理解它为什么是这样。
那么,网络为什么会呈现幂律分布呢?
这跟网络的生长机制有关。物理学家巴拉巴西(Barabási Albert-László)认为,网络生长的方式不是随机发生的,而是优先连接。当新的节点加入网络,或者网络中有新的连接产生时,连接度高的节点会比连接度低的节点更有可能得到新连接,这就是所谓的优先连接。
在社交网络中,一个人的朋友越多,就越有可能认识新朋友。
在互联网上,一个短视频的点击量越高,就越容易被更多的人看到。
在学术界,一篇论文被引用的数量越多,就越有可能被其他的论文引用。
正是在优先连接这一机制的作用下,网络才出现了幂律分布的结果。幂律分布的出现,预示着一个系统从无序到有序的过程,从随机网络发展到无标度网络的过程。幂律分布的结果,是少数的节点能够施加影响,重新组织整个系统。以航空网为例,伦敦、芝加哥、法兰克福、阿姆斯特丹的机场都非常地大,有通往全国各地、全世界各地的航班,它们是全球航线网络中的超级节点。但是与此同时,还有大量的小机场,他们是地方性的,只维持了几条航线。航空公司通过小机场覆盖尽可能多的乘客,又通过大机场这样的超级节点,最大程度地减少了转机的次数。所以,航空网的效率,来自于他们主动运用了幂律分布
幂律分布是个无法预测的魔鬼
幂律分布魔鬼的一面,主要体现在三个方面。
第一,幂律分布让平均数失去意义。
正态分布是一种均匀对称分布,大多数数据都集中在平均值附近,所以平均值非常有用,因为它代表大多数。而幂律分布呢?它的数据变化幅度非常大,平均值毫无意义。拿个人收入来说,有一贫如洗的穷人,也有挥金如土的富豪,把这两群人的资产平均,完全没有意义。
小布什总统就曾在竞选演说中玩过这个把戏。他说,2003年的减税计划让每个美国家庭平均少纳税1586美元。从数字上看,这句话没有撒谎,但它有很强的误导性。
因为财富服从幂律分布,是高度不对称的。大部分普通家庭收入不高,减税的额度很有限;但小部分收入极高的家庭,可能会获得几万甚至几十万的减税额度,一下就把平均数拉高了。事实上,当年减税的中位数是650美元。也就是说,有一半的家庭连650美元都没达到,更别提1500多美元了。
这就是幂律分布,随机变量波动的范围非常大,常用的平均值、标准差到这里都没用了。如果说正态分布是概率分布的神,构建了一个稳定的秩序;幂律分布就是一个喜怒无常的魔鬼,让已有的秩序和工具全部失效,使一切变得难以捉摸。
第二,幂律分布让原本不会发生的极端事件发生。
在数学上,这个叫“长尾”,也叫肥尾、厚尾。简单说就是,虽然极端数据出现的概率很低,但这个概率永远不会趋近于0,永远不会小到可以忽略不计。
这也和正态分布不同。在正态分布里,数据非常集中,非常极端的数据几乎不可能出现,可以直接忽略不不计。而在幂律分布里,再极端的数据都有出现的可能。
我可以用生命打赌,你在街上不可能看到身高超过5米的巨人。但一个城市的人口超过3000万,一本好书在畅销榜上盘踞30年,一个人的资产超过3000亿,这些事情虽然可能性很小,但仍然随时可能发生。就像超大规模的自然灾害,虽然发生概率极低,但我们知道它一定会发生。
而在幂律分布里,极端数据往往意味着极端事件。而极端事件,比如超大型海啸、超强大地震、席卷全球的金融风暴等,都会给人带来非常大的损失。
正态分布构建的世界非常稳定,只需要考虑常规、考虑大多数就可以。但是幂律分布仿佛拥有一种神奇的魔力,让不可能发生的事情变得可能。它全然不顾人们的预测,也不理会常规,而是悄悄躲在阴暗的角落,不经意间给人类致命一击。你说,它是不是个魔鬼?
第三,幂律分布完全不可预测。
听完前两点,你可能会说:虽然幂律分布很可怕,但我们还是可以对它进行科学研究,然后攻克它啊?
没错,科学家们确实一直致力于幂律分布的研究。但告诉你一个悲伤的结论,到目前为止,幂律分布还完全无法预测。即便是在简单的模型里,我们也完全无法做出任何有效的预测。
比如著名的“沙堆模型”,在平台上不断添加沙粒,慢慢形成一个沙堆。随着沙堆高度的增加,新添加的沙粒会带动沙堆表面其他沙粒滚落,产生所谓的“沙崩”。统计沙崩的规模和发生的频率,科学家发现它服从幂律分布。
这是一个极其简单的模型实验。所有物理知识我们都掌握,而且能用计算机跟踪每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。我们既不知道在什么条件下,再放一粒沙子就会导致沙崩,也无法预测这粒沙子导致的沙崩规模会有多大。所以到目前,我们对于幂律分布,比如说各种自然灾害,基本还是束手无策。
你可能会说,不是有“二八法则”吗?我们抓重点,抓住重要的20%不就好了吗?可能很多人都会这么告诉你,但我想说的是——这是个存量思维,可以总结过去,却对未来没有用。因为虽然我们知道80%的生意来自于20%的客户,但永远不知道下一个客户是属于重要的20%,还是不重要的80%。还是那句话,幂律分布不可预测。
我们知道大灾难影响很大,而且一定会来,却不知道下一场大地震、下一场森林大火、下一场战争、下一次金融危机会什么时候发生,以及会带来多大的损失。我们知道公司市值、电影票房、社会财富的分布极不均匀,却寻找不到方法规避风险。这真是让人绝望。
虽然幂律分布是中性的,没有好坏之分,但是站在人类的角度上来说,在一次次的自然灾害面前,我们还是会不由自主的产生一种念头——幂律分布就是个彻彻底底的魔鬼。
可怕的魔鬼带来新希望
虽然幂律分布无法预测,但我们能不能找到它产生的原因呢?找到了产生的原因,不就能避开地震、火山爆发、海啸等自然灾害了吗?
道理是这样,但现实可能又要让你失望了。幂律分布产生的原因,目前没有统一的答案。各种解释众说纷纭,谁也说服不了谁。
其中一个比较主流,是1982年诺贝尔物理学奖得主肯尼斯·威尔逊的观点。因为这个研究给人类对抗熵增,对抗世界的宿命,提供了新的希望。
威尔逊的研究突破,源于水变成冰这个常见的生活现象。他发现,在水变成冰的过程中,存在一个神奇的临界温度——在临界温度之前,水分子里原子的自旋都是随机指向不同的方向;可一旦到了临界温度,就会非常有序地指向同一个方向。
这是个神奇的事情,为什么在那一瞬间突然就从混乱变成了有序呢?
威尔逊收集了很多临界态一瞬间的关键数据,结果发现,每个指标都在临界态附近涌现出了幂律分布。换句话说,在水变成冰,也就是从无序到有序的临界状态上,所有指标都呈现出幂律分布的现象。而我们知道,无序是熵值最大,有序是熵值最小,所以这也就说明,在从无序到有序这个熵减的过程中,幂律分布必然发生。
为什么说这个结论给人带来希望呢?
你想,如果这个理论是幂律分布产生的原因,那幂律分布就是我们对抗熵增的必经状态。只要一个生命还存在,一个系统还在演化,它就必然在做熵减的工作,所以出现幂律分布也就不足为奇。这也正好解释了正态分布和幂律分布在生活里都很常见,秒杀其他分布的原因。
所以你看,虽然幂律分布像魔鬼一样狡诈、难以预料,但它可能是我们对抗熵增的必然选择,是每个系统从无序到有序,从混沌到清晰,从未知世界到规律世界的必经之路。幂律分布存在的地方,看似凶险,却恰恰是对抗熵增,对抗死寂,对抗死亡的角斗场,是我们的希望之光。
幂律分布对我们的启示
幂律无处不在,给我们的一个最重要的启示是:社会和自然的大部分系统都有重点,做事情一定要抓重点,持续地抓住重点,就抓住了最高效率的关键。
你若在一个三线城市的小公司的小部门工作,你的部门其实有重点的。每天的工作看上去都是同样无聊,其实也许和某个领导某个时刻的沟通特别重要,会影响你一辈子,而其他工作可能做到80分就很好。
这种利用小的投入能撬动更大收益的工具,就是杠杆。幂律告诉我们,每个系统里都有杠杆点,找到这个杠杆点,能迅速放大一个人的努力,达到事半功倍的效果。
幂律分形,意味着刚才提到的系统的重点都能继续再分,找到更微妙的重点。杠杆点上,还能继续加杠杆。
以二八法则为例。大家只知道20%投入有80%的收益,其实进一步想想,这20%里依然遵循二八法则,有20%的20%。同理再推进一层,我们可以找到二八法则的三次方:找到20%的20%的20%,收获80%的80%的80%。你的效率就是别人的64倍。
二八法则:20% —— 80%
二八法则二次方:4% —— 64%
二八法则三次方:0.8% —— 51.2%
当然,最难的是在变化的世界里持续找到那核心的20%。这个最难,但也最有价值。一家公司从天使投资到B轮,天使投资人大概会以100倍收益退出,付的就是这个当年发现20%的钱。
找到事物的核心杠杆点需要大量的观察和思考,然后抵抗住各种诱惑,坚定地持续专注这20%,这需要强大的定力。这是投资的思考方式,也是自我投资者——高手——最重要的战略。