在“假设发生如下事情”之前,祝福我们此生永不发生这类事情。如果你心怀侥幸,他可能将你带到偏僻的地方,为所欲为,甚至下毒手,然后掩藏他的罪恶痕迹。
从一开始,每个谋杀犯,绑架犯,强奸犯,他们都会用同一句话:“照我说的做,我就不会伤害你。”然而,一旦你照他们说的做,最后受伤最深的,还是你。
被人用刀抵住,拼命挣扎要是不幸丢了命,岂非不识时务?
所以:
如果你进了他的车,或者跟着他们去了某个地方,你死定了。(以上经验仅供参考,不构成本文作者对遇到绑架的具体建议。)好的一手棋,是其令对手有不好的下一手,以及自己有好的下下一手棋。我们姑且不讨论,在第1节里,专家应对绑架的三点原则的适用范围,以及如何根据情境调整策略。就像下棋,一个人赢,一个人输,即使和棋,也只是暂时的平静。假如两个孩子都不是孔融,并且都想吃更多蛋糕,这其实是一个典型的零和博弈。
(请注意,表格里的4个结果,都是指切蛋糕的孩子的所得收益。)切蛋糕的孩子貌似掌握了主动权,但他决策的关键点,取决于“然后呢?”--即对手的下一步会怎么做。显然,挑蛋糕的孩子,会追求让自己的蛋糕最大化,也就是让对手的蛋糕最小化。对应上面的表格,挑蛋糕的孩子总是会选左边一列,从而导致切蛋糕的得到左边一列的两个较小蛋糕的结果。让挑蛋糕的孩子将要留给他的量小的那半块蛋糕极大化。因此,切蛋糕的孩子只能选择尽量均分蛋糕,以保证获得差不多的半块蛋糕。这个量,是行中极小值的极大值,被称为“极大极小”。也许有人会说,这么简单的道理,为什么要说这么啰嗦?德谟克利特早在公元前300-400年前,就创立了“原子论”,认为每一种事物都是由原子所组成的。作为博弈论的创始人,冯·诺依曼说过:没有极小极大定理,就没有博弈论。
而零和博弈,是敌我双方轮流决策,由一个一个的回合叠加起来。敌我双方都试图让自己的选择收益最大化,让对方的收益最小化。当你被绑架的时候,对手已经出招,现在轮到你走棋了。(再次强调,本文不构成对绑架情境的具体实战建议。)这个时候,大多数人会想,我抵抗的话,会有什么后果:
然而,从博弈思维来看,你仅仅纠结于当下的一步棋去想,毫无意义。我如果这样做,对手会如何回应呢?再然后我又该如何应对他的回应呢?
你要计算下一步,以及下下一步。
然后,再由此倒退,你现在这一步该如何做选择。
如果“你”乖乖上了绑匪的车,如上图左分支(选择1)所示,可能导致如下结果:3、绑架的许多目的是为了钱财,有些歹徒会先撕票再要钱;5、据某地警方的经验,越是熟人绑架,撕票的可能性越高。所以,处在第二回合的“我”,要考虑的是,第三回合的对手会怎么做,以及自己会有怎样的第四回合。《囚徒的困境》引用了卡尔维诺在《寒冬夜行人》一书中的一句话:“你知道,你所能期盼的最好结果就是避免最坏情况。”从一开始,每个谋杀犯,绑架犯,强奸犯,他们都会用同一句话:“照我说的做,我就不会伤害你。”可是,如果罪犯真的不会伤害你,那么你反抗的时候他也不会伤害你。而且,即使起初罪犯没有太想伤害你,但是当你失去选择权的时候,他可能会萌发伤害的念头。游戏者决不会从他的最佳策略上偏离到对自己造成威胁的策略上去。请看上面的图,在第三回合,绑匪会极力让你的收益最小化。所以,你在第二回合要做的,是“极大化”这些自己可选的“极小值”,尤其是要避免最坏结果。同时,你要“极小化”对手可选的有利于他的“极大值”。由此倒推,你就会发现,如专家所言,在第二个回合,你应该做的是:冯·诺伊曼对极小极大值定理的证明是复杂的,“它以一种读者难以理解的方式结合了基本概念和拓扑概念”。约20年后,香农利用 Minimax(极小化极大)算法,提出了解决国际象棋问题的设想。随后,在AI攻克国际象棋和围棋的过程中,Minimax(极小化极大)算法扮演着基础而重要的角色。
对于两个玩家的对抗游戏,其中任何一个玩家的决策会依赖于另外一个玩家之前的决策,且另外一个玩家总是竭尽所能地想要获得胜利。
因此,一方会在所有选项中选择令其自身优势最大的一个,而另一方则会选择令对手优势最小的一个。
通过穷举不同玩家之间的策略,该算法可以构建一棵搜索树,并通过穷举不同的可能,选择其中能得到最佳结果的路径。
请看下图右边的搜索树的最下面一行,3、12、8这一样数字,是“我”期望获得的可能的利益。
对于对手而言,当然会选择让“我”利益最小的走法,所以,在MIN那一行的B节点,对手会选择3、12、8中的最小值3。
同理,在C节点,对手选最小的2;在D节点,选最小的2。
而在MAX行,“我”要选择“3、2、2”这一行极小值当中的极大值“3”。
但是,即使是对于棋类这种完美博弈,该算法的计算复杂度会呈指数级增长。以及,通过多次采样的蒙特卡洛树搜索,以减少计算量。再往后, UCT 算法将蒙特卡洛树搜索方法与UCB公式结合,有效解决了围棋上的问题。进而,基于深度强化学习, AlphaGo诞生,惊人地击败了人类,完成了以往被认为还需要20-50年才能实现的任务。德谟克利特对原子的理解令人赞叹,然而只有基于爱因斯坦的公式,人类才能造出原子弹,以及安全地利用核能。我们可以广义地来想找个问题,即使不是在零和博弈的环境下。例如说起某某产品经理很厉害,可以瞬间将自己变成小白,其实就是能彻底地站在对方的角度。几乎所有厉害的商业公司,核心原则就是“经营顾客”。先想着让顾客价值最大化,然后再从中找寻让自己最大化的策略。我不是很好的销售,口才也很一般,但每次谈合作效果还不错。
请问你现在最想要的是什么?
我们可以如何帮助你实现你最想要的。
我们立即可以做的最小化合作是什么。
段永平早年经营企业,既不占供应商的便宜,也不给批发商赊货。何谓烂好人?就是彻底放弃自己的选择权,试图讨好对方,感动对方。例如,你发现一手棋,能够让自己的利益最大化。但是如果被对手识破,那么结果就会很糟糕。有时候,棋手会心存侥幸:要是他看不到,那我就赚了。你就该假设对方是一个势均力敌的对手,你能看到,对手也能看到。以及,在德州扑克等博弈中,或是像剪刀石头布这类首尾相连的游戏,也需要虚张声势。
别欺负别人,别想着占便宜;
也别因为暂时领先而得意忘形,别耍过头。
“你知道,你所能期盼的最好结果就是避免最坏情况。”所谓全局观,是指你的每个决策点既是相对独立的,又和过去和未来相关联。如果你在一个球队里,队友总是给你传烂球,或者不给你传球,你一定会骂他烂人。可是在现实中,现在的“你”,可能经常不顾及未来的“你”,不管未来的“你”是否有好的选择权。例如,你彻底放弃惩罚对方的权利,以换取对方彻底的信任。
博弈论只研究对赢感兴趣的、有完善的逻辑思维能力的游戏者参与的博弈。只有你相信你的对手(一个或几个)既是理性的,又是希望赢的,而你自己在玩的时候也始终憋着一股劲儿,要力争为自己取得最好的结果,这样的博弈才是博弈论分析的对象。
对博弈论而言,自私的人并不可怕,可怕的是不理性的人。
为什么呢?
你的最佳选择是:
远离这类人。
举例说吧,经济较发达区域的特点之一是:民众只算自己的帐,而不去算别人赚多赚少。
倘若不如此,就会出现如下局面:我才赚十块,你居然赚一千块,我宁可牺牲自己的十块毁掉你的一千块。
这就是损人不利已。
如此一来,博弈论的均衡就无法出现。因为非对弈情况下的“损人不利己”,也就是理性的失去,会摧毁整个游戏。
(当然,经济是否发达有多方面因素,不发达地区也经常有“只算自己帐”的传统。)
记得中学时有个同学的哥哥当年混社会,他说他们那群20岁上下的青年谁都不怕,最怕十四、五岁的孩子,因为这类混小子可能毫无目的不顾后果地冲上来给他们一刀。
博弈论因为这类人而失效。
本文开篇对于绑架者的分析,也是假设他们是理性的。
但是,如果绑架者不是理性的人呢?
那么,不理性的凶手可能会不顾受害人呼救招来人,在没有利益的情况下毒手。
最后
归根结底,一切在乎“对的人”。
不管是零和博弈,还是双赢博弈,你都要努力令对方是一个理性的人。
既要选择对的队友,更要选择对的对手。
关于极大极小原理,我们还可以将其智慧拓展为:
狭路相逢勇者胜,
勇者相逢智者胜,
智者相逢德者胜,
德者相逢道者胜。
最后,祝福你我此生一早避开,不必在狭路上遭遇那些损人不利己的混蛋。