《博弈论》:“囚徒困境”是与他人博弈时实现利益最大化的缩影
前情回顾:《博弈论》:想要在博弈中取得胜利,最好办法是假设对方是野蛮的
1、囚徒困境
“囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出的一个理论,它讲述的是:两个嫌疑犯在作案后被警察分别关押,他们彼此之间都不能互相通信,警察给他们两个选择,要么承认犯罪,要么抵赖。
但这两个嫌疑犯的选择会关乎到他们判刑多长时间,我们姑且将这两个嫌疑犯命名为甲和乙。
1)甲乙都承认,双方判刑8年;
2)甲乙都抵赖,双方判刑1年;
3)某一方承认,另一方抵赖,那么承认犯罪的一方将被释放,抵赖的一方将判刑10年。
对于任何一方来说,他们获刑的结果都可能是0、1 、8、10年中的一种。
从整体来看,双方都抵赖的情况下,虽然被判刑1年,却实现了整体的利益最大化。
但从个人来看,如果承认犯罪,那么会被释放或者判刑8年。而如果抵赖,则会被判刑1年或10年。
而由于甲乙之间是不能相互通信的,那么这就是一个在未知信息下与对方博弈的一个过程。在囚徒困境中,囚徒考虑的都是自身利益的最大化,于是彼此都选择了承认犯罪,判刑8年。
2.生活中的囚途困境
囚徒其实也发生在我们周围,就比如说很多家长给孩子报班,每个家长都在猜测其他家长的想法,看到其他家长去报班了,于是也给自己的孩子报班。
两家的孩子都报班了,那么大家的孩子都不相上下,可是却把孩子给累倒了。
但如果大家都约好,我们不去报班了,这显然能够实现整体利益的最大化,孩子与同伴不会相差很多,还能快乐地玩耍。
大家约好都不去报班,看起来好像双输,却能够实现整体利益的最大化。
此外,在价格竞争、环境保护和社交问题等方面都存在囚徒困境。就以价格竞争为例,价格竞争可以分为商家与消费者的博弈,以及商家与商家的博弈。
在商家与消费者的博弈中,如果商家不让利,就吸引不了消费者。于是商家在与消费者博弈的过程中找到了一个平衡点,就是通过让利促使消费者消费,就如我们常听到的:满300减30,买二送一,两件9折,三件85折……
在商家与商家的博弈中,如果大家都打起价格战,那么彼此可能都没有利益可图,而最大的受益人就是消费者,那最好的办法就是在这个博弈的过程中找到一个平衡点,大家约定商品的价格区间,如果远高于这个价格区间,消费者就不会下单,如果低于这个价格区间,商家就会被拉出群聊,这对大家都没有好处。
3.优秀的策略是建立在别人成功的基础上的
阿克塞尔罗德是行为分析及博弈论专家,他曾邀请一群人来参加博弈游戏,规则是:
我们用Y代表合作,用N代表不合作,并设定以下规则:若A和B都选择Y,两人都得3分;若A和B都选择N,两人都得1分;若一人选Y,另一人选N,选Y的人得0分,选N的人得5分。
对于个人来说,在一次博弈中想要取得个人利益最大化,那就必须把5分拿下,选择N,此时的团体总分是0+5=5分,但这个5分并不是每局都能稳定获得的,因为如果对方也选了N,那这局就只能获得1分。
可对于团体来说,如果要实现整体利益最大化,就得双方进行合作,此时的团体总分是3+3=6分,并且能够保证在每局中双方都能稳定获得3分。
阿克塞尔罗德让每一个参加游戏的人把自己认为得分最高的策略编成计算机程序,然后让这些程序两两博弈循环进行下去,最终“一报还一报”的程序获得了最高分。
这个程序的特点在于:第一次对局的时候采取合作策略,之后每次对局都以对手上一次的策略作为参考,即对手上一次选择合作,我这一次就选择合作,而如果对手上一次选择不合作,那我这一次也不合作。在双方程序博弈的过程中,另一方会发现这个规律,并采取合作的策略,因为这是在当前情况下的最优解。
在所有程序博弈结束后,阿克塞尔罗德发现得分排名靠前的程序一般有三个特点:
1)具备善良性:即从来不主动背叛别人;
2)具备可激怒性:当对方背叛你时,你也要给予报复。
3)宽容性:别人背叛了你一次,你不能无休止地报复,而要在别人选择合作的时候与其合作。
其实这个程序的特点也告诉我们:优秀的策略是建立在别人成功的基础上的。如果我们想要获取利益,不能只考虑自身,而要选择与他人合作,实现彼此的共赢。
4、结语
双方在博弈的时候,彼此都在猜测对方的策略:一方为了战胜对手,他可能会仔细考虑另一方的想法,而另一方也会如此考虑,同时一方还可能考虑另一方在想他的想法,而另一方也可能知道对手想到了他的想法。
那么想要在博弈中找到一个最优解,最好的方法就是选择合作,实现双赢。
@西西里太阳:《博弈论》的讲解一共有5期,关注我,看更多解读!