囚徒困境模型中的三大问题
文丨乌里单刀
什么是囚徒困境?
“囚徒困境是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型”。
“囚徒困境(Prisoner's Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况”。
囚徒困境模型的第一个问题是集体主义。
奥地利经济学派经典巨著《人的行动》(余版)第二章“人的行动科学的认识论问题”,第4节“方法论的个人主义原理”中说道,“我们必须认识到,所有的行动都是个人做出的。一个集体的行动得以通过某一成员或少数几个成员表现出来,而后者的行动是作为第二资源与整个集体相联系的。正是行动之个人及受其行动影响的所有人赋予某行动的意义,才决定该行动的特性。也正是这种意义,把个人行动与国家和城邦的行动区别开来,本来是刽子手而不是国家对罪犯执行死刑。正是那些相关者所赋予的意义,把刽子手的行动推定为国家的行动。”
这一节主要论证了集体最终是且只能是人们观念的产物。是个人的主观偏好构成了集体认同,个人的价值判断赋予了集体以各种意义。这是出于对人的本质——亦即“人的行动公理”的洞察所得出的一个经验所不能证伪的逻辑推论。米塞斯最后以一个精准概括揭示出“集体”的本质:集体无法被“看见”,只能被认识和理解。
经验上看,集体是动态的,社会上的各种集体本来就是分分合合,有新生、消亡和更替,集体成员有退出有加入的。如果有人不再认同集体,他随时可以退出。不过,现实中人们并不能够随时退出某些集体。这是因为人们缺乏足够的手段,或手段被限制、剥夺而“被集体”和“被代表”了。
由此可见,囚徒困境模型中的囚徒是否是一个集体,完全取决于囚徒的主观偏好和认同,与八竿子都打不着的闲杂人等(包括囚徒困境模型的设计者)无关。囚徒被视为一个集体,完全是一种“被集体”和“被代表”。
同样是《人的行动》(余版)第一章“行动人”,第4节“理性与非理性;人的行动学研究的主观主义和客观主义”开头说道,“常态下,人的行动必然是理性的,因而“理性行动”一词变得啰嗦,理应弃而不用。在谈论行动的最终目的时,理性和非理性这两个词也不够妥帖,显得没什么意义。行动的最终目的,通常是行动人某些欲望的满足。既然无人有权以自己的价值判断取代其他行动人的价值判断,那么对他人的目的和意志下判断是白费功夫。谁都没有资格断言什么能使他人更快乐或更满足。”
“所有的行动都是由个人作出的”,并且“人的行动必然是理性的”。 也就是说,理性一词仅适用于个人。无论个人作出任何行动(选择),他都是理性的。因此,既不存在什么“集体的理性”,也不存在什么“集体的非理性”。况且,纵使承认世上存在“集体的理性和非理性”。从逻辑上讲,集体是个人的集合,如果A的行动是理性的,B的行动也是理性的,那么A和B都是理性的。正常人无法理解这样的命题:A的行动是理性的,B的行动也是理性的,但A和B“加在一起”的这个集体是不理性的。因此,囚徒困境模型所“证明”的“在一个群体中,个人做出理性选择却往往导致集体的非理性”这个命题,完全是呓语。
第二个问题是没有保持价值中立。
人的行动学中的理性是指“人选择手段实现自己目的的能力”。价值是主观的。手段是为实现目的而付出的成本,因此手段和目的、成本和收益都是主观的。所以,理性也要从主观的角度去理解。对于囚徒中任何一方来说,是否揭发或保持沉默,完全取决于自己的目的和所支配的手段。囚徒困境模型的设计者根据自己的价值判断设计了一个静态均衡的“团体的最优选择”或“集体的理性”, 并以此去评判囚徒的目的和理性,违背了价值中立原则。
第三个问题是上帝视角,忽视不确定性,把理性定义为不会犯错,手段总是能够达到目的超人的理性。就算真的存在囚徒困境模型的设计者设计的“团体的最优选择”或“集体的理性”,囚徒也没有足够的手段去实现它。
事实上,囚徒困境模型所谓的“团体的最优选择”或“集体的理性”完全是想象的虚幻的概念,完全忽略了行动的不确定性。
在囚徒困境中,对方的选择是不确定的,只有自己的选择是确定的。假如揭发对方,最坏的结果是坐牢八年,最好结果是获释出狱。而保持沉默的话,最好结果是坐牢一年,最坏结果是坐牢十年。显而易见,揭发的最坏结果和最好结果均优于保持沉默的最坏结果和最好结果,而这是可以确定的。所以对双方来说,揭发对方就是最优选择,也是最容易作出的理性的选择。
注意:这里说的最坏结果和最好结果是以“人有自由意志,喜欢自由甚于约束,喜欢更少的约束甚于更多的约束”为前提。假设囚徒A愿意牺牲自己以成全囚徒B,选择了沉默,也不能说囚徒A不理性。因为人的行动是有目的的。囚徒A牺牲自己成全囚徒B,则囚徒A的目的(收益)是使囚徒B无罪释放,手段(成本)是自己入狱十年。说明囚徒A把“囚徒B无罪释放”的价值排在了“自己入狱十年”之前。根据理性的定义--- “人选择手段实现自己目的的能力”, 囚徒A仍然是理性的。
真实的世界充满了不确定性。人既做不到全知,也做不到全能。囚徒困境模型设计的静态均衡的“团体的最优选择”或“集体的理性”仅仅是脱离现实的想象。
—————
上一篇:取消公摊,好心办坏事
题图:Yosemite Valley, Yosemite Park, c. 1868