囚徒困境模型中的三大问题 / 开普饭

文丨乌里单刀

什么是囚徒困境？

“囚徒困境是1950年美国兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型”。

“囚徒困境（Prisoner's Dilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。或者说在一个群体中，个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况”。

囚徒困境模型的第一个问题是集体主义。

奥地利经济学派经典巨著《人的行动》（余版）第二章“人的行动科学的认识论问题”，第4节“方法论的个人主义原理”中说道，“我们必须认识到，所有的行动都是个人做出的。一个集体的行动得以通过某一成员或少数几个成员表现出来，而后者的行动是作为第二资源与整个集体相联系的。正是行动之个人及受其行动影响的所有人赋予某行动的意义，才决定该行动的特性。也正是这种意义，把个人行动与国家和城邦的行动区别开来，本来是刽子手而不是国家对罪犯执行死刑。正是那些相关者所赋予的意义，把刽子手的行动推定为国家的行动。”

这一节主要论证了集体最终是且只能是人们观念的产物。是个人的主观偏好构成了集体认同，个人的价值判断赋予了集体以各种意义。这是出于对人的本质——亦即“人的行动公理”的洞察所得出的一个经验所不能证伪的逻辑推论。米塞斯最后以一个精准概括揭示出“集体”的本质：集体无法被“看见”，只能被认识和理解。

经验上看，集体是动态的，社会上的各种集体本来就是分分合合，有新生、消亡和更替，集体成员有退出有加入的。如果有人不再认同集体，他随时可以退出。不过，现实中人们并不能够随时退出某些集体。这是因为人们缺乏足够的手段，或手段被限制、剥夺而“被集体”和“被代表”了。

由此可见，囚徒困境模型中的囚徒是否是一个集体，完全取决于囚徒的主观偏好和认同，与八竿子都打不着的闲杂人等（包括囚徒困境模型的设计者）无关。囚徒被视为一个集体，完全是一种“被集体”和“被代表”。

同样是《人的行动》（余版）第一章“行动人”，第4节“理性与非理性；人的行动学研究的主观主义和客观主义”开头说道，“常态下，人的行动必然是理性的，因而“理性行动”一词变得啰嗦，理应弃而不用。在谈论行动的最终目的时，理性和非理性这两个词也不够妥帖，显得没什么意义。行动的最终目的，通常是行动人某些欲望的满足。既然无人有权以自己的价值判断取代其他行动人的价值判断，那么对他人的目的和意志下判断是白费功夫。谁都没有资格断言什么能使他人更快乐或更满足。”

“所有的行动都是由个人作出的”，并且“人的行动必然是理性的”。也就是说，理性一词仅适用于个人。无论个人作出任何行动（选择），他都是理性的。因此，既不存在什么“集体的理性”，也不存在什么“集体的非理性”。况且，纵使承认世上存在“集体的理性和非理性”。从逻辑上讲，集体是个人的集合，如果A的行动是理性的，B的行动也是理性的，那么A和B都是理性的。正常人无法理解这样的命题：A的行动是理性的，B的行动也是理性的，但A和B“加在一起”的这个集体是不理性的。因此，囚徒困境模型所“证明”的“在一个群体中，个人做出理性选择却往往导致集体的非理性”这个命题，完全是呓语。

第二个问题是没有保持价值中立。

人的行动学中的理性是指“人选择手段实现自己目的的能力”。价值是主观的。手段是为实现目的而付出的成本，因此手段和目的、成本和收益都是主观的。所以，理性也要从主观的角度去理解。对于囚徒中任何一方来说，是否揭发或保持沉默，完全取决于自己的目的和所支配的手段。囚徒困境模型的设计者根据自己的价值判断设计了一个静态均衡的“团体的最优选择”或“集体的理性”，并以此去评判囚徒的目的和理性，违背了价值中立原则。

第三个问题是上帝视角，忽视不确定性，把理性定义为不会犯错，手段总是能够达到目的超人的理性。就算真的存在囚徒困境模型的设计者设计的“团体的最优选择”或“集体的理性”，囚徒也没有足够的手段去实现它。

事实上，囚徒困境模型所谓的“团体的最优选择”或“集体的理性”完全是想象的虚幻的概念，完全忽略了行动的不确定性。

在囚徒困境中，对方的选择是不确定的，只有自己的选择是确定的。假如揭发对方，最坏的结果是坐牢八年，最好结果是获释出狱。而保持沉默的话，最好结果是坐牢一年，最坏结果是坐牢十年。显而易见，揭发的最坏结果和最好结果均优于保持沉默的最坏结果和最好结果，而这是可以确定的。所以对双方来说，揭发对方就是最优选择，也是最容易作出的理性的选择。

注意：这里说的最坏结果和最好结果是以“人有自由意志，喜欢自由甚于约束，喜欢更少的约束甚于更多的约束”为前提。假设囚徒A愿意牺牲自己以成全囚徒B，选择了沉默，也不能说囚徒A不理性。因为人的行动是有目的的。囚徒A牺牲自己成全囚徒B，则囚徒A的目的（收益）是使囚徒B无罪释放，手段（成本）是自己入狱十年。说明囚徒A把“囚徒B无罪释放”的价值排在了“自己入狱十年”之前。根据理性的定义--- “人选择手段实现自己目的的能力”，囚徒A仍然是理性的。

真实的世界充满了不确定性。人既做不到全知，也做不到全能。囚徒困境模型设计的静态均衡的“团体的最优选择”或“集体的理性”仅仅是脱离现实的想象。

—————

上一篇：取消公摊，好心办坏事

题图：Yosemite Valley, Yosemite Park, c. 1868

囚徒困境模型中的三大问题

相关推荐