囚徒困境(两个被捕囚徒之间的特殊博弈)

囚徒困境

两个被捕囚徒之间的特殊博弈

囚徒困境是1950年先经由美国兰德公司梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）提出假设理论，后由艾伯特·塔克（ Albert Tucker）命名的理论。其主要理念是：博弈双方基于对对方的不信任和自身利益最大化考量，往往选择对对方不利的选择，导致利益最小化。

其情节为：共同犯罪的AB两人，被捕后处于信息不对称的状态，出现三种情况：双方坦白均获刑8年、一方坦白另一方抵赖，坦白一方释放而抵赖一方获刑10年、双方抵赖获刑1年。对集体来说，最优解是“都不坦白”，但出于自身利益考量，往往选择都坦白，导致双方利益最小化。

在生活中随处可见囚徒困境博弈，广泛应用于政治学、经济学、社会学、商业、司法等领域，具体体现在如军备竞赛、征地问题、公益诉讼问题、关税战、市场价格战、诉讼、见义勇为困境等，每个困境都有从纳什均衡转向维尔弗雷多·帕累托最优解的解决方案，可能在进行多次博弈后才能慢慢向最优解靠近。通过对基础理论的研究，延伸出重复囚徒困境博弈、空间囚徒困境博弈、非对称囚徒困境博弈，每个模型都有助于双方进行更理性的合作。与囚徒困境博弈模型相类似的还有雪堆博弈和公共品博弈，囚徒困境反映了集体理性和个人理性的冲突，理性人的个人理性行为可能导致集体非理性，理性人会从个人利益出发做出对自己最有利的行为，为了达到集体最优解，个人需要抑制对自利的追求。在现实生活中，人们应该彼此信任建立合作关系。

定义与提出

“囚徒困境”是经济学家常用的一种博弈论模型，是非零和博弈中最典型的例子之一，互不信任的双方在不知道对方选择的情况下做出对自己最有利的选择。学者用其来描述个体的理性最终会导致集体不理性结局的情况。1950 年，兰德公司从事综合性战略研究业务梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）假设了一个困境理论，后来顾问艾伯特·塔克（ Albert Tucker）利用囚徒的故事具体阐述该理论，将其命名为囚徒困境。

理论内涵

假定两个犯人共同实施了犯罪行为，被捕入狱后都想尽早获得释放，警察对其分开拘押审问，并告诉他们：如果一个人坦白，而另一个人不坦白，坦白的一方会因立功被立即释放，不坦白的一方获刑10年；如果两人都坦白，则每人均因证据确凿而各判 8 年；如果两人都抵赖，因证据不足，则每人在关押 1 年后释放。在这套规则之下，基于理性人的考量，对于两个囚徒集体而言，其维尔弗雷多·帕累托最优解是“都不坦白”，但最终结果是两人都坦白而各自被判八年。博弈论为囚徒困境提供的纳什均衡解案是双方坦白，但收益没有达到最大化。

典型的2*2囚徒困境博弈模型结果有四种：（合作，合作），（合作，背叛），（背叛，合作），（背叛，背叛），双方都选择合作时，带来的收益最高；当一方选择背叛，选择背叛的一方获得更高收益，但双方都选择背叛时，各自都获得收益，但对集体而言，收益是降低的（相较于选择合作获得的收益），个人理性带来了集体的非理性。囚徒困境体现两个个体在涉及到利益争夺时，是立足大局，愿意相互协同、合作共赢，还是重视个人利益，倾向于互相背叛、彼此诈欺，博弈结果是双方同时背叛，因为人类有利己天性。

囚徒困境反映了集体理性和个人理性的冲突，利益驱动下，出于对对方的不信任，理性个人会根据自己的利益做出对个体最优的行为，但对集体而言不一定是最优选择，个人利益最大化造成集体非理性。理性人从个人利益最大化出发，选择不合作是最优解，但现实生活中，抑制自己的自利需求，选择合作是走出囚徒困境的最佳路径。

理论应用

政治学

军备竞赛

对于国家博弈的囚徒困境，美苏冷战是典型案例，冷战背景下，摆在两个国家面前的两种选择：裁军或扩军，出现四个局面：当双方均选择扩军时，双方相互对峙，付出更多成本进一步扩军，加剧战争风险；有一方选择扩军时，实力不对等的一方受到的战争威胁更大；双方均裁军时，不必支付额外开支，也没有战争风险，但两国都不会选择此方案。尽管双方裁军是普拉提最优解，但是站在国家角度，扩军总是比裁军有益。

政府评价

政府绩效评估中，政府有两种选择：主动组织、被动接受；公众有两种选择：主动参与、被动参与。会出现四种结果：政府主动组织，公众主动参与；政府主动组织，公众被动参与；政府被动组织，公众主动参与；政府被动组织，公众被动参与。这与传统的囚徒困境模型不同，这种情况下，双方都主动才能实现效益最大化，双方都不主动，意味着成本降低、程序简化，但不利于社会长远发展。

经济学

关税战

美国与中国的关税战是2*2囚徒困境重复博弈，双方最优解是（合作，合作），但由于美国数次背叛，态度多变，导致中国在博弈中慢慢走向对抗一方，最终演变为（对抗，对抗），即双方都选择不合作，这使双方利益受损。博弈在反复进行，面对中国想合作但美国选择对抗的态度，只有不断回击美国的背叛行为，使美国遭受损失，在后续的博弈中，美国会改变对中国的策略，从而从背叛走向合作。

征地

政府希望征用土地以促进城市建设，农民希望获得补偿以弥补收益减少的损失。理想结果是：农民接受政府设置的补偿款，双方都能获益；现实情况是：部分农民漫天要价或采取激进措施反对征地，政府只能强征或重新谈判，这导致双方利益受损。一方的选择原本是希望给自己带来更大的收益，结果反而使收益变少。

商业

价格战

商业竞争者彼此降价以抢占市场份额，最终带来整个行业利润下降。假设商家1价格不变，商家2降价，则消费者会被商家2吸引，使商家2获得更多利润；假如商家1降价，商家2更会降价，否则商家1会抢占商家2的客源。因为不知道对方会不会降价，总有人会选择降价来吸引客源，最终的结果是每个商家都选择降价，陷入低价恶性竞争怪圈。以快递行业为例，以价换量的价格混战导致行业发展陷入困境。

A、B是两家公司，他们会理性选择广告策略，会有四种情况：A做广告，B做广告；A做广告，B不做广告；A不做广告，B做广告；A不做广告，B不做广告。如果A不做广告，B不做广告，两家公司都会有收益，且收益相当；如果A做广告，B不做广告，那么A获利高且B获利减少，反过来也一样；然后B也跟风做广告，最后两家公司的收益都会降低，因为广告费用支出过高。这里的最优解是两家公司都不做广告，反而能提高市场整体收益。

领导决策

领导决策落实过程中有两个决策执行者下级A和下级 B，有四种可能性：下级A执行，下级B执行；下级A执行，下级B不执行；下级不A执行，下级B执行；下级A不执行，下级B不执行。对A而言，无论B是否执行，最优解都是执行，只有这样才能获得领导赏识，对B来说也是如此，因此最优解是AB都执行，但若把AB视为整体，执行领导决策有可能受到赏识，也有可能受到批评，犯错的可能性更高。对集体来说，都不执行会使受批评的可能性降到最低。但在现实生活中，为了职位晋升，A与B把对方视为竞争对手，互不信任，在不通知对方的情况下选择执行决策，尽管存在多做多错的风险，领导仍可以利用“囚徒困境”使其决策得到落实。

司法

诉讼

作为公共产品的提供者，环境公益诉讼更是一种典型的“集体行动”，破坏环境行为会对社会产生负外部性，但环境破坏行为造成的影响平分到个人时，对当事人影响很小。有诉讼资格的原告在成本自负、风险自担、收益共享的前提下，出于个人利益考虑，不会选择诉讼，而是等着别人提起诉讼，自己坐享其成，但对集体而言，导致的结果是无人提起诉讼，因为这项活动带来的私人利益小于社会利益，这就导致出现囚徒困境——尽管诉讼有利于原告人，但所有人选择不诉讼。

司法执行

法院与失信被执行人之间是一种“静态博弈”，二者之间有四种结局：被执行人履行判决书，法院采取相关执行措施；被执行人不履行判决书，法院采取相关执行措施；被执行人履行判决书，法院不采取相关执行措施；被执行人履行判决书，法院不采取相关执行措施。与正常的囚徒困境博弈不同，双方均不合作并未获得最大利益，反而使损失扩大，这是因为法院采取执行措施是一种义务，是“非正常合作”，结局一双方利益均受损、结局二法院受损、结局三双方获利、结局四被执行人受损。

审讯

现实中，侦察机关在审讯时，能够依靠“囚徒困境”策略而获取口供的情形并不多见，因为双方达不到绝对理性，较为理性的情况下，双方可能同时选择不招供，因为这样可能逃避处罚。囚徒困境中博弈双方都以获取个体利益最大化为追求目标，但中国的“坦白”制度带来的期待利益与实际损失不成比例，这导致不会陷入选择困境。现实的法律规则是：假定犯罪可能被判十年，若两人都抵赖，由于缺乏证据，二人无罪释放；若两人都坦白，各判八年；如果两人中一个坦白、一人抵赖，坦白的从轻处罚判六年，抵赖的加重处罚判十年。刑期相差不大，犯罪者更可能选择抵赖。这种情况下，解决方法有三：一是帮助嫌疑人分析利弊，做出理性选择，即招供；二是营造信息不对称，防止串供，让彼此都选择对自己更有利的选择，即招供；三是寻找利益平衡点，即招供，招供对个体来说并非最优解，但对集体来说是最有利的。一般来说，某些罪轻的共同犯罪案件，更容易通过“囚徒困境”策略找到突破口。

社会

见义勇为困境

一老太太于公交站台摔倒，路人将其扶起反遭讹诈，法院判决赔偿，偏离了社会主流价值，打击了公众的传统道德观念。

这一模型中，双方见危不救是最差解，反而成为常态。集体利益化的最优策略是双方都见义勇为，因为热心人的带头作用引领了社会风气，但从个人理性出发，最终选择都是见危不救，最后全社会都更加倾向见危不救。

理论发展

基于经典囚徒困境博弈，学者发展出新的模型，分别为重复囚徒困境博弈、空间囚徒困境博弈、非对称囚徒困境博弈。重复囚徒困境博弈指在两个博弈者之间博弈重复发生。Simon指出，在有限理性下，博弈者追求“满意”而不是“最优”，在博弈过程中，通过向收益较高的博弈者所采用的策略进行学习来选择自己的策略。Nowark和May率先提出了空间互惠理论,指出个体之间的空间结构可以促进合作，相关学者基于规则网格的研究肯定了这一结论。非对称博弈指当博弈模型具有混合策略纳什均衡时，通过惩罚或奖励博弈方，可以改变非对称性程度，进而改变合作的产生。

重复囚徒困境博弈模型

重复囚徒困境博弈模型（Iterated Prisoner’s Dilemma，IPD）两个博弈者之间重复发生囚徒困境博弈，在重复博弈中，博弈者可能为了长期利益而放弃眼前的利益，长期的、重复的博弈过程体现博弈者间合作与非合作的互动过程，在博弈中，群体将依序重复博弈、调整风险态度、调整策略及进行群体淘汰更新，是一种动态博弈。有限次重复博弈与一次性博弈一样，带来集体非理性，无限次博弈则促进双方合作。具体表现在：个体本身风险态度与策略调整——选择随机个体进行博弈——基于收益变化调整风险态度——基于效用调整博弈策略——基于收益增长率进行群体淘汰与更新——再次选取随机个体进行博弈······重复数次，直至达到最终目标。借鉴了美国20世纪80年代计算机博弈竞赛中三种经典策略之一：针锋相对策略：先选择合作，之后在每一轮博弈中模仿对手上一轮决策，灵活多变，形成互利共赢的局势。另外两种策略是始终合作策略、始终背叛策略。

第一次博弈后，只存在唯一的纳什均衡解，（坦白，坦白），如果两个人都选择坦白，没有选择其他战略，也就不会打破这种平衡，出于自身利益考量，此时（坦白，坦白）结局会一直持续下去，在以后的某次博弈里，囚徒A 选择沉默，囚徒B选择坦白，此时B获益，（沉默，坦白），但博弈仍在持续，下一次结果是A选择坦白，B选择沉默，此时A获益，（坦白，沉默），A与B不断转换的结果是双方最后均选择沉默，由（坦白，坦白）的纳什均衡解变为（沉默，沉默）的维尔弗雷多·帕累托最优解。

模型演化为：

此时最优解是（合作，合作），但出于自身利益考量，AB两人中会有人选择背叛，当B第一次背叛，A第一次合作，此时B获利，第二次B选择背叛，A也选择背叛，此时二人皆输，由于是不确定的重复博弈，n次后局面还是双输，第n+1次时，A 选择合作，B选择背叛，B获利，n+2次时，A选择合作，为了结束博弈，B也选择合作，博弈结束。

空间囚徒困境博弈模型

个体按照一定的空间结构分布在系统中，只能够与距离自己较近的个体进行交互。在现实的社会交往中，群体生活空间具有结构特，所有个体都处在某种社会关系网络当中，囚徒困境博弈假设系统中的个体要与其他个体都进行博弈或者是随机选择对象，但现实中不是每一个个体都与系统中的其他个体存在交互关系。通过研究规则的二维方格网络、不规则的小世界网络，无标度网络结构的合作演进发现，个体之间的空间结构可以促进合作。在空间结构下，灭生过程、模仿过程的更新规则更能促进合作生成。

非对称囚徒困境博弈模型

非对称性对博弈合作的产生有一定影响，博弈双方中实力更强的一方采取策略的频率更高，通过惩罚不合作的博弈方会改变双方的实力对比程度，从而改变合作的产生。在此基础上出现了带有惩罚机制的非对称重复囚徒困境博弈模型、角色非对称囚徒困境博弈模型，在带有惩罚机制的模型中，惩罚与贴现因子对合作的产生起促进作用。当系统具有小的惩罚时，贴现越大，演化过程越快靠近(合作，合作)。当系统具有小的贴现因子时，惩罚越大，演化过程也越快靠近(合作，合作)；角色非对称模型中，博弈双方中任一方选择背叛都是群体的最优选择，消费者与厂商博弈模型就是一种非对称囚徒困境。

这一模型有别于传统囚徒困境博弈模型，因为博弈一方的消费者受到的损失更大，二者角色存在非对称性，双方最佳组合是（消费者购买，厂商提供高质量商品），这一过程下，消费者一旦开始购买高质量商品，厂商为了留住顾客，会一直生产高质量商品；一旦消费者购买了低质量商品，厂商也会持续生产，因为能够从中获益，而一旦消费者选择不购买，无论厂商提供高质量还是低质量商品，双方都不会获益，因而运用惩罚机制，迫使厂商生产高质量商品，不断吸引消费者购买高质量商品，使双方不断靠近最优组合。

理论延伸

雪堆博弈模型

雪堆博弈，又称鹰鸽博弈，是和囚徒困境一样的两人博弈模型，大概内容为：甲乙两人开车并行在公路上，因突降大雪，路上的积雪阻断了道路，需付出一定的体力与时间才能清除，在此前提下，有三种情况：一是两人共同清理积雪，都需要付出体力与时间，所得收益是相同的，即能够离开；二是一人下车清理，另一人坐享其成，这种情况下，不下车的一方能获得更大的收益，导致两个人都不愿意下车；第三种就是两人都不下车，什么也得不到而且回不去了。这种情况下，个体选择与对方不同的策略才能收益最大化，前提是吃亏的一方愿意承担损失，否则会导致双方都没有收益。个体在雪堆博弈中的策略是根据对手决策产生的。一方决策为合作时，另一方的最优策略是背叛；反之，一方决策为背叛时，另一方的最优策略是合作。

公共品博弈模型

是一种多人囚徒困境数学模型，于1973 年由Hamburger 正式提出，具体情形为：多人参与某项公共物品的投资，个人可选择投资或者不投资，由于其公共属性，最终每个参与到该项目的人，无论是否投资，都可以获得均等的收益，但很明显，在这一过程中，没有投资的人没有承担风险却仍能获得收益，对参与投资的人来说，其个人利益是受到损失的，于是出现更多的人选择不投资，最终的结果是所有人都不愿意投资，公共产品也就无法生产，每个人都无法分配到公共资源，只有每个人都是参与者，才能实现利益最大化。

理论影响

博弈论研究学者提出各种假设，研究人的行为动机，不断补充、完善博弈论体系，成果斐然。从合作与非合作行为动机角度来说，选择非合作行为的动机，学者Dawes认为有的参与者担心只有自己单方面选择合作，只能得到博弈的最低收益；选择合作的动机，有的学者如Bacharach认为原因是人存在集体理性，追求利益最大化而不是个人利益，学者Andreoni 认为是利他主义和声誉促进合作动机。互惠共赢理论的本质还是追求利益最大化。

基于囚徒困境博弈，Selten，Stoecker 研究了只要对面博弈方有合作的愿意且对对方的决策有乐观的期待，从而改变自己的策略，在部分竞争中取得成功；Liberman等学者研究了声誉和虚拟名字对博弈方选择合作的影响；Cox et al研究证实了文化差异对合作或非合作行为有很大的影响。Boone 和 Witteloostuijn探讨具有行为博弈或经济博弈知识的参与者更有可能选择合作行为。Sabater-Grande 和 Georgantzis探讨了风险偏好类型的影响，指出风险厌恶者倾向于选择背叛。孟祖晖认为参与者对人的信任也会影响其行为决策。马本江，邱菀华研究如何摆脱囚徒困境博弈，结论是博弈双方在理性条件下增加博弈的约束规则。

基于空间博弈模型，Perc 研究了空间囚徒困境博弈模型中随机收益变化可以促进合作的产生；Nowark和May将空间网络结构与囚徒困境博弈模型相结合，指出个体之间的空间结构可以促进合作，发现对最优者的模仿策略可以促进合作的形成，提高整体的合作水平。

基于非对称博弈模型，Newman-Watts 研究了带有非对称收益分配机制的囚徒困境博弈模型，在某些情况下，穷人会被富人剥削，富人更富，在某些情况下，穷人会受到富人的救济，财富会重新分配。

参考资料

条目作者

小编

资深百科编辑

概述