囚徒困境的来历和博弈的关系

作者&投稿：邵之（若有异议请与网页底部的电邮联系）

囚徒困境的来源~

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，抵赖的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，比起抵赖的判十年，坦白还是比抵赖的好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。但这个帕累托改进办不到，因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。试想像囚徒困境的情况进行十次或以下。我们可以合理地设想，如果囚徒第一次被对方指控，第二次这个囚徒也会指控对方。相反，如果第一次别人保持沉默，建立了互信的关系，你也会保持沉默，导致帕累托最优。当然，两个囚徒都会有相似的想法，在第一局保持沉默，以期望建立互信关系，所以双方都会保持沉默。第二局时，双方亦应有相似的想法，继续保持沉默，以期继续在互信的情况下进行第三局，以致余下的八局。这种想法合理吗？在第十局时，互信的关系明显是没有意义的，因为十局已经完结，囚徒没有必要为维持互信的关系而沉默(没有第十一局)，所以第十局囚徒一定会背叛对方的，理由和只有一局囚徒困境一样。问题是，既然大家都知道在第十局，无论如何对方都会背叛自己的，你在第九局保持沉默也是没有意思的，要知道，保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。下一个问题是，双方都有相同的想法，明知第九局对方会背叛自己，所以第八局保持沉默也是没有意思的，第七局亦然，如此类推，纳什均衡是十局都会互相背叛，建立互信关系是没有可能的。只有在囚徒困境的局数大家都不肯定的情况下，上述的推论才不会发生，才会出现互相保持沉默的现象。以上推论即为“蜈蚣博弈”，它揭示了倒推法的缺陷。事实上，“囚徒困境”可以看成是一环的“蜈蚣博弈”。例子1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：　甲沉默甲背叛乙沉默二人同服刑1年乙服刑10年，甲即时获释乙背叛甲服刑10年，乙即时获释二人同服刑8年解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益，这也就是经典经济学中的“理性人假设”。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默时，背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

1、什么是博弈？
博弈论（game
theory）的应用是微观经济学的重要发展。
博弈论一般有三个要素组成：参与者，策略和支付。
在每一个博弈中，都至少又两个参与者，每一个参与者都有一组可选择的策略。作为博弈的结局，每个参与者都得到鸽子的报酬，即各自得到一笔支付，其支付可以为正，也可以为负。每一个参与者所得到的支付都是所有参与者各自所选择策略的共同作用。
一个博弈（game）就是参与者（participant）在其中作出策略性决策的情境--也就是考虑到了每个其他参与者的行动和反映后作出的决策。
2、什么事囚徒困境？
囚徒困境是博弈论中的一个经典模型。
囚犯困境模型的假设条件是：甲乙两个被怀疑为合谋偷窃的嫌疑犯被警方捉获，但警方对他们偷窃的证据并不充分。他们每一个人都被单独囚禁并单独进行审讯，即双方无法互相通信息。警方向这两个嫌疑犯交代的量刑原则是：如果一方坦白，另一方不坦白，则坦白者从宽处理，判刑1；不坦白者从重处理，判刑7。如果两人都坦白，则每人都各判刑5年。如果两个都不坦白，则警方由于证据不足，只能对每个人各判刑2。
由于他们不能互通信息，所以每一方都担心由于对方坦白而自己不坦白时自己所遭受的重刑（即对方判1年，而自己判7年）。在这种情况下，每个囚犯从自己的利益考虑，最后的选择都是坦白。
其实，仔细分析一下，如果两人都是选择不坦白，则都可以获得最好的结局，各自判两年。
这就是囚徒困境。
3、垄断竞争中的作用
在垄断竞争中的作用，原理和囚徒困境是一样的。楼上举的例子就很好。你看看吧

“囚徒困境”是1950年美国兰德公司提出的博弈论模型。两个共谋犯罪的人被关入监狱，不能互相沟通情况。如果两个人都不揭发对方，则由于证据不确定，每个人都坐牢一年；若一人揭发，而另一人沉默，则揭发者因为立功而立即获释，沉默者因不合作而入狱十年；若互相揭发，则因证据确实，二者都判刑八年。由于囚徒无法信任对方，因此倾向于互相揭发，而不是同守沉默。

来源：

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。但这个帕累托改进办不到，因为它不能满足人类的理性要求。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

单次多重
单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。
在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。
主旨
囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

解说
如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：
若对方沉默时，背叛会让我获释，所以会选择背叛。
若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。
二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。
这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

举例：

军备竞赛
在政治学中，两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。
关税战
两个国家，在关税上可以有以两个选择:
提高关税，以保护自己的商品。（背叛）
与对方达成关税协定，降低关税以利各自商品流通。（合作）
当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）
广告战
商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。
两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。
此二公司可以有二选择：
互相达成协议，减少广告的开支。（合作）
增加广告开支，设法提升广告的质量，压倒对方。（背叛）
若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。
自行车赛
自行车赛事的比赛策略也是一种博弈，而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

囚徒困境模型是计算机中什么的重要体现
囚徒困境模型是计算机中的博弈理论的重要体现。近年来，博弈理论在经济决策中的应用越来越广泛，尤以典型的人徒困境模型更为突出，对其分析和研究具有重要的现实意义。在各种研究方法中，利用计算机建立系统模型，模拟游戏最为真实有效。由经济行为中的竞争-合作问题可以抽象出囚徒困境问题，建立囚徒困境的基本...

内卷背后的心理学
徒困境(Prisoner's Dilemma)是博弈论的非零和博弈中最有代表性的例子。囚徒困境反映出了有的时候个人选择并非团队的最佳选择，在一个团体当中，个人看来理性的最佳选择往往可能会导致集体的非理性。按照囚徒困境博弈模型，在制度的压力下，人如同囚在困境中，为了自身的利益，绝大多数人都会选择“配合"的...

博弈论 - 人质困境
人质困境模型，也叫出头鸟模型，讲的是当一群人面对威胁或损失时，“第一个采取行动”的决定是很难做出的，因为它意味着将付出惨重代价。这个困境便就叫做人质困境。我们用下面的图画来说明这个模型。有一天，突然来了一个劫匪，手里拿着一把枪跟一包炸药将我们劫持，然后要挟政府拿钱来赎。这时候大家...

20几岁学点博弈论目录
第二章：囚徒困境每个个体都可能陷入“因徒困境”，每个人都像是被封闭袋子中的囚徒，无法逃脱利益冲突带来的困境。要想赢，我们需要学会合作而非互相利用，否则可能会陷入“尔虞我诈”的恶性循环，最终如同“偷鸡不成蚀把米”，两败俱伤。第三章：重复博弈的教训背叛在重复博弈中往往成为输家的选择。

博弈论沉思04占优战略均衡
19 博弈论的基本概念村子里有两户富户，他们是邻居，墙倒了，有两种可能：一家修，另一家就不修；一家不修，另一家就得修。冷战期间，美苏抢占地盘：一方抢占一块地盘，另一方就占另一块。夫妻吵架，一方厉害，另一方就出去躲躲。注意，此处在混合战略纳什均衡条件下，也可能是两败俱伤。因此，...

系统思维:提升效率的关键在于综合优化
3.囚徒困境两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这...

内卷背后的心理学
徒困境(Prisoner's Dilemma)是博弈论的非零和博弈中最有代表性的例子。囚徒困境反映出了有的时候个人选择并非团队的最佳选择,在一个团体当中,个人看来理性的最佳选择往往可能会导致集体的非理性。按照囚徒困境博弈模型,在制度的压力下,人如同囚在困境中,为了自身的利益,绝大多数人都会选择“配合"的方案,极少人会...

梁子湖区19749325659： 囚徒困境(关于囚徒困境的基本详情介绍) ？
尧郝肤疾： 1、囚徒困境(prisoner's dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的.2、囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择.3、虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况.

梁子湖区19749325659： 经济学中的囚徒困境是什么原理? ？
尧郝肤疾： 是说的博弈,事实上呢,是说两个分开被审问的囚犯,他们如果都不认罪,那么就被判1年;都同警方合作,5年;一个合作,一个不合作,则合作的被释放,不合作的被关19年;出于对自己利益的考虑,人通常会选择第2种,而错过了最好的第一种.博弈,是假设人都是理性且自私的情况下,研究人的行为的学科,大概是这样

梁子湖区19749325659： 囚徒困境是怎样形成的 - ？
尧郝肤疾： 囚徒困境有很多种,有时候也是过分自恋和陶醉在精神分裂所致的人格异化中,爱人的气息融合于囚牢的四面墙壁,黑暗中没有摸索到出口. 病人有时候以为她哥哥就在隔壁,并且在渴望找到出口的过程中,同时希望和她哥哥一直关在这里,熔化在这爱的气息里.

梁子湖区19749325659： “囚徒困境”的内在根源是什么? - ？
尧郝肤疾：[答案] 囚徒困境(prisoner's dilemma )是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择.虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况.

梁子湖区19749325659： 什么叫“囚徒困境” - ？
尧郝肤疾： 是博弈论中非零和博弈的代表性的例子,反映个人最佳选择并非团体最佳选择.虽然困境本身只属模型性质,但现实中囚徒困境的例子屡见不鲜. 是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher...

梁子湖区19749325659： 什么是囚徒困境? - ？
尧郝肤疾： 囚徒困境(Prison Dilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择.虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况. 单次发生的囚徒困境,和多次重复...

梁子湖区19749325659： 什么是“囚徒困境”,举出你在社会生活中观察到的“囚徒困境”的例子. - ？
尧郝肤疾：[答案] 1950年,由就职于兰德公司的梅里尔•弗勒德(Merrill Flood)和梅尔文•德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特•塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”.经典的囚徒困境如下: 警方逮捕甲...

梁子湖区19749325659： 简答题寡头市场产量是如何决定的 - ？
尧郝肤疾： 利润最大化是什么产量就是多少产量.要想改变就必须有强有力的第三方介入.

梁子湖区19749325659： 经济学中“囚徒的困境”指的是什么? - ？
尧郝肤疾： 囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯.警察知道两人有罪,但缺乏足够的证据.警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵...

梁子湖区19749325659： “囚徒困境”的内在根源是什么? - ？
尧郝肤疾： 囚徒困境(prisoner's dilemma )是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择.虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况.

你可能想看的相关专题

星空见康网

囚徒困境的来历和博弈的关系

你可能想看的相关专题