《博弈论及其在管理中的应用》第2讲

时间：2026-01-15

本科生《博弈论及其在管理中的应用》

第2讲静态博弈模型I

禹海波

经济与管理学院

电子邮箱：haibo@http://www.77cn.com.cn

教学邮箱yhb_teach@http://www.77cn.com.cn

本讲通过囚徒困境模型（参见文献[1]第88页），介绍求解静态博弈模型的理论与方法，包括划线法、纳什均衡定义、反应函数法等。

例2.1囚徒困境（prisoners’s dilemma）（见文献[1]第88页）

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克（Albert tucker）1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论，这个故事后来成为博弈论中最著名的案例。故事内容是：两个嫌疑犯(A和B)作案后被警察抓住，隔离审讯；警方的政策是“坦白从宽，抗拒从严”，如果两人都坦白则各判8年；如果一人坦白另一人抵赖，坦白者被立即释放，抵赖的判10年；如果都抵赖则因证据不足各判1年。

问题：两名嫌疑犯选择坦白或抵赖？

结论：单次囚徒困境博弈的纳什均衡是：犯罪嫌疑人A和B都坦白。

求解博弈的方法主要有：划线法、严格下策反复消去法、决策树方法、上策均衡、纳什均衡定义、反应函数法等。

先找出自己针对其他博弈方每种策略或策略组合(对多人博弈)的最佳对策,即自己的可选策略中与其他博弈方的策略或策略组合配合,给自己带来最大得益的策略(这种相对最佳对策总是存在的,不过不一定唯一),然后在此基础上,通过对其他博弈方策略选择的判断,包括对其他博弈方对自己策略判断的判断等,预测博弈的可能结果和确定自己的最优策略。严格下策反复消去法:任何理性的博弈方都不可能采用严格下策。囚徒的困境博弈的两个博弈方都不会采用``抵赖"策略。因此,我们可以把``抵赖"策略依次(或同时)从他们各自的策略空间中排除掉。在任何博弈中,只要我们发现哪个博弈方的某些策略是相对于他的其他策略的严格下策,可以把它们消去。决策树方法:将博弈用树状结构来表示，这种方法直观明了。

囚徒困境模型求解：事实上，根据假设，嫌疑犯A和B的得益矩阵如表2.1所示，其中括号内左边数字代表嫌疑犯A的判刑年数，右边数字代表嫌疑犯B的判刑年数，判刑年数用负数表示，“0”表示立即释放。 B

A表2.1 囚徒困境得益矩阵

采用决策树或划线法可知，在这个博弈中无论犯罪嫌疑人Ｂ选择坦白或抵赖战略，犯罪嫌疑人Ａ的最优策略都是坦白，这样的策略称为支配性策略（Dominant Strategies）。两嫌疑犯面对的情况相同，所以两人的理性思考都会得出相同的结论——选择坦白。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果两人同样服刑8年。

上策：上策(Dominant-strategy)是指在某个博弈中，如果不管其他博弈方选择什么策略，一博弈方的某个策略给他带来的得益始终高于(或不低于)其他策略，我们称这种策略为该博弈方的一个。占优战略均衡:如果一个博弈的某个策略组合中的所有策略都是各个博弈方各自的占优战略，我们称这样的策略组合为该博弈的一个占优战略均衡(Dominant-strategy Equilibrium) 。例如：囚徒的困境的占优战略均衡(坦白,坦白)。

注2.1：这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，两人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择坦白，结果两人判决均比合作（不坦白）为高，总体利益较合作为低。这就是“困境”所在。这证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

注2.2：单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

注2.3：囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之 …… 此处隐藏：2533字，全部文档内容请下载后查看。喜欢就下载吧 ……

《博弈论及其在管理中的应用》第2讲.doc 将本文的Word文档下载到电脑

下载这篇word文档

上一篇：业主大会议事规则示范文本

下一篇：部编统编版五年级上册数学第五单元试卷(含答案)