《博弈论及其在管理中的应用》第2讲

发布时间:2024-10-12

本科生《博弈论及其在管理中的应用》

第2讲 静态博弈模型I

禹海波

经济与管理学院

电子邮箱:haibo@http://www.77cn.com.cn

教学邮箱yhb_teach@http://www.77cn.com.cn

本讲通过囚徒困境模型(参见文献[1]第88页),介绍求解静态博弈模型的理论与方法,包括划线法、纳什均衡定义、反应函数法等。

例2.1囚徒困境(prisoners’s dilemma)(见文献[1]第88页)

囚徒困境最早是由美国普林斯顿大学数学家阿尔伯特·塔克(Albert tucker)1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8年;如果一人坦白另一人抵赖,坦白者被立即释放,抵赖的判10年;如果都抵赖则因证据不足各判1年。

问题:两名嫌疑犯选择坦白或抵赖?

结论:单次囚徒困境博弈的纳什均衡是:犯罪嫌疑人A和B都坦白。

求解博弈的方法主要有:划线法、严格下策反复消去法、决策树方法、上策均衡、纳什均衡定义、反应函数法等。

先找出自己针对其他博弈方每种策略或策略组合(对多人博弈)的最佳对策,即自己的可选策略中与其他博弈方的策略或策略组合配合,给自己带来最大得益的策略(这种相对最佳对策总是存在的,不过不一定唯一),然后在此基础上,通过对其他博弈方策略选择的判断,包括对其他博弈方对自己策略判断的判断等,预测博弈的可能结果和确定自己的最优策略。 严格下策反复消去法:任何理性的博弈方都不可能采用严格下策。囚徒的困境博弈的两个博弈方都不会采用``抵赖"策略。因此,我们可以把``抵赖"策略依次(或同时)从他们各自的策略空间中排除掉。在任何博弈中,只要我们发现哪个博弈方的某些策略是相对于他的其他策略的严格下策,可以把它们消去。 决策树方法:将博弈用树状结构来表示,这种方法直观明了。

囚徒困境模型求解:事实上,根据假设,嫌疑犯A和B的得益矩阵如表2.1所示,其中括号内左边数字代表嫌疑犯A的判刑年数,右边数字代表嫌疑犯B的判刑年数,判刑年数用负数表示,“0”表示立即释放。 B

A表2.1 囚徒困境得益矩阵

采用决策树或划线法可知,在这个博弈中无论犯罪嫌疑人B选择坦白或抵赖战略,犯罪嫌疑人A的最优策略都是坦白,这样的策略称为支配性策略(Dominant Strategies)。两嫌疑犯面对的情况相同,所以两人的理性思考都会得出相同的结论——选择坦白。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果两人同样服刑8年。

上策:上策(Dominant-strategy)是指在某个博弈中,如果不管其他博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于(或不低于)其他策略,我们称这种策略为该博弈方的一个。 占优战略均衡:如果一个博弈的某个策略组合中的所有策略都是各个博弈方各自的占优战略,我们称这样的策略组合为该博弈的一个占优战略均衡(Dominant-strategy Equilibrium) 。例如:囚徒的困境的占优战略均衡(坦白,坦白)。

注2.1:这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,两人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择坦白,结果两人判决均比合作(不坦白)为高,总体利益较合作为低。这就是“困境”所在。这证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

注2.2:单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。

在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

注2.3:囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

启示2.1:(1)揭示了个体理性与团体理性之间的矛盾,从个体利益出发的行为往往不一定能实现团体的最大利益。(2)揭示了个体理性本身的内在矛盾,从个体利益出发的行为最终也不一定能真正实现个体的最大利益。

注2.4:由囚徒困境可以写出类似的员工困境:一名经理,数名员工; 前提,经理比较苛刻;如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作;如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作;如果所有人都不听从经理吩咐,则经理下岗。但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作。

注2.5:经济学例子:关税战

两个国家,在关税上可以有以两个选择: 提高关税,以保护自己的商品。(背叛) 与对方达成关税协定,降低关税以利各自商品流通。(合作)当一国因某些因素不遵守关税协定,而独自提高关税(背叛)时,另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。 (重复博弈的结果是将发现共同合作利益最大。)

注2.6:公用品悲剧

现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。

注2.7:重复的囚徒困境

罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。

注2.8:囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。 1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过2000篇。

注2.9:博弈论在分析社会、经济和政治现象中应用最为广泛。基欧汉使用囚徒困境来分析基于利益的国际机制理论,即自由制度主义的国际机制理论。

注2.10:囚徒困境博弈是博弈论中的一个基本的、典型的事例,类似问题在许多情况下都会出现,如寡头竞争、军备竞赛、团队生产中的劳动供给、公共产品的供给等等。基于经济学中理性人(Rational Agent)的前提假设,两个犯罪嫌疑人符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被释放就不会出现。这样两人都选择坦白的战略以及因此被判5年的结局,“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战:按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

注2.11:寡头竞争的博弈模型:假设寡头1和寡头2在同一个市场上生产同一类产品,他们分别有高价和低价两种战略,假定他们同时决定采用高价或低价战略。(i) 若他们都采取“高价”战略,则他们各获得100万元的利润;(ii) 若他们都采取为“低价”战略,则他们各获得70万元的利润,(iii) 若他们采取不同价格,低价者可以获得150万元的利润,高价者利润下降到20万元。问题:寡头1和寡头2选择低价或高价?运用与囚犯困境类似的方法,我们可以得到寡头1和寡头2的占优战略均衡是双方都采取为“低价”战略,记为:(低价,低价)。根据纳什均衡定义,它也是纳什均衡。

2.2纳什均衡定义

纳什均衡(Nash Equilibrium)又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。约翰·纳什1948年作为年轻数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》(1950)的博士论文。发表了《n人博弈中的均衡点》(1950)和题为《非合作博弈》(1951)两篇论文的发表。纳什在上述论文中,介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念,也就是不限于两人零和博弈。该解概念后来被称为纳什均衡。

在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略,那么这个组合就被定义为纳什均衡。

《博弈论及其在管理中的应用》第2讲.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219