博弈论(Game theory)又叫决策论或者对策论,是研究决策者在竞争情况下进行策略选择的数学理论,起源于对赌博、棋和扑克等一类游戏的数学研究。
博弈论的创立一般认为是从1944年冯·诺伊曼(John von Neumann)和奥斯卡·摩根斯坦(Oscar Morgenstern)合写的《博弈论与经济行为》算起的,但也有的学者认为应从1928年冯·诺伊曼的第一篇论文《关于伙伴游戏理论》开始算起。
在博弈论中,每个决策者都被称为“玩家”,他们根据一定的规则来进行竞争。博弈论的研究对象可以是不同的博弈模型,例如零和博弈、非零和博弈、合作博弈和竞争博弈。
博弈论本身涉及到概率论、
数理统计学、
拓扑学、泛函分析和抽象代数等高深的现代数学知识。主要应用在
经济学领域,在现实生活中,博弈论可以用来分析竞争市场中企业之间的策略选择、国际贸易的谈判策略、政治博弈中的决策制定等问题。
发展历史
早在2000多年前中国春秋时期的齐王与田忌赛马,以及《孙子兵法》中的军事策略等已用到了博弈思想。
1838年,数学家奥古斯丹·古诺(A.Cournot)在其《财富理论的数学原理研究》中利用数学模型,对两寡头垄断市场作了具体分析,半个世纪后通过伯特兰·阿瑟·威廉·罗素(Bertrand Arthur William Russell)重新论证后,人们才开始认识到古诺模型与其思想方法的重要价值。这也是现代博弈论的萌芽时期,其进一步的发展提供了思想雏形。
20世纪三十年代前后是博弈论学科的建立时期。博弈论领域第一本重要著作是冯.诺伊曼与奥斯卡·摩根斯坦出版的《
博弈论与经济行为》(1944)。该书汇集了博弈论的研究成果,将其框架首次完整而清晰地表达出来,使之成为一门科学。
20世纪四、五十年代是博弈论的快速成长期。约翰·纳什(John Nash)为非合作博弈的一般理论奠定了基础,他提出了博弈论中重要的概念一纳什均衡,纳什均衡在
经济学中起着重要的作用,可以对市场竞争、产业组织、政府政策等方面进行分析和决策制定,以实现经济效益最大化,纳什均衡点也为解决社会博弈问题提供了理论基础。
1950年
兰德公司提出的
囚徒困境的博弈论模型,两个共谋犯罪的人被关入监狱,不能互相沟通情况,双方利用合作博弈,取得最优的囚徒困境结果,通过该模型,很好地解释了在集体环境中,个体理性与集体理性经常会发生冲突时的博弈情况。
2002年,北京
国际数学家大会上举行的“对策论及其应用”,会议向世界展示了博弈论以及其应用在20世纪所取得的例如:
纳什均衡理论、市场竞争、合作关系、拍卖等经济现象上的成就,并讨论了新世纪中所面临的主要问题例如:非对称信息下的
道德风险、激励机制等,为如何在矛盾和冲突中成功地选择和运用策略提供了帮助。
博弈论获得的奖项
1994年获得
诺贝尔奖的
约翰·海萨尼(John C.Harsanyi)和
约翰·纳什以及
莱因哈德·泽尔腾(Reinhard Selten)三人对博弈论的创造性贡献分别是在非合作博弈论中引入纳什均衡;泽尔腾将
纳什均衡推广到动态博弈,提出了精练纳什均衡;海萨尼将不完全信息引入博弈论,他们在非合作博弈的均衡分析理论方面做出了贡献,对博弈论和
经济学产生了影响。
1996年,英国人
查尔斯·莫里斯(James A.Mirrlees) 和美国人威廉·维克瑞(William Vickrey)获得了
诺贝尔奖, 前者在信息经济学理论领域做出了重大贡献,尤其是不对称信息条件下的经济激励理论的论述,后者在信息经济学、激励理论,博弈论等方面都作出了贡献。
2001年,美国学者
乔治·阿克尔洛夫(George A.Akerlof)
迈克尔·斯彭斯(A.Michael Spence)和约夫·斯蒂格利茨(Joseph E.Stiglitz)在不对称信息条件下的市场运行机制方面形成了现代微观信息经济学理论(博弈论的一个分支)的核心,其实际应用非常广泛,不仅包括传统的农业市场,而且包括现代的金融市场,因此三人获得了
诺贝尔经济学奖。
2005年诺贝尔经济学奖授予了有
以色列和
美国双重国籍的
罗伯特·奥曼(Robert J·Aumann)和美国人
托马斯·谢林(Thomas C·Schelling),他们的贡献是在经济学与社会科学之间架起了桥梁,两位
诺贝尔奖得主将已经发展成熟的非合作博弈方法从经济学领域向社会科学的诸多领域渗透,进一步拓展到解释人类的合作和冲突行为。
定义
基本概念
博弈论是研究决策主体的行为发生直接相互作用时如何决策以及这种决策的均衡问题的学科。它与很多利用数学工具研究社会经济现象的学科一样,从复杂现象中抽象出基本元素,并对这些元素构成的数学模型进行详尽分析,然后逐步引入对其形势产生影响的其他因素,从而分析其结果。为建立冲突对抗条件下决策的数学模型,必须数学化地描述冲突的主体所有可能的行为方式及其行为结果。由于对数学的要求高,博弈论也被视为数学的一个重要分支。
基本构成要素
博弈论基本构成要素由以下五类组成
4.博弈形式(game form):博弈形式是描述博弈问题的数学模型,包括玩家数目、策略集合和收益函数。
5.
纳什均衡(Nash equilibrium):纳什均衡是一个博弈中所有玩家实现收益最大化的状态,即达到一个稳定的最优解。纳什均衡,即非合作博弈。在纳什均衡的策略下,每个参与者都达到了最优结果,以致于都不会主动改变自己的策略。它是由
诺贝尔奖获得者
约翰·纳什提出,并成为博弈论的两大基础理论之一。纳什均衡拓展了博弈论,使其从理论走向现实,奠定了现代主流博弈理论和经济理论的根本基础,并广泛应用到
经济学、
社会学、国际贸易、外交博弈和哲学理论的研究等诸多领域。
基本假定
博弈论的分析基于一些基本假定,这些假定是指在博弈过程中,参与者的行动以及相关的因素,这些假定被博弈论家视为足够精确来描述参与者的行为和结果。
经典策略
囚徒困境
“囚徒困境”是1950年
兰德公司梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论。后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”:两个共谋犯罪的人被关入监狱,不能互相沟通的情况下。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终导致
纳什均衡仅落在非合作点上。“
囚徒困境”是博弈论的非零和博弈中颇具代表性的例子,反映出个人最佳选择并非团体最佳选择。
运用博弈论分析,参与者为嫌疑犯甲和嫌疑犯乙;行动集分别为嫌疑犯坦白或者抵赖。若两名嫌疑犯均选择坦白,其支付结果为(-8,-8);若嫌疑犯甲坦白而乙抵赖,其支付结果为(0,-10);若嫌疑犯甲抵赖,乙坦白,支付结果为(-10,0);若嫌疑犯甲、乙均选择抵赖,其支付结果为(-1,-1)。支付矩阵见下表。
智猪博弈
假设猪圈里有一头大猪、一头小猪。猪圈的一头有
猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。
可以发现,“智猪博弈”的均衡就是大猪按,小猪等待,违背了多劳多得的原则。小猪未能参与竞争创造价值,也能获得与参与竞争创造价值的大猪一样多的收益,它反映了社会资源配置无效率和不公平。由“智猪博弈”得出的结论有三点:1、没有占优战略均衡;2、均衡是大猪按小猪等待;3、多劳不多得,少劳不少得。“智猪博弈”模型也从侧面体现了一种吃“大锅饭”的思想,因为自己的努力所得自己不能完全享受,所以人会产生一种惰性思想。
枪手博弈
枪手博弈是一个经典的博弈模型。三人对枪自决,甲乙丙枪法依次为好,中,差。两种前提:同时开枪或是先后开枪,最后的结局却是无奈而神奇的:枪法最好的枪手,倒下的概率却也是最高的;而最蹩脚的枪手存活的希望却最大。因为大家都会把目标定为对自己威胁最大的一个人,但没有人会把威胁最小的枪手列为首先攻击的目标。
斗鸡博弈
“斗鸡博弈”又称“鹰鸽博弈”或者“雪堆博弈”,较之于“囚徒困境”更适合研究个体间竞争和冲突的实验范式,参加博弈的两个人取得集体收益最大化的条件是彼此建立良好的合作关系,轮流做出不同的选择。
该博弈任务的原始情景是飞车党徒为了彰显勇敢,两人分别驾驶摩托车急速对撞;如果一方怕死而首先让道,那么此人就被称为懦夫;如果两人同时让道,两人均被称为懦夫;如果两人都不让道,则有可能非死即残。被称为懦夫的人在飞车党内地位低下、备受歧视;不让道的个体则会享受崇高的荣誉,受到众人的推崇。“斗鸡博弈”的双方均晓得,如果在对方选择让路的前提下,自己最好选择相撞;如果在对方选择相撞的前提下,自己最好选择让路。
因此,“斗鸡博弈”中的最优选择是彼此间建立良好的合作关系,轮流做出不同的选择。
分类
根据博弈中玩家的互动方式和目标,博弈论可以分为以下几种分类:
零和博弈
在零和博弈中,每个玩家的收益之和为0,一方的利益损失等于对方的利益增加,因此零和博弈也称为“对抗性博弈”,可以理解为博弈中甲方的收益,必然是乙方的损失,即各博弈方得益之和为零。
假设两个参与者,甲和乙,同时决定投入10元,参与者可以选择押花或者押星,押花获胜可以获得10元奖金,押星获胜可以获得20元奖金,失败则损失相应的投入金额。这个博弈可以用一个博弈矩阵来表示:
在这个博弈中,无论甲、乙采用何种策略,两个参与者的赢得和损失之和都是零。例如,如果甲选择押花,而乙选择押星,则甲会损失10元,乙会赢取10元,两者之和为零。
非零和博弈
在非零和博弈中,各个玩家的最终收益不一定相加为零,因此各方的利益不一定相反,可以互惠互利。
囚徒困境涉及到博弈参与者之间的相互依赖和互动,他们的决策和收益是相关的。这违背了传统的零和博弈假设,即一个参与者的收益完全取决于其他参与者的策略选择。在囚徒困境中,参与者的决策会直接影响对方的决策和收益,这使得它成为一个非零和博弈的例子。
合作博弈
在合作博弈中,多个玩家需要合作完成一项任务或者达成一个目标,而不是相互竞争。
假设三个参与者,甲、乙、丙合作开一家店。三个参与者需要根据自己的投入来确定分配方式。甲投入30万元,乙投入20万元,丙投入10万元。他们三个参与者的利润总和是180万元,需要协商如何划分这个利润。如果仅按照投资额进行分配,则甲:乙:丙=3:2:1, 他们的实际利润分配如下表所示:
非合作博弈
在非
合作博弈中,各个玩家之间相互独立,没有明确定义的协同关系。
假设两个参与者,甲和乙,他们需要分别决定自己的行动,以获得最大的收益。假设他们要同时投票选举出一位候选人,每个人有两个选择:A和B候选人。如果甲和乙选择相同的候选人,则相同的候选人得到两个选票;如果他们选择不同的候选人,则候选人得到一个选票。
在这个博弈中,如果甲和乙都选择A,则A获得两个选票;如果甲和乙都选择B,则B获得两个选票;如果甲选择A,乙选择B,则A获得一个选票,B获得一个选票;如果甲选择B,乙选择A,则B获得一个选票,A获得一个选票。
为了寻找最优策略,我们可以使用
纳什均衡概念。在此博弈中,存在两种纳什均衡,即甲选择A,乙选择A的情况和甲选择B,乙选择B的情况。在这两种情况下,任何一个参与者改变其策略都会导致自己的收益变差。因此,这两种策略均为最优策略。
完全信息博弈
在完全信息博弈中,所有玩家对于游戏进行的规则、其他玩家的策略以及每一轮游戏中玩家的收益都有充分的了解。
假设一个卖场正在促销,提供了两种方案:方案A是打8折,方案B是买满1000元再打7折。现在有两种类型的顾客来到卖场:一类是常规顾客,他们通常购买200元的商品;另一类是囤货党,他们需要大量购买商品。
如果常规顾客选择方案A,购买200元的商品,那么他共需要支付160元;如果选择方案B,则需要购买至少1430元的商品,才能拿到7折,他需要支付1001元。因此,对于常规顾客来说,选择方案A更加划算。
而对于囤货党来说,如果他需要购买1000元的商品,那么选择方案A,他需要支付800元;选择方案B,他需要支付700元。因此,对于囤货党来说,选择方案B更加划算。
基于以上分析,我们可以得出一个博弈表,如下:
从博弈论的角度来看,当有囤货党出现时,卖场应该选择方案B,因为囤货党需要大量购买商品,可以带来更多的收益。而对于常规顾客来说,卖场应该选择方案A,以吸引更多的常规顾客。
不完全信息博弈
在不完全信息博弈中,有部分信息是不可见或者不完整的,每个玩家对游戏进行的规则、其他玩家的策略或者收益可能存在不确定性。
假设演员A知道自己的名字,但不知道演员B的名字。同样,演员B知道自己的名字,但不知道演员A的名字。此外,每个演员只知道自己的台词,不知道对方的台词。
演员A有两种策略:说真话或说谎话。演员B也有两种策略:相信A的话或不相信A的话。
假设A的名字是张三,B的名字是李四。如果A选择说真话,并告诉B他的名字是张三,而B选择相信A的话,那么B将相信A的名字是张三。如果A选择说谎话,并告诉B他的名字也是李四,而B选择相信A的话,那么B将相信A的名字是李四。
博弈矩阵可以如下表示:
假设双方的目标是尽可能获得高分,即最小化负分和最大化正分。通过计算可以得到,理性的决策是A说真话,B相信A的话,这样A可以得到5分,B也可以得到5分。
重复博弈
重复博弈就是指某些博弈多次(两次以上,限次或无限次)重复进行所构成的博弈过程。在重复博弈中每次博弈的条件、规则和内容都是相同的,但由于有一个长期利益的存在,因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争,即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益,有时,一方做出一种合作的姿态,可能使其它博弈方在今后阶段采取合作的态度,从而实现共同的长期利益。
应用
寡头
在
寡头市场中,博弈论可以用来分析和解释行业中寡头企业之间的竞争和合作。寡头市场是由少数几个企业垄断市场份额的市场。这些企业之间存在一定程度的相互依赖和相互作用,其行为和战略会产生重要的影响,每个企业都可以采取一种策略来影响市场,在博弈论中,一般采用“
纳什均衡”来描述两个或多个决策者之间的结果,寡头企业采取的策略相互博弈后产生的结果,其中没有企业有动机单独改变自己的策略。
博弈论的应用可以帮助分析和预测
寡头市场的行业发展趋势。例如,企业可能会选择合作并共同限制生产数量,以提高产品价格和市场份额。或者,他们可能会选择采用不同的定价策略来吸引不同的客户群体。
比如假设社会总产量为Q(Q1+Q2),厂商1的产量为Q1,厂商2的产量为Q2,市场出清价格为P=P(Q)=8-Q,生产单位产品的边际成本为C=2。则在这种市场条件下两厂商的利润分别为:
U1=Q1(P-C)=Q1[8-(Q1+Q2)-C]=Q1[8-(Q1+Q2)-2]
U2=Q2(P-C)=Q2[8-(Q1+Q2)-C]=Q2[8-(Q1+Q2)-2]
可以看出任何一方的利润大小都取决于另一方的产量。求该U1、U2的最大值,可得Q1=Q2=2时两厂商都能获得
利润最大化,且U1=U2=4。如果将两个厂商看作一个整体: U=Q (P-C)=Q (8-Q-C)=Q(8-Q-2)求U的最大值,可得Q=3时,整体获得最大利润,且U=9。
从上面分析可得寡头企业在追求个人利益最大化时并不能使社会整体利益达到最大化。但如果设计一个协议能够使得两个厂商互相合作,在都减少产量的同时提高利润,使得个人利益最大化与整体利益最大化一致。但这样的状态并不稳定,因为只要有一个人不遵守约定,就会获得更大的利益,最终将重新达到在独立决策情况下个人利益最大化的状态。这种协议显然对于双方来说都不具有约束力,即该博弈为非合作博弈。
并购
企业并购是多方利益集团实现均衡的过程。企业并购的利益相关方主要有三个,他们是并购企业、目标企业与政府。并购方和被并购方之间的
交易行为显然是一种博弈行为,并且政府参与其中。由于并购双方在信息占有方面存在差异性。因此,这种博弈是不完全信息博弈。另外,并购过程要经过双方多次磋商和讨价还价,因此,又属于动态博弈。
假设并购企业发现目标企业的发现成本为C,目前的盈利为R1,并购后的协同收益为r。同理,目标企业发现并购企业的发现成本为C,并购后的协同收益也为r,假设目标企业的盈利为R2。则我们可以得到以下博弈矩阵(并购企业在前,目标企业在后):
并购是企业在追求最大化利益的过程中实现利益均衡的结果。并购企业和目标企业在博弈过程中都在寻求一个均衡。
一般均衡
在
经济学中,一般均衡是指商品、劳动和资本市场之间的一种普遍联结关系。博弈论经济学应用于一般均衡模型,以探讨决策者间相互影响的结果和市场上资源配置的最佳状态。
一般均衡研究了在一个经济中追逐自身消费利益最大化的消费者,在市场的引导下最终会使经济达到这样一个交换结果,在该交换结果中每位消费者都使自身消费利益最大化。因此,它特指消费者在市场的引导下所达到的一般的商品交换结果,并不涉及策略互动的经济主体行为,而只是强调了市场调整的最终结果。
在一般均衡模型中,市场中存在多个决策者,包括生产商、消费者和中介。每个参与者都掌握着一些关于市场的信息和资源,并制定他们的策略以获得最大收益。博弈论
经济学通过研究参与者间相互作用的影响,从而解释市场发展的趋势。
通过博弈论模型的应用,可以预测市场上不同决策者的行为,并描绘他们之间的策略,规则和相互结果。博弈论模型旨在展示市场在不同的情境下的均衡状态,在这种状态下,每个参与者的策略都能够最大化其自己的利益,同时也能够满足市场的总体需求。
价格战
价格战是企业为了占据市场份额采取的一种通过把价格作为竞争策略的市场竞争行为,短期内可以帮助企业消化库存、缓解资金压力、提高社会购买力、迫使企业提高生产效率。但这会导致整个行业收益水平下降,允诺顾客的承诺难以兑现会丧失顾客对企业的信任度、忠诚度,损害品牌形象。
价格战是企业之间价格竞争的一种战略,它可以使企业在短期内增加市场份额,但也可能会导致企业的盈利能力下降。在价格战中,博弈论
经济学可以为企业提供策略和分析工具,通过博弈论分析,企业可以预测竞争对手可能的反应,并选择最优定价策略,预测市场份额和价格。在价格战中,企业可以选择提高销售量,降低产品价格或采取其他营销手段来吸引消费者。价格战使一个企业能够在短期内获得市场份额,因为它可能会吸引那些希望在购买商品时节约金钱的消费者。但是,如果企业过度依赖价格战来吸引消费者,它可能会对自己的盈利能力造成长期损害。
假设市场上有家电企业A和B,原来都以较高价格销售相同的空调。两家企业都想通过降价以获得更大的市场份额和利润。假如维持现状,A企业和B企业都将获得200万元的利润;若有一方采取降价策略,降价方将获得300万元的利润,而另一方只获得80万元;若A、B双方都降价,则将各获得120万元的利润。其得益矩阵如下:
由于这个博弈是一个非合作博弈,且博弈双方都肯定对方会按照
个体行为理性原则决策,B企业会认为A企业将采取降价措施以获得更高的利润,在A企业降价时B企业只有降价才能获得较高收益;同样,A企业也将这样考虑B企业。最后双方都会采用低价策略,各自得到120万元的利润,而各得200万元利润的结果是永远无法实现的。
拍卖
经济学家可以通过博弈论来分析不同拍卖规则下的策略选择和收益分配,以找到最优的拍卖策略。下面的一个例子是博弈论在拍卖行业的应用。
在80年代,美国政府无偿的把无限电的波段送给电视台和广播电台,后来觉得这样做无偿的放弃了国家利益,于是决定销售无限电的波段,这样做不仅能增加收入而且能提高使用效率。拍卖的方式是利用了博弈论中的激励机制。
当时,政府的期望值是希望财政收入增加能够达到5亿美元,事实上,在90年代真正实行了拍卖制度之后,财政收入达到了五百亿美元。在一种称为封闭式的拍卖当中,封闭式的拍卖就是说每个竞标者开标前给出自己的竞标价格,每个竞标者不知道其他竞标者的价格。然后拍卖主办方公布所有竞标者的价格,出价最高者竞拍成功,并按所报的价格支付费用。后来,有学者对封闭式的拍卖提出了另外一个竞标的准则:出价最高者竞拍成功,但按第二竞标价支付费用。表面看,似乎是对卖家不利,好象把到手的钱丢出去了,但是,事实上这样可以卖得更多的钱,其理论基础是不对称信息条件下的经济激励理论,在这个领域做出杰出贡献的两位学者是
詹姆斯·莫里斯(James A.Mirrlees)和威廉一维克瑞(William Vickrey),他们的杰出贡献也是他们分享1996年诺贝尔经济学奖的主要原因之一。在现实中有很多封闭式的拍卖,比如,陆上或者海上石油的竞拍。
心理学
博弈论在国际关系心理学中关注个体决策者的角色。通过分析个体的理性和非理性行为,可以揭示国际关系中个人如何影响决策和行动的过程。例如,博弈论可以用来研究领导者的决策行为以及国家内部政治环境对国际政策的影响。它为分析国际合作与冲突、稳定性与不稳定性等问题提供了一种有效的工具和理论框架。
社会学
博弈论在
社会学中的应用可以帮助解释社会规范、协作行为、公共物品提供等问题。对社会中连绵不绝的人际互动进行抽象和分析:社会中的博弈是持续不断的,可以通过提取其中的片段和情节,以一般性模式展开分析,并做出解释和预测,博弈论研究中的基本要素包括参与人、策略和收益,它们是静态的要素。而信息和行动则是引人的变动性因素,会对博弈过程产生影响和变化。
计算机科学
博弈论理论中的
纳什均衡可以在计算机科学中可以被用于设计和分析无线通信网络系统,无线通信网络中有较多的参与人,如个人用户( 普通PC网络用户和手机接入用户) 和
网络服务提供商(ISP) ,收益函数比如延时,功耗和价格等,用户之间存在合作和竞争关系,在博弈中大家的利益趋于最大化。 在无线通信网络中研究的一个热点是异构无线网络HWNS,其主要关注无线网络中多种异构的接入终端和多种异构的服务提供者之间的资源分配问题。将博弈论应用到异构无线网,可以有效解决HWNS中包括网络选择、接纳控制和负载均衡,带宽和功率控制等问题。
未来展望