纳什均衡(Nash equilibrium),又称非合作博弈均衡,其是一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应,即假设有n个局中人参与博弈,某情况下无一参与者可以独自行动而增加收益(即为了自身利益的最大化,没有任何单独的一方愿意改变其策略)。其实质是一种非合作博弈状态。
对具有博弈性质的问题的研究可以追溯到19世纪甚至更早,1838年,古诺发现简单双寡头垄断博弈模型。20世纪初,塞梅鲁、 鲍罗和
开始研究博弈的准确的数学表达。但
的
博弈论过于抽象,使应用范围受到很大限制,在很长时间里,人们对博弈论的研究知之甚少。1950年
约翰·纳什(
约翰·纳什)发表了“
非合作博弈”的长篇
博士论文,他证明了非合作博弈及其均衡解,以及均衡解的存在性。纳什均衡具有
存在性定理,其证明可以使用
布劳威尔环形山不动点定理。它还具有一致预测性、策略稳定性、多重性的特性。
纳什均衡是在
经济学中应用最多的唯一博弈理论解概念。经济学应用包括
寡头垄断、进和出、市场均衡、搜索、区位、谈判、产品质量、拍卖、保险、业主—代理人问题、高等教育、差别待遇、公共财货等等。此外,在政治方面,它用于武器控制和检查,在
计算机科学中,纳什均衡可以帮助设计和分析无线通信网络系统。
定义
纳什均衡
在多人参加的博弈中,每个人根据他人的策略制定自己的最优策略。所有人的这些策略组成一个策略组合,在这个策略组合中,没有人会主动改变自己的策略,那样会降低他的收益。只要没有人做出策略调整,任何一个理性的参与者都不会主动改变自己的策略。这个时候,所有参与者的策略便达成了一种平衡,这种平衡便是“纳什均衡”。
博弈论是
应用数学的分支,因此最严谨的“纳什均衡”的表达方式需要用数学公式,即在博弈中,如果在由每个博弈方的一个策略所组成的策略组合中,任意博弈方的策略,都是应对其余博弈方策略的组合的最佳策略,即对任意都成立,则称为的一个纳什均衡。
严格纳什均衡
策略式表述博弈的(纯策略)纳什均衡是上的一个策略组合,满足对任意的,表达式
,对于所有的
若上述式中的关系是严格
不等式,只要,严格不等式恒成立,则称策略组合为严格纳什均衡,也叫强纳什均衡,即任何局中人从纳什均衡中偏离出去,得益都只能减少而不会增加,必然会蒙受损失。
弱纳什均衡
弱纳什均衡也叫普通纳什均衡,其含义是任何局中人从纳什均衡中偏离出去都不会得到额外的好处,但不会得到任何好处并不意味着一定会得到坏处。
相关概念
概率密度函数
概率分布
离散
随机变量的概率分布,设为取值为的离散随机变量,则函数
称为的概率分布或概率分布函数,其中为离散
随机变量取值的概率。
概率密度函数
设为连续随机变量,且满足下列条件:
则称为的概率密度函数,其中表示位于区间之中的概率。
期望
给定一个取值于集合的离散
随机变量,它的
概率分布为,其
期望值的定义为:
简史
博弈思想历史久远。1500年前
巴比伦犹太教法典中的“婚姻合同问题”,就反映了古代人们对具有策略依存特点问题的决策智慧。但真正意义上尝试用数学方法寻找博弈最优策略问题的是英国人詹姆斯·瓦 德格拉(James Waldegrave),他在1713年研究一种“le Her”的两人
卡牌游戏时提出最小最大化原理。但是,当时并没有得到人们的多少关注。如果按照现代
经济学和
博弈论经常引用的最早包含典型博弈思想的文献应该是1838年古诺(Cournot)
寡头产量竞争模型,其是寡头垄断市场的一个极端情形(市场上的一种产品只有两个卖者)。古诺模型属于生产厂商之间不存在任何正式的或非正式的勾结的一个模型,其所考虑的是竞争者的相互依存这个因素,即任何一个厂商单独提高或降低产量都只会减少利润而不会增加利润,这时产生厂商间的稳定的产量组合被称为博弈的均衡产量,这个均衡产量被称为“古诺均衡”。
1883年,贝特兰德(Bertrand) 寡头价格竞争模型与古诺模型相似。对博弈问题的系统研究是从20世纪开始的。1913年,德国人
恩斯特·策梅洛(Ernst Zer- melo)对国际象棋博弈的研究,提出“逆向归纳法”(backward induction procedure),是
博弈论中最早的具有一般意义的分析方法。1921~1927年,法国人
埃米尔·博雷尔(Emile Borel)证明了在某些特殊情况下双方零和博弈中存在最佳策略。1928年,
约翰·冯·诺依曼(Von Neumann)证明有限策略双方
零和游戏有确定结果以及最小最大化原理等。但是,在当时的社会经济条件下,这些个案研究只能算博弈论的萌芽阶段,还没有形成系统的理论体系。
博弈论的第一个研究高潮,出现在20世纪40年代末50年代初。由于冯·诺依曼和
奥斯卡·摩根斯特恩的奠基著作影响,在
第二次世界大战期间,
博弈论在军事领域得到广泛应用。1950年,
约翰·纳什(John Nash)提出“纳什均衡”的概念并证明纳什定理,使它发展成为
非合作博弈的基础理论。纳什的《n人博弈中的均衡点》证明了非合作多人博弈中存在均衡,并给出了这种均衡的解法。如果找出两条线的交点很容易,但是找到几条线的交点则非常困难。纳什提出了解决找到多方之间的均衡点这个难题的办法,并将博弈从双方零和扩大到多方非零和的广义情形,证明了非合作多方博弈中有均衡,并给出了该均衡的解法。
分类及案例
纯战略纳什均衡
定义
纯战略纳什均衡,是由所有参与人最优的纯战略构成的战略组合。纯战略是指一个战略规定参与人在每一个给定的信息情况下只选择一种特定的行动,即纯战略是确定性战略,它要求参与人以百分之百的概率选择某种行动或者不选择某种行动。例如,在
囚徒困境中那样,要么招供,要么抵赖,不存在中间的选择。
案例分析
囚徒困境案例:两个
犯罪嫌疑人(A和B)共同作案后被警察抓住,分别隔离审讯。警察告诉他们:如果两人都坦白,各判刑5年;如果两人都抵赖,因证据不足而各判刑1年;如果其中一人坦白,另一人抵赖, 坦白者释放,抵赖者判刑8年。这样,两个囚徒都有两个策略选择—坦白或抵赖,但两人是在不知道对方作何选择的情况下作出自己的选择的。
解:采用划线法(通过在每个博弈方对其他博弈方每个策略或策略组合的最佳对策对应的得益下划线,分析博弈的方法称为“划线法”)求纳什均衡,可以在囚徒A针对囚徒B坦白、不坦白两种策略的最佳对策(都是坦白)分别给囚徒A带来的得益一5和0下划短线,同样在囚徒B针对囚徒A坦白、不坦白两种策略的最佳对策(也都是坦白)给囚徒B带来的得益—5 和0下划短线,如下图所示:
根据得益矩阵的4个得益数组中,只有策略组合(坦白,坦白)对应的得益数组(-5,-5)的两数字下都划有短线,其他3个策略组合的得益数组中最多只有一个数字下有短线,意味着只有(坦白,坦白)满足“双方的策略互相是对对方策略的最佳
对策”,而且是唯一具有这种性质的策略组合。因此,(坦白,坦白)是该博弈唯一具有稳定性的策略组合,基本上就是该博弈的结果。
混合策略的纳什均衡
定义
混合战略纳什均衡,是由所有参与人最优的混合战略构成的战略组合。混合战略是指一个战略规定参与人在给定信息情况下以某种
概率分布随机地选择不同的行动,即混合战略是参与人以某一概率选择某种行动,同时,还存在着选择其他行动的可能性,因而,混合战略带有更大的不确定性。
注:如果参与人选择纯策略的话,实际上可以看成是选择了,其他为0的混合策略,所以纯策略可以认为是混合策略的一个特例。用表示参与人选择的混合策略,那么表示所有参与人的混合策略组合。
则称为此博弈的混合策略纳什均衡。
案例分析
某政府准备救济一些流浪汉,改善
社会福利,但前提是流浪汉必须试图寻找工作结束游荡状态,否则政府就不会救济。而流浪汉可以选择继续游荡或者寻找工作,双方的支付如下:
从这个支付表里可以看出,当政府选择救济时,流浪汉的最佳策略是继续游荡;而政府选择不救济时,流浪汉才会去寻找工作。可见,这个博弈没有纯策略纳什均衡。从混合策略纳什均衡角度分析,假定政府以概率选择救济,概率选择不救济,即;流浪汉以概率选择寻找工作,概率选择继续游荡,即那么,政府的期望支付为:
为了最大化此期望支付,对上式对求导后我们得到,亦即。即在混合策略纳什均衡里,流浪汉以0.2的概率选择寻找工作,0.8的概率选择继续游荡。
存在性定理
定理1
定理1:任意有限策略型博弈至少存在一个混合策略纳什均衡。
由于这是
博弈论最基本的存在性定理,在给出它的具体证明时,其中需要用到角谷
不动点定理(该定理源自布劳尔(Brouwer)的不动点定理,该定理说明,紧
凸集到自身的连续
映射必然存在不动点)。
证明:由于对对手一种策略的最优反应可能不只一种,所以进行分析时需要采用点到集合的变换,数学术语为对应。首先引入反应对应的概念,局中人的反应对应为将每一个策略组合映射为其对手采用时最大化其支付的混合策略的集合,其中尽管仅依赖于,但为了应用
不动点定理,将其表述为所有局中人策略的函数。定义对应为的
勒内·笛卡尔积,这样就形成了从点到集合自身
子集的对应,这正是应用不动点
定理的要求。的
不动点为满足的,即对每一个局中人,,也就是说每个局中人的策略都是对对手策略的最优反应,因此,的不动点即为纳什均衡。
根据角谷
不动点定理,以下是具有不动点的
充分条件(并非
必要条件):
(2)对任意非空。
(3)对任意是凸的。
(4)具有闭图,即如果对序列,有,则,这一性质也被称为上半连续性。
现在只需要证明满足以上条件即可。
对于条件(1),因为每一个是纯策略空间上
概率分布形成的集合,因此它是一个非空的有界
闭集,从而也是紧集。
对于条件(2),局中人的期望效用是自身概率的线性函数,而紧集上的
连续函数一定能取得最大值,所以非空,从而非空。
对于条件(3),期望效用函数的线性意味着,对任意的,有,对任意都成立。即如果与为对的最佳反应,那么它们的
加权平均也是对的最佳反应。这就证明了的凸性。
最后,用
反证法证明满足条件(4),假设并非上半连续,那么存在序列满足,且,但是。这意味着,对于某些局中人有,从而,存在与,使得。由于连续及,所以当足够大时有:
因此,作为对的反应,严格优于,这与假设的相矛盾。这样条件(4)的满足得到证明。
以上
定理说明了有限博弈中纳什均衡的存在性,而对于局中人具有无限多种纯策略的无限博弈来说,纳什均衡的存在性则由以下定理保证。
定理2
定理2:在人策略型博弈中,如果每个局中人的纯策略空间是欧氏空间上的非空有界闭
凸集,支付函数连续且对是拟凹的,那么这一博弈中存在一个纯策略纳什均衡。
定理2的证明与定理1的证明相仿。这一定理给出存在纯策略纳什均衡的
充分条件(并非
必要条件),其中的拟凹性是相当严格的条件,当这一条件不满足时,混合策略的引入可以保证均衡的存在性。
定理3
定理3:在n人策略型博弈中,如果每个局中人的纯策略空间是欧氏空间上的非空有界闭凸集,支付函数连续,那么这一博弈中存在一个混合策略纳什均衡。
特点
具有一致预测性
在纳什均衡中,假定参与方都是完全理性的,双方的策略组合都可以被完全预估的,即对博弈的参与人所预测的特定均衡都会出现(有时也将“预测的结果”称为信念),对方的策略选择发生变化,博弈参与人总是会选择有利于自己的最优策略,即其做出的策略选择一定与其预测的行为一致,或者说至少不会偏离所预测的纳什均衡。其中纳什均衡的一致预测性不是指博弈参与人的策略组合完全一致,而是指参与人的预测和行动一致,即参与人预测到某一个特定情况会发生,那就不会做出与他所预测的结果不一致的选择。
当参与人对其他博弈参与者的策略选择都是最佳策略或对策时,形成的均衡即为纳什均衡,若出现参与双方的预测结果不一致这一结果,即由一方在做出预测时,出现了“犯错误的行为”,这可能是因为对预测结果的错误理解,或者是对情境的错误认识,或者对情境内的公共知识没有达成普遍的共识,再者也可能是因为参与者中的不完全理性或计算能力有限,博弈结果就可能会出现没有均衡的情况。而这恰恰从反面证明,假设公共知识充足,人又是理性的,即能够充分地理解和运用现有的信息,做出预测和行动一致的话,不可能预测任何非纳什均衡是博弈的结果,即在假定前提的满足下会出现纳什均衡结果。
具有策略稳定性
纳什均衡具有策略稳定性,即在纳什均衡状态下,给定对手选择纳什均衡策略,参与人没有积极性选择其他策略,即在纳什均衡状态下没有任何人有积极性打破这种均衡情况,一旦前提假设确定,纳什均衡就会形成策略稳定性,没有人愿意单方面改变自己的行为。
纳什均衡具有策略稳定性并不意味着该均衡本身也是稳定的。策略稳定性是指只有对手选择该策略(组合),参与人不会背离纳什均衡策略,均衡的稳定性则是指受到外界干扰的情况下事物能够自动回到均衡状态。
具有多重性
多重性及案列
纳什均衡具有多重性:在博弈的过程中,不一定只存在一个纳什均衡,有可能同时存在多个纳什均衡。在博弈中,究竟选择哪个纳什均衡作为该博弈的解,会由于环境的变化或者参与人的偏好不同而发生改变,但是在充足的信息符合假定下总能找到至少一个纳什均衡的解符合该条件。
例如猎鹿模型:两个人出去打猎,猎物为鹿和兔子。如果两个人独自去打兔子, 一天下来可以打到2只兔子,如果选择去打鹿,这个时候就需要两个人共同合作才能成功打到鹿。 一只鹿的价值相当于8只兔子,两个人平分以后相当于每个人打到了4只兔子。如果一个人选择打兔子,另一个人选择去打鹿,那么打鹿的人会一无所获,而选择打兔的人仍然能得到2只兔子。猎鹿博弈的四种结果如下:
在猎鹿博弈中首先有两个纯策略的纳什均衡,要么一起去打鹿,要么分头去打兔子。 一个去打鹿, 一个去打兔子肯定不是纳什均衡。如果出现这种情况,其中的某一方会选择与对方相同的行为:要么选择打兔子的一方跟着对方去打鹿,要么选择打鹿的一方转而选择去打兔子。
猎鹿博弈中除了两个纯策略纳什均衡以外,还有一个混合策略纳什均衡。其双方各以50%的概率打鹿或打兔子是一个混合策略纳什均衡解,每个猎人的期望收益均为2只兔子。
对于猎鹿博弈,两个猎人合伙打鹿一定是最优结果。但一方选择去打鹿的前提是他能够预期到对方会选择打鹿,而对方选择去打鹿的前提也是预期到另一方会去打鹿。即只有“双方都去打鹿”成为一个共同知识的前提下,最优结果才会如期出现。同时对于每个猎人来说,选择去打兔子的收益是2只兔子, 而选择去打鹿的收益要么是4只兔子要么是0。这意味着一旦选择去打鹿,就会冒着空手而归的风险。在混合策略纳什均衡的情况下,对方选择打鹿的概率是50%,因此选择去打鹿的期望收益也只有2只兔子。那么,对于任何一方来说,出于规避风险的考虑(在一般情况下,人总是厌恶风险的),还不如独自去打兔子。问题就在于,当双方都意识到这一点后, 一起去打鹿反而变得不太可能了。
为了让双方都有一个更好的结果,提前沟通就变得很重要。如果双方提前约定好一起去猎鹿,那么都选择猎鹿就是 一个纳什均衡结果。此时,没有人愿意偏离这个结果而选择去打兔 子。反之,出于规避风险的考虑,分头去打兔子反而是一个更能预期到的纳什均衡结果。但是沟通是有成本的,在这个例子中,如果沟通成本小于4只兔子,提前沟通能够提高双方总的收益水平,反之还不如分头去打兔子。
帕累托优势策略
维尔弗雷多·帕累托优势(或称帕累托效率)是以
意大利经济学家帕累托的名字来命名的。帕累托效率是
博弈论中的
定理之一,它有一个准则,即帕累托效率准则:经济的效率体现于配置社会资源以改善人们的境况,主要看资源是否已经被充分利用。如果资源已经被充分利用,要想再改善其中任何一人,都必须损害其他人,这时候经济就实现了帕累托效率。
例如:有A、B两个人,这两个人分别做同样工作时收益分别为4,若两人合作,每人收益都为10(假设平均分配)。很显然,这两人合作所得利益要大于两人单独行动所得,就称两人合作所得(10,10)相对两人单独行动所得(4,4)具有
维尔弗雷多·帕累托优势。(10,10)是一个
理想状态下的结果,在实际生活中由于种种原因(资源、地理、能力、运气等)两人合作所得并不一定是平均分配,有可能出现(14,6)或者(15,5)等情况。然而,不管怎样分配,只要合作双方的所得收益都大于两人单独行动所得收益4,两人就有合作下去的动机。所以4就是两人合作,也就是帕累托效率的临界点。人们称(16,4)这个状态为帕累托效率,一旦有一方的收益低于4,虽然两人合作的总和(10+10)仍然大于两人单独行动的总和(4+4),但双方合作却是以损害一方利益作为代价的,所以合作也就无法进行下去。由此可以得出一个结论:帕累托效率不在于总量增加多少,关键在于每一个人都从中得到改善。
在多重纳什均衡博弈中,并不是所有的多重纳什均衡博弈都是难以选择的。虽然有些博弈中存在多个纳什均衡,但这些纳什均衡存在明显的优劣差异,所有博弈方对其中的某一个纳什均衡有着共同的偏好。如果某个纳什均衡给所有博弈方带来的利益,都大于其他所有纳什均衡会带来的利益,这时候博弈方的选择倾向性就会完全相同,各个博弈方不仅自己会选择该纳什均衡策略,而且预测其他博弈方也会选择该纳什均衡策略,共同追求
经济学中的帕累托效率最优,因此称此纳什均衡为帕累托上策均衡。
应用
经济学领域
纳什均衡是在经济学中应用最多的唯一博弈理论解概念。经济学应用包括寡头垄断、进和出、市场均衡、搜索、区位、谈判、产品质量、拍卖、保险、业主—代理人问题、高等教育、差别待遇、公共财货等等。
纳什均衡在经济学应用中的一个典型案例—古诺寡头竞争模型。在古诺模型中,有两个参与人,分别称为企业1和企业2;每个企业的战略是选择产量;支付是利润,它是两个企业产量的函数。
用代表第个企业的产量,代表成本函数,是价格,市场的需求,代表
需求函数(原需求函数是)。则第个企业的利润函数为:
其中表示的是逆需求函数和之间不是相乘的关系,是函数与
自变量的关系,下同。
纳什均衡记作,则有
找出纳什均衡的一个办法就是对每个企业的利润函数求一阶
导数并令其等于零。例如,假设逆需求函数为,总产量,成本则利润数为
求出古诺模型的函数,其过程如下:
令,,得反应函数
古诺模型也可以使用重复剔除严格劣战略的方法找出均衡解,尽管这个模型并不存在占优战略均衡。这一点可以从反应函数曲线看出,根据反应函数, 一个企业的最优战略依赖于另一个企业的产量。古诺模型反应函数图如下:
政治领域
纳什均衡在政治方面的应用包括武器控制和检查,以及大多数国际政治模型等。如两国的
裁军和军备问题是一个博弈。每个国家都希望拥有比另一国家强大的军队,如果参与的双方都能裁军,不仅大家都安全,还可以减少大批军费开支,对双方都极为有利。问题是,如果一方主动裁军,而另一方不裁军。裁军的一方就处于弱势并受到威胁,结果,纳什均衡是:双方都扩大军备,大量增加军费预算。
计算机科学
纳什均衡可以在
计算机科学中可以被用于设计和分析无线通信网络系统,无线通信网络中有较多的参与人,如个人用户(普通PC网络用户和手机接入用户)和
网络服务提供商(ISP) ,收益函数比如延时,功耗和价格等,用户之间存在合作和竞争关系,在博弈中大家的利益趋于最大化。 在无线通信网络中研究的一个热点是异构
无线网络HWNS,其主要关注无线网络中多种异构的接入终端和多种异构的服务提供者之间的资源分配问题。将
博弈论应用到异构无线网,可以有效解决HWNS中包括网络选择、接纳控制和负载均衡,
带宽和功率控制等问题。
日常生活
现实生活中存在很多“纳什均衡”问题,如夫妻
春节该回谁家过年。春节是中国的传统佳节,
除夕晚上一家人团聚在一起,其乐融融。但是随着独生子女都开始工作和结婚,问题便显现了出来,那就是春节该回谁家过年。每当到了年底,这个问题便会被人提出来热议,甚至有的小夫妻还为此起了争执。
比如
刘腾远和小台是一对年轻的夫妻,“春节回谁家过年”这个问题也是他们逃不过的一个选择。他们都是独生子女,刘冬家在
山东省,而小台家在
广西壮族自治区。刘冬希望春节能回山东过年,而小台则希望回广西陪父母一起过春节。以前还没有结婚的时候都是各回各家,但是现在已经结婚了再分开两人还都有些不舍。刘冬想让家里的亲朋好友见一下自己的媳妇,而小台则想,刘冬从来没有去过她家,也应该认认门了。就这样,两人间展开了一场博弈。
假设,小台陪
刘冬回山东过年,小台的满意度为5,刘冬的满意度为10;如果刘冬陪小台回广西过年,刘冬的满意度为5,小台的满意度为10;如果两人各回各家,则每人的满意度都为5,两人分别去对方家过年的可能性几乎不存在,满意度用X表示。这场博弈的矩阵图如下:
从中可以看出,如果刘冬选择回
山东省过年,小台的最优决策是跟随他一起回山东过年;而如果小台选择回
广西壮族自治区过年,刘冬的最优决策是随她一起去广西过年。去对方家过年,两人的满意度之和为15,而选择分别回自己家过年,满意度之和只为10。因此这场博弈中同时出现了两个“纳什均衡”:(0,5)和 (5,10),并且两个“纳什均衡”没有哪个是具有绝对优势,总有一方要作出一些牺牲。
影响
纳什均衡作为一种重要的
经济学概念,对经济学以及其他科学的发展产生了深远影响。