廊坊新闻网-主流媒体,廊坊城市门户

贝叶斯纳什均衡例题_贝叶斯纳什均衡 每日聚焦

2023-06-09 01:00:22 来源:互联网

1、贝叶斯纳什均衡是指这样一组策略组合:在给定自己的特征和其他局中人特征的概率分布的情况下,每个局中人选择策略使自己的期望支付达到最大化,也就是说,没有人有积极性选择其他策略。

2、动态博弈战略行动在动态博弈中,参与人为了使得其他参与人的选择对自己有利,往往采取一些行动来影响其他参与人对于自己行为的预期。


【资料图】

3、这些行为称为战略行动(strategic move)。

4、1.首先行动优势首先行动优势(first-mover advantage)是指,在博弈中首先作出战略选择并采取相应行动的参与人可以获得较多的利益。

5、2.确实可信的威胁确实可信的威胁(credible threat)是指,博弈的参与人通过某种行动改变自己的支付函数,从而使得自己的威胁显得可信。

6、参与人为改变博弈结果而采取的措施称为承诺(commitment)。

7、第四节 不完全信息静态博弈在许多情况下,参与人对对手的了解往往是不够精确的。

8、这种情况下的博弈就是不完全信息博弈。

9、举例来说,某一市场原来被A企业所垄断。

10、现在B企业考虑是否进入。

11、B企业知道,A企业是否允许它进入,取决于A企业阻挠B企业进入所花费的成本。

12、如果阻挠的成本低,那么,正如表7-10后两列所表示的,A企业的占优战略是阻挠,博弈有重复剔除的占优战略均衡――A阻挠,B不进入。

13、如果阻挠的成本高,那么,正如表7-10前两列所表示的,A企业的占优战略是默许B进入,博弈有重复剔除的占优战略均衡――A默许,B进入。

14、B企业所不知道的,是A企业的阻挠成本是高是低。

15、这里,某一参与人本人知道、其他参与人则不知道的信息称为私人信息。

16、某一参与人所拥有的全部私人信息称为他的类型。

17、在上述例子中,阻挠成本就是 A的私人信息。

18、高阻挠成本和低阻挠成本则是两种不同的类型。

19、显然,在这里,B所遇到的,是不确定性条件下的选择问题。

20、因为B不仅不知道A的类型(是高还是低),而且不知道不同类型的分布概率。

21、解决这类问题的方法之一,就是把不确定性条件下的选择转换为风险条件下的选择。

22、在风险条件下,B虽然不知道A的类型,但可以知道不同类型的分布概率。

23、将不确定性条件下的选择转换为风险条件下的选择,称为海萨尼转换(the Harsanyi transformation)。

24、按照海萨尼的方法,所有参与人的真实类型都是给定的。

25、其他参与人虽然不清楚某一参与人的真实类型,但知道这些可能出现的类型的分布概率,而且这种概率是公共知识。

26、用上例来说,公共知识不仅意味着B企业知道A企业高阻挠成本与低阻挠成本的分布概率,而且意味着A也清楚B知道这一概率。

27、通过海萨尼转换,不完全信息博弈变成了完全但不完美信息博弈(games of complete but imperfect information)。

28、这里的不完美信息,就是指其他参与人只知道某一参与人某些方面类型的分布概率,而不知道该参与人在这些方面的真实类型。

29、在上述转换的基础上,海萨尼提出了贝叶斯纳什均衡(Bayesian Nash equilibrium)。

30、对此,可以作如下解释:在不完全信息静态博弈中,参与人同时行动,没有机会观察到别人的选择。

31、给定其他参与人的战略选择,每个参与人的最优战略依赖于自己的类型。

32、由于每个参与人仅知道其他参与人有关类型的分布概率,而不知道其真实类型,因而,他不可能知道其他参与人实际上会选择什么战略。

33、但是,他能够正确地预测到其他参与人的选择与其各自的有关类型之间的关系。

34、因此,该参与人的决策目标就是:在给定自己的类型,以及给定其他参与人的类型与战略选择之间关系的条件下,使得自己的期望效用最大化。

35、贝叶斯纳什均衡是一种类型依赖型战略组合。

36、在给定自己的类型和其他参与人类型的分布概率的条件下,这种战略组合使得每个参与人的期望效用达到了最大化。

37、回到上面提到的市场进入的例子。

38、在这个例子里,对于挑战者B来说,原垄断者A在阻挠成本方面,存在着两种可能性:高成本或低成本。

39、B不知道A的阻挠成本究竟是高是低,但他知道A在这两种不同阻挠成本下会作出的选择,以及不同阻挠成本(类型)的分布概率。

40、假定高成本的概率为x,则低成本的概率为(1-x)。

41、如果A的阻挠成本高,A将默许B进入市场;如果A的阻挠成本低,A将阻挠B进入市场。

42、在这两种情况下,如表7-10所示,B进入的支付函数分别是得到40和失去10。

43、因此,B选择进入所得到的期望利润为40x+(-10)(1- x),选择不进入的期望利润为0。

44、简单的计算表明,当A阻挠成本高的概率大于20%时,挑战者B选择进入得到的期望利润大于选择不进入的期望利润。

45、此时,选择进入是B的最优选择。

46、此时的贝叶斯纳什均衡为,挑战者B选择进入,高成本原垄断者选择默许,低成本原垄断者选择阻挠。

47、根据参与者类型的公共知识获得参与者行动的概率,依此决定下一步策略。

48、第五节 不完全信息动态博弈在动态博弈中,行动有先后次序,后行动者可以通过观察先行动者的行为,来获得有关先行动者的信息,从而证实或修正自己对先行动者的判断。

49、如上所述,在不完全信息条件下,博弈的参与人知道其他参与人可能有哪几种类型,也知道不同的类型与相应战略选择之间的关系。

50、但他们并不知道其他参与人的真实类型。

51、在不完全信息静态博弈中,我们是通过海萨尼转换,即通过假定其他参与人知道某一参与人的所属类型的分布概率,来得出博弈的贝叶斯纳什均衡结果的。

52、而在不完全信息动态博弈中,问题变得更加简单。

53、博弈开始时,某一参与人既不知道其他参与人的真实类型,也不知道其他参与人所属类型的分布概率。

54、他只是对这一概率分布有自己的主观判断,即有自己的信念。

55、博弈开始后,该参与人将根据他所观察到的其他参与人的行为,来修正自己的信念。

56、并根据这种不断变化的信念,作出自己的战略选择。

57、对应于不完全信息动态博弈的均衡概念是精炼贝叶斯均衡(perfect Bayesian equilibrium)。

58、这个概念是完全信息动态博弈的子博弈精炼纳什均衡与不完全信息静态均衡的贝叶斯(纳什)均衡的结合。

59、具体来说,精炼贝叶斯均衡是所有参与人战略和信念的一种结合。

60、它满足如下条件:第一,在给定每个参与人有关其他参与人类型的信念的条件下,该参与人的战略选择是最优的。

61、第二,每个参与人关于其他参与人所属类型的信念,但是使用贝叶斯法则从所观察到的行为中获得的。

62、贝叶斯法则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。

63、采用上一节的例子,可以将贝叶斯规则的分析思路表达如下。

64、挑战者B不知道原垄断者A是属于高阻挠成本类型还是低阻挠成本类型,但B知道,如果A属于高阻挠成本类型,B进入市场时A进行阻挠的概率是20%(此时A为了保持垄断带来的高利润,不计成本地拼命阻挠);如果A属于低阻挠成本类型,B进入市场时A进行阻挠的概率是100%。

65、博弈开始时,B认为A属于高阻挠成本企业的概率为70%,因此,B估计自己在进入市场时,受到A阻挠的概率为:0.7×0.2+0.3×1=0.440.44是在B给定A所属类型的先验概率下,A可能采取阻挠行为的概率。

66、当B进入市场时,A确实进行阻挠。

67、使用贝叶斯法则,根据阻挠这一可以观察到的行为,B认为A属于高阻挠成本企业的概率变成A属于高成本企业的概率=0.7(A属于高成本企业的先验概率)×0.2(高成本企业对新进入市场的企业进行阻挠的概率)÷0.44=0.32根据这一新的概率,B估计自己在进入市场时,受到A阻挠的概率为:0.32×0.2+0.68×1=0.744如果B再一次进入市场时,A又进行了阻挠。

68、使用贝叶斯法则,根据再次阻挠这一可观察到的行为,B认为A属于高阻挠成本企业的概率变成A属于高成本企业的概率=0.32(A属于高成本企业的先验概率)×0.2(高成本企业对新进入市场的企业进行阻挠的概率)÷0.744=0.086这样,根据A一次又一次的阻挠行为,B对A所属类型的判断逐步发生变化,越来越倾向于将A判断为低阻挠成本企业了。

69、以上例子表明,在不完全信息动态博弈中,参与人所采取的行为具有传递信息的作用。

70、尽管A企业有可能是高成本企业,但A企业连续进行的市场进入阻挠,给B企业以A企业是低阻挠成本企业的印象,从而使得B企业停止了进入地市场的行动。

71、应该指出的是,传递信息的行为是需要成本的。

72、假如这种行为没有成本,谁都可以效仿,那么,这种行为就达不到传递信息的目的。

73、只有在行为需要相当大的成本,因而别人不敢轻易效仿时,这种行为才能起到传递信息的作用。

74、传递信息所支付的成本是由信息的不完全性造成的。

75、但不能因此就说不完全信息就一定是坏事。

76、研究表明,在重复次数有限的囚徒困境博弈中,不完全信息可以导致博弈双方的合作。

77、理由是:当信息不完全时,参与人为了获得合作带来的长期利益,不愿过早暴露自己的本性。

78、这就是说,在一种长期的关系中,一个人干好事还是干坏事,常常不取决于他的本性是好是坏,而在很大程度上取决于其他人在多大程度上认为他是好人。

79、如果其他人不知道自己的真实面目,一个坏人也会为了掩盖自己而在相当长的时期内做好事。

80、根据参与者类型的公共知识以及参与者历史行为来获得参与者行动的概率,依此决定下一步策略。

81、这是一种均衡的计算方法。

本文到此分享完毕,希望对大家有所帮助。

关键词: