‘壹’ 什么是重复博弈论
重复博弈(Repeated Games) 顾名思义,重复博弈是指同样结构的博弈重复许多次, 其中的每次博弈称为“阶段博弈”(stage games)池州学院.《西方经济学》[M].第六章 市场结构理论 第八节 博弈论初步。重复博弈是 动态博弈 中的重要内容, 它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
‘贰’ 重复博弈的介绍
重复博弈是一种特殊的博弈,在博弈中,相同结构的博弈重复多次,甚至无限次。其中,每次博弈称为“阶段博弈”。在每个阶段博弈中,参与人同时行动。因为其他参与人过去的行动的历史是可以观测的,因此在重复博弈中,每个参与人可以使自己在每个阶段选择的策略依赖于其他参与人过去的行为。
‘叁’ 什么是重复博弈
复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在无法沟通的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。
‘肆’ 无限重复博弈里的无名氏定理到底说明了什么
在无限重复中,行为规则可以用自动机来代表,于是不同行为规则的 相争,便成了机器与机器的角斗。假设甲和乙玩无限重复的囚犯博奕。甲 相信《美德的起源》一书作者的教导,认定仁厚忠恕既高尚又有效,于是 以它为策略。乙信奉理性流氓主义,崇尚实力和实利,于是以流氓主义为 策略。这样,二人间的博弈,就可以看作恕道机器与流氓机器的争斗。根 据上一贴中列出的框图,我们可以推演出各个回合双方的行为如下: 第一回合,甲仁厚玩合作H,乙宰客玩欺骗D; 第二回合,甲报复玩欺骗D,乙仍然宰客玩欺骗D; 第三回合,甲仍报复玩欺骗D,乙发现甲并非傻客,于是玩合作H; 第四回合,甲原谅乙,玩合作H;乙却因甲上次不合作,回头玩欺骗D宰客; ⋯⋯ 如此等等。采用我们上贴里的报偿表,整个结果序列如下图所示:
循 环 循 环 循 环
┌———┐ ┌———┐ ┌———┐
↓ ↓ ↓ ↓ ↓ ↓
行为:甲 H D D H D D H D D
乙 D D H D D H D D H
报偿:甲 0 2 6 0 2 6 0 2 6
乙 6 2 0 6 2 0 6 2 0
⋯⋯ 请注意,此序列呈现一个有趣的规律:就是每三个一组,不断循环重 复。于是我们很容易算出,博弈各方平均每个回合的报偿有多少 只要 取相继三个回合,作个简单平均就够了。甲得到(0+2+6)/ 3 = 2.67,乙得到(6+2+0)/ 3=2.67。显然,两者平分秋色, 不相上下,谁也不比谁差,谁也不比谁强。 这种循环重复并不是特例。可以证明,有限自动机玩无限重复博弈, 其结果最终都会变成循环重复序列。于是,利用类似的办法,我们可以针 对上贴中列出的七种策略,算出每一对策略相博所产生的的平均报偿。这 些报偿可以写成一个7×7博奕矩阵,如下表所示(其中一些略去了小数, 这不影响下面的讨论):
乙
傻客 恶棍 冷血 恕道 侠义 流氓 摇摆 ·---------------------------· 傻客 |4,4|0,6|4,4|4,4|4,4|0,6|0,6| |---+---+---+---+---+---+---| 恶棍|6,0|②,②|2,2|2,2|2,2|3,1|2,2| |---+---+---+---+---+---+---| 冷血|4,4|2,2|④,④|④,④|2,2|3,1|2,2| |---+---+---+---+---+---+---| 恕道|4,4|2,2|④,④|④,④|3,3|2,2|2,2| 甲 |---+---+---+---+---+---+---| 侠义|4,4|2,2|2,2|3,3|2,2|2,2|2,2| |---+---+---+---+---+---+---| 流氓|6,0|1,3|1,3|2,2|2,2|④,④|2,4| |---+---+---+---+---+---+---| 摇摆|6,0|2,2|2,2|2,2|2,2|4,2|③,③| ·---------------------------·
上面这个表里面,有带圈数字的格子都是平衡点。比如,乙玩恶棍策 略时,甲无论玩什么,都不比当恶棍带来的好处更多,顶多不致受损而已。 因此,甲乙双方都当恶棍,次次都玩欺骗,便是重复囚犯博奕的平衡点之 一,此时各方的报偿与一次性博奕相同,都是2。 观察一下上面这个表,我们会发现它有多个平衡点。非重复博弈中的 均衡点,恶棍对恶棍,双方永远玩欺骗,仍然是无限重复博弈的均衡点。 无条件合作的傻客策略,仍然不是重复博弈的均衡点 理性的人,决不 会当傻客。 更重要的是,重复博弈引进了许多新的平衡点,其中有不少平衡点, 可以实现合作报偿(4,4)。 这包括恕道策略对恕道策略,恕道策略对冷血 策略,冷血策略对冷血策略,流氓策略对流氓策略等,都可以维持双方的 合作。以流氓对流氓为例:第一回合,双方耍流氓互宰,发现对方不是好 惹的之后,双方转入合作心态,此后一直维持合作,这样无限次重复,其 平均报偿都是4。 事实上,存在这无穷多对有限自动机策略,可以成为无限重复博弈的 平衡点,并同时实现双方的合作。这就是有名的“大众定理(Folk Theorem)”, 又译作“无名氏定理”。它之得名,是由于重复博弈促进合作的思想,早 就有很多人提出,以致无法追溯到其原创者,于是以“无名氏”名之。 大众定理说明了行为规则的多样性:有无穷多种行为规则可以支持合 作行为。在正常的平衡状态中,可观察到的行为可以完全相同的,此即博 弈双方相互合作,不玩欺骗。但其背后的行为规则却可能大不相同 合 作,可以是由于双方都信奉仁厚的恕道主义,也可能是因为双方都是理性 流氓,还可能是因为双方都一冷血报复作威胁。这些行为规则上的区别, 在正常的平衡状态中,是看不出来的,只有在非正常情况下,或在与外人 的交往中,才会表现出来。 为说明此点,设想有两个相互隔离的社会:一个形成了理性流氓式的 行为规则,一个形成仁厚恕道的行为规则,他们各自内部都能维持相互合 作,这形成了社会的正常状态。外人但凭观察这两个社会中人们的正常行 为,看不出他们有什么区别。现在假设两个社会打破隔离,相互接触,会 产生甚么情况? 两套行为规则间会出现激烈的冲突! 初次接触,流氓主义者将把对方当傻客,大宰其客。恕道主义者假设 对方是好人,选择合作,只是在吃了亏之后,才以回宰其客相回报。流氓 主义者见对方回宰,以为对方也是跟自己一样的流氓,于是转向合作心态, 同时预期对方也选择合作。但恕道主义者根据“以直报怨”的原则,仍然 以宰客回报对方上次的欺骗。流氓主义者一看对方不合作,怒从心起,于 是报之以宰客,如此循环往复,双方永远无法达成合作。 行为规则的冲突,类似于人文学科里常说的文化冲突。由于行为规则 反映了人们对各自行为的稳定预期,一些博弈论者把不同的行为规则解释 为不同的文化信仰,应当是不无道理的。我觉得,重复博弈理论,为我们 科学理解许多文化现象,打开了大门。 正是由于行为规则本身的多样性和复杂性,所以我对成朴文章中过分 抬高“一报还一报(tit for tat)”单一规则,将之推崇为 美德的起源,始终抱有疑虑。
‘伍’ 什么是重复博弈,影响重复博弈结果的因素有哪些
如果存在一个贴现率,使得你在今后每一期的博弈中如果采用背叛的策略贴现下来收益不如长期合作,那双方都没有背叛的动机,就会产生合作解。 注意,当背叛后对方会采取扳机策略,即永久采取纳什均衡的策略。
‘陆’ 有限次重复博弈的有限次重复博弈与无限次重复博弈的区别
无限次重复博弈没有结束重复的确定时间。在有限次重复博弈中,存在最后一次重复正是破坏重复博弈中局中人利益和行为的相互制约关系,使重复博弈无法实现更高效率均衡的关键问题。
无限次重复博弈不能忽视不同时间得益的价值差异和贴现问题,必须考虑后一期得益的贴现系数,对局中人和博弈均衡的分析必须以平均得益或总得益的现值为根据。
无限次重复博弈与有限次重复博弈的共同点:试图“合作”和惩罚“不合作”是实现理想均衡的关键,是构造高效率均衡战略的核心构件。
‘柒’ 什么是重复博弈理论
重复博弈是指同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。奥曼对重复博弈的贡献在于对理论系统性的发展起了一定的促进作用。
首先是对完全信息的重复博弈研究的促进。完全信息博弈的最早结果出现在50年代,被称为“佚名定理”。该定理认为,重复博弈的策略均衡结局与一次性博弈中的可行的个体理性结局恰好相一致。这个结局可被视为把多阶段非合作行为与一次性博弈的合作行为联系在一起。然而,虽然所有可行的个体理性结局确实代表了合作博弈的解观点,但是它相当模糊,并且不提供信息。而奥曼认为,完全信息的重复博弈论与人们之间相互作用的基本形式的演化相关。它的目的是解释诸如合作、利他主义、报复、威胁(自我破坏或其他)等现象。博弈论和新古典经济学模式的现象,可能一开始看起来是非理性的。
奥曼还考察了许多具体的合作行为,定义了“强均衡”概念,即没有任何参与者团体可以通过单方面改变它们的决策来获益的情形。他指出,重复博弈的“强均衡”与一次性博弈的核(更精确的是“6核心”)相一致。为此,奥曼定义和研究了经济理论中极为重要的“一般”合作博弈,即非转移效用(non-transferable utility)博弈,这开拓了该领域的研究空间,因为在此之前,仅有“单边支付”博弈被研究,即每个联盟可以任意在其成员中分享一定数额的赢得。
其次是对不完全信息的重复博弈研究的促进。从20世纪60年代中期开始,奥曼和其他合作者一起,在其学生的辅助下,发展了不完全信息的重复博弈论。1966年,奥曼和m.马希勒(michael maschler)在给美国武器控制和裁军机构的开创性报告中,建立了不完全信息的重复博弈模型。他们指出,信息使用的复杂性实际上可以以一种出色的、简练的、明确的方式来解决。在最简单的一个重复的2人零(zero-sum)和博弈中,其中一个参与者比另一个拥有更多的信息(这就是所谓的单边的不完全信息),拥有更多信息的参与者所使用(并揭露)的信息数量是被精确地决定的;有时是完全揭露或根本没有揭露;有时是部分揭露。这种分析被扩展至更一般的模型,即2人零和博弈与非零和博弈。许多新的精深的观点和概念由此产生。
‘捌’ 无限次重复博弈的无限次重复博弈 - 与有限次重复博弈的区别
无限次重复博弈没有结束重复的确定时间。在有限次重复博弈中,存在最后一次重复正是破坏重复博弈中局中人利益和行为的相互制约关系,使重复博弈无法实现更高效率均衡的关键问题。
无限次重复博弈不能忽视不同时间得益的价值差异和贴现问题,必须考虑后一期得益的贴现系数,对局中人和博弈均衡的分析必须以平均得益或总得益的现值为根据。
无限次重复博弈与有限次重复博弈的共同点:试图“合作”和惩罚“不合作”是实现理想均衡的关键,是构造高效率均衡战略的核心构件。