第八章博弈论 前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策 相互影响的问题。本章讨论这个问题,建立复杂环境下的决策理论。开展这种研究的的理论叫 做博弈论,也称为对策论( Game Theory)。最近十几年来,博弈论在经济学中得到了广泛应用 在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情 况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的 思想精髓与方法,已成为经济分析基础的必要组成部分。 第一节博弈事例 博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双 方的目的都是要战胜对方,互不相容,互相影响,互相制约。一般来讲,博弈现象的特征表现 为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的 行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时 博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局 中人( player)。 博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的 情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局 中人都必须考虑其他局中人面临的问题。下面来举例说明 例1.便士匹配( Matching Pennies)(二人零和博弈) 设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否 正面朝上。局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢 得1元,乙输掉1元:如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输 掉1元,乙赢得1元。 对于这个博弈,每个局中人可选择的策略都有两种 衰1:便士匹配博弈局势表 正面朝上和反面朝上,即甲和乙的策略集合都是{正面, 正面 反面 反面}。当甲和乙都作出选择时,博弈的局势就确定了。 显然,该博弈的局势集合是{(正面,正面),(正面,反面),饭反L正面(正,正)(正,反) 面,正面),(反面,反面)},即各种可能的局势的全体,也称 为局势表,即表1 每个局中人的收益都取决于所有局中人的决策,也就是说,局中人的收益是博弈局势的 函数。本例中,甲的收益函数∫为:f(正,正)=1, 表2:甲和乙的收益表 f(正,反)=-1,f(反,正)=-1,f(反,反)=1;乙的收益函 数g为:g(正,正) g(正,反)=1,g(反 g(反,反)=-1。局中人的收益函数也可用表格或矩阵加以 表示,并称其为收益表或收益矩阵。表2中,甲的收益列 在左边,乙的收益列在右边
第八章 博弈论 228 第八章 博弈论 前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策 相互影响的问题。本章讨论这个问题,建立复杂环境下的决策理论。开展这种研究的的理论叫 做博弈论,也称为对策论(Game Theory)。最近十几年来,博弈论在经济学中得到了广泛应用, 在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情 况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的 思想精髓与方法,已成为经济分析基础的必要组成部分。 第一节 博弈事例 博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双 方的目的都是要战胜对方,互不相容,互相影响,互相制约。一般来讲,博弈现象的特征表现 为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的 行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时, 博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局 中人(player)。 博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的 情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局 中人都必须考虑其他局中人面临的问题。下面来举例说明。 例 1.便士匹配(Matching Pennies)(二人零和博弈) 设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否 正面朝上。局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢 得1元,乙输掉1元;如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输 掉1元,乙赢得1元。 对于这个博弈,每个局中人可选择的策略都有两种: 正面朝上和反面朝上,即甲和乙的策略集合都是{正面, 反面}。当甲和乙都作出选择时,博弈的局势就确定了。 显然,该博弈的局势集合是{(正面,正面),(正面,反面),(反 面,正面),(反面,反面)},即各种可能的局势的全体,也称 为局势表,即表 1。 每个局中人的收益都取决于所有局中人的决策,也就是说,局中人的收益是博弈局势的 函数。本例中,甲的收益函数 f 为: f (正,正) =1 , f (正,反) = −1, f (反,正) = −1, f (反,反) =1 ;乙的收益函 数 g 为: g(正,正) = −1 , g(正,反) =1 , g(反,正) =1 , g(反,反) = −1 。局中人的收益函数也可用表格或矩阵加以 表示,并称其为收益表或收益矩阵。表 2 中,甲的收益列 在左边,乙的收益列在右边。 表 1: 便士匹配博弈局势表 乙 甲 正面 反面 正面 (正,正) (正,反) 反面 (反,正) (反,反) 表 2: 甲和乙的收益表 乙 甲 正面 反面 正面 1 , −1 −1 , 1 反面 −1 , 1 1 , −1
该博弈的特点在于每个局中人的收益都是另一个局中人的付出,即甲和乙的收益之和为 零,收支发生在局内,不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上,人们 喜欢把二人博弈的第一个局中人甲叫做“列”,第二个局中人乙叫做“行”,而且总是把列的收 益写在前面(即左边),行的收益写在后面(即右边)。 例2.囚徒难题( Prisoner' s Delimma)(二人变和博弈) 有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作,拒绝 供出任何犯罪事实;也可以选择背叛,供出对方的犯罪行径。这就是所谓的囚徒博弈,也叫做 囚徒难题。博弈的局中人甲和乙都有两种可选择的策略:合作与背叛。 囚徒博弈的意义在于它可以解释寡头垄断厂商的 表3:囚徒博弈局势表 行为,关键是赋予合作与背叛具体的经济含义。比如 在双头垄断的情况下,合作可以解释为“保持索要 合作 背叛 个高价”,背叛可解释为“降价以争夺对手的市场’。匚合作【合作合作)(合作背叛 右表给出了囚徒博弈的局势表。 背叛(背叛合作)(背叛背叛 局中人可以事先讨论这局博弈,但实际决策必须 独立地做出。如果甲采取合作策略,不供出乙的犯罪事实,那么乙就能得到3000元的收益 同样,如果乙采取合作策略,那么甲就能得到3000元的收益。可见,如果甲乙双方都采取合 作策略,双方各得3000元收益。 但是,审讯者用1000元奖赏来鼓励局中人采取背叛策略。这样,只要局中人选择背叛, 他就会得到1000元鼓励,而不管另一个局中人会采取什么策略 需要注意的是,囚徒博弈中的货币支付来自第三方一一局外人,这正是囚徒博弈同便士 匹配博弈的不同之处。奥曼( Aumann)1987年对囚徒博弈给出了一个特别简单的描述:每个局 中人都可以对仲裁人简单地宣告“给我1000元”或“给对方3000元”。 简单分析一下就会发现,如果一个局中人 采取合作策略,而另一个局中人采取背叛策略, 表4:甲和乙的收益表 那么采取合作策略的局中人的收益为零,而采 合作 背叛 取背叛策略的局中人的收益为4000元(3000元 收益再加上1000元的背叛鼓励)。如果双方都 背叛 4000, 010001000 采取背叛策略,则双方的收益各为1000元。表 4列出了甲乙双方的收益情况。从收益表可以看出,甲乙双方的收益之和不为零,而且收益和 是变化的。因此,囚徒博弈是一种变和博弈 直觉上看,甲和乙都应采取合作策略(互不供出对方的犯罪事实),各得3000元收益。但 从收益表可以得出这样的结论:如果一个局中人认为另一个局中人将合作,从而他将得到3000 元收益,那么他若采取背叛策略,就将总共能获得4000元的收益:如果他认为另一个局中人 为了得到1000元鼓励而将背叛,那么他也就只好为了自己也取得1000元鼓励而采取背叛策略 (否则,他将一无所获)。总之,在收益最大化动机的驱使下,局中人的最优选择是背叛。这样 一来,甲乙双方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3000元 这是一个典型的博弈悖论,问题的关键在于每个局中人都有背叛的鼓励,而不管其他局中人将 做什么 例3.古诺博弈(双头垄断:产量较量) 法国经济学家古诺( Cournot)于1838年以天然矿泉井为例,首次建立了简单的双头垄断 博弈模型,其特点是,垄断厂商双方都天真地以为对方不会改变原有产量水平,双方都追求各 自利润最大化。古诺假定:①有两个天然矿泉在一起,分别为厂商甲和乙占有:②两个矿泉都 为自流井,生产成本为零,边际成本也为零;③甲和乙面对相同的需求曲线,采用相同的价格 ④双方都以为对方的产量水平不会改变。在这些假设前提下,甲和乙各自独立决定自己的产量
第八章 博弈论 229 该博弈的特点在于每个局中人的收益都是另一个局中人的付出,即甲和乙的收益之和为 零,收支发生在局内,不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上,人们 喜欢把二人博弈的第一个局中人甲叫做“列”,第二个局中人乙叫做“行”,而且总是把列的收 益写在前面(即左边),行的收益写在后面(即右边)。 例 2.囚徒难题(Prisoner's Delimma)(二人变和博弈) 有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作,拒绝 供出任何犯罪事实;也可以选择背叛,供出对方的犯罪行径。这就是所谓的囚徒博弈,也叫做 囚徒难题。博弈的局中人甲和乙都有两种可选择的策略:合作与背叛。 囚徒博弈的意义在于它可以解释寡头垄断厂商的 行为,关键是赋予合作与背叛具体的经济含义。比如 在双头垄断的情况下,合作可以解释为“保持索要一 个高价”,背叛可解释为“降价以争夺对手的市场”。 右表给出了囚徒博弈的局势表。 局中人可以事先讨论这局博弈,但实际决策必须 独立地做出。如果甲采取合作策略,不供出乙的犯罪事实,那么乙就能得到 3000 元的收益。 同样,如果乙采取合作策略,那么甲就能得到 3000 元的收益。可见,如果甲乙双方都采取合 作策略,双方各得 3000 元收益。 但是,审讯者用 1000 元奖赏来鼓励局中人采取背叛策略。这样,只要局中人选择背叛, 他就会得到 1000 元鼓励,而不管另一个局中人会采取什么策略。 需要注意的是,囚徒博弈中的货币支付来自第三方——局外人,这正是囚徒博弈同便士 匹配博弈的不同之处。奥曼(Aumann)1987 年对囚徒博弈给出了一个特别简单的描述:每个局 中人都可以对仲裁人简单地宣告“给我 1000 元”或“给对方 3000 元”。 简单分析一下就会发现,如果一个局中人 采取合作策略,而另一个局中人采取背叛策略, 那么采取合作策略的局中人的收益为零,而采 取背叛策略的局中人的收益为 4000 元(3000 元 收益再加上 1000 元的背叛鼓励)。如果双方都 采取背叛策略,则双方的收益各为 1000 元。表 4 列出了甲乙双方的收益情况。从收益表可以看出,甲乙双方的收益之和不为零,而且收益和 是变化的。因此,囚徒博弈是一种变和博弈。 直觉上看,甲和乙都应采取合作策略(互不供出对方的犯罪事实),各得 3000 元收益。但 从收益表可以得出这样的结论:如果一个局中人认为另一个局中人将合作,从而他将得到 3000 元收益,那么他若采取背叛策略,就将总共能获得 4000 元的收益;如果他认为另一个局中人 为了得到 1000 元鼓励而将背叛,那么他也就只好为了自己也取得 1000 元鼓励而采取背叛策略 (否则,他将一无所获)。总之,在收益最大化动机的驱使下,局中人的最优选择是背叛。这样 一来,甲乙双方都采取背叛策略,各得 1000 元收益;而不是都采取合作策略,各得 3000 元。 这是一个典型的博弈悖论,问题的关键在于每个局中人都有背叛的鼓励,而不管其他局中人将 做什么。 例 3.古诺博弈(双头垄断:产量较量) 法国经济学家古诺(Cournot)于 1838 年以天然矿泉井为例,首次建立了简单的双头垄断 博弈模型,其特点是,垄断厂商双方都天真地以为对方不会改变原有产量水平,双方都追求各 自利润最大化。古诺假定:①有两个天然矿泉在一起,分别为厂商甲和乙占有;②两个矿泉都 为自流井,生产成本为零,边际成本也为零;③甲和乙面对相同的需求曲线,采用相同的价格; ④双方都以为对方的产量水平不会改变。在这些假设前提下,甲和乙各自独立决定自己的产量 表 3: 囚徒博弈局势表 乙 甲 合作 背叛 合作 (合作,合作) (合作,背叛) 背叛 (背叛,合作) (背叛,背叛) 表 4: 甲和乙的收益表 乙 甲 合作 背叛 合作 3000, 3000 0, 4000 背叛 4000, 0 1000, 1000
水平,以求利润最大化。 设P=(Q是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为Q1,乙的产量为Q2 时,矿泉水的市场价格为P=(Q1+Q2),甲的利润x1=PQ1,乙的利润为2=PQ2。在这 个博弈中,甲乙双方的策略都表现为选择产量水平,局中人的收益即为厂商的利润。当甲的产 量为Q1时,乙以为甲不会改变这一产量,而选择一个合适的产量水平Q2以使自己的利润丌2达 到最大。同样,当乙的产量水平为Q2时,甲以为乙不会改变这一产量,而选择一个合适的产 量水平Q1以使自己的利润x1达到最大 为了说明这个博弈的结果,假设甲乙双方面临的反需求函数P=(Q)=P-kQ。用Q1表 示这局博弈中甲选择的最优产量,Q2表示乙选择的最优产量水平,则甲乙各自的收益分别为 丌1=(B+k(Q1+Q2)Q1和丌2=(P+k(Q1+Q2)Q2。由于实现了利润最大化,因此 解之得:当乙的产量水平为Q2时,甲决定的产量水平为Q1=(Q0-Q2)/2(这是甲对乙的反应 函数):当甲的产量水平为Q1时,乙决定的产量水平为Q2=(Q0-Q1)2(这是乙对甲的反应 函数)。其中,Q0=P/k表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解 可得:Q1=Q2=Q0/3,即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说 明,古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他局中人的决策,而且与市 场的容量有关 例4.贝特兰博弈(双头垄断:价格较量) 古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并 不如价格较量那么普遍,寡头之间应该有激烈的价格竞争。不论市场价格如何,只要某一厂商 降低价格,而其他竞争对手保持原价格不变,那么降价厂商就能占有全部市场。这就是说,我 们假定消费者只从最低价格厂商那里购买产品。为此,法国经济学家贝特兰( Bertrand)于1883 年提出了以价格为选择策略的贝特兰博弈模型,反对古诺关于产量的博弈模型。 还以矿泉水为例,在贝特兰博弈模型中各厂商都预期对手不会改变价格,从而将自己的 价格确定在利润最大化的水平之上。这就是说,贝特兰博弈的构建同古诺博弈相似,所不同的 是贝特兰博弈中局中人的策略是选择价格,而古诺博弈局中人的策略是选择产量水平 贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数,不过现在价格是自变量, 产量为因变量(古诺模型正好相反)。设市场需求函数为Q=D(P),为了分析上简单起见,进 一步设Q=Q0-bP(这里,Q0=P/k,b=1/k,即与古诺模型中的市场需求相同)。局中人的 收益仍是他所获得的利润。 如果甲和乙不相互勾结串通,当乙采取了价格水平P2时,甲认为乙不会改变这一价格水 平,从而为了占领市场而要采取低于乙的价格水平P2的价格P1,于是甲的利润为 丌1=BD(P),乙的利润为零;同样,当甲采取了价格水平P时,乙认为甲不会改变这一价 格水平,从而为了占领市场而要采取低于甲的价格水平P1的价格P2,于是乙的利润为 PD(P2),甲的利润为零 如果甲和乙相互勾结串通起来,采取相同的价格策略,即P=P2,那么甲和乙就能索要 个垄断价格,并且每人可收取一半的垄断利润。 由此可见,甲和乙的利润函数分别为: BD(P),当1<P2时 P2D(P2),当f>P2时 1=x1(P,P2)={BD(P)2,当=B2时,x2=丌2(1,P1)={PD(B2)/2,当=P时 当f>P2时 时
第八章 博弈论 230 水平,以求利润最大化。 设 P =(Q) 是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为 Q1 ,乙的产量为 Q2 时,矿泉水的市场价格为 ( ) P = Q1 + Q2 ,甲的利润 1 = PQ1 , 乙的利润为 2 = PQ2 。在这 个博弈中,甲乙双方的策略都表现为选择产量水平,局中人的收益即为厂商的利润。当甲的产 量为 Q1 时,乙以为甲不会改变这一产量,而选择一个合适的产量水平 Q2 以使自己的利润 2 达 到最大。同样,当乙的产量水平为 Q2 时,甲以为乙不会改变这一产量,而选择一个合适的产 量水平 Q1 以使自己的利润 1 达到最大。 为了说明这个博弈的结果,假设甲乙双方面临的反需求函数 P =(Q) = P0 − kQ 。用 Q1 表 示这局博弈中甲选择的最优产量, Q2 表示乙选择的最优产量水平,则甲乙各自的收益分别为 1 0 1 2 1 = (P + k(Q + Q ))Q 和 2 0 1 2 2 = (P + k(Q + Q ))Q 。由于实现了利润最大化,因此 0, 0 2 2 1 1 = = Q Q 解之得:当乙的产量水平为 Q2 时,甲决定的产量水平为 Q1 = (Q0 − Q2 ) 2 (这是甲对乙的反应 函数);当甲的产量水平为 Q1 时,乙决定的产量水平为 Q2 = (Q0 − Q1 ) 2 (这是乙对甲的反应 函数)。其中, Q P k 0 = 0 表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解 可得: Q1 = Q2 = Q0 3, 即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说 明,古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他局中人的决策,而且与市 场的容量有关。 例 4.贝特兰博弈(双头垄断:价格较量) 古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并 不如价格较量那么普遍,寡头之间应该有激烈的价格竞争。不论市场价格如何,只要某一厂商 降低价格,而其他竞争对手保持原价格不变,那么降价厂商就能占有全部市场。这就是说,我 们假定消费者只从最低价格厂商那里购买产品。为此,法国经济学家贝特兰(Bertrand)于 1883 年提出了以价格为选择策略的贝特兰博弈模型,反对古诺关于产量的博弈模型。 还以矿泉水为例,在贝特兰博弈模型中各厂商都预期对手不会改变价格,从而将自己的 价格确定在利润最大化的水平之上。这就是说,贝特兰博弈的构建同古诺博弈相似,所不同的 是贝特兰博弈中局中人的策略是选择价格,而古诺博弈局中人的策略是选择产量水平。 贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数,不过现在价格是自变量, 产量为因变量(古诺模型正好相反)。设市场需求函数为 Q = D(P) , 为了分析上简单起见,进 一步设 Q = Q0 − bP (这里, Q P k 0 = 0 , b =1 k ,即与古诺模型中的市场需求相同)。局中人的 收益仍是他所获得的利润。 如果甲和乙不相互勾结串通,当乙采取了价格水平 P2 时,甲认为乙不会改变这一价格水 平,从而为了占领市场而要采取低于乙的价格水平 P2 的价格 P1 ,于是甲的利润为 ( ) 1 = P1D P1 ,乙的利润为零;同样,当甲采取了价格水平 P1 时,乙认为甲不会改变这一价 格水平,从而为了占领市场而要采取低于甲的价格水平 P1 的价格 P2 ,于是乙的利润为 ( ) 2 = P2D P2 , 甲的利润为零。 如果甲和乙相互勾结串通起来,采取相同的价格策略,即 P1 = P2 ,那么甲和乙就能索要 一个垄断价格,并且每人可收取一半的垄断利润。 由此可见,甲和乙的利润函数分别为: = = = 当 时 当 时 当 时 1 2 1 2 1 2 0, ( ) 2, ( ), ( , ) 1 1 1 1 1 1 1 2 P P P P P P P D P P D P P P , = = = 当 时 当 时 当 时 1 2 1 2 1 2 0, ( ) 2, ( ), ( , ) 2 2 2 2 2 2 1 2 P P P P P P P D P P D P P P
如果甲和乙勾结串通,合作起来,那么双方就能按照最大利润价格P=Q/(2b)获得垄断 价格,并且各得最大利润的一半。这里,利润最大化价格是按照 aP(P(Oo -bP)=@o-26P=0 确定的。但是,占领市场的诱惑对每个局中人都存在,只要他稍微降价,他就能获得全部市场。 假如甲先进入该矿泉市场,那么甲就按照利润最大化价格$P_1=Q_。/(2b)$获取最大利润。继 而乙进入这个市场,且乙认为甲不会改变他的价格$P1$,于是乙为了夺取市场而采取低于甲 的价格水平P的一个价格P2(P2<P)。由于乙夺走了市场,甲同样又会采取低于乙的价格水 平P2的价格P,以夺回市场。这样不断往复下去,直至最后甲乙双方都把价格水平定为零时 才可达到均衡,此时双方的收益为零,市场各占一半(即甲的销售量Q1和乙的销售量Q2相等, 且Q1=Q2=Q/2)。这就是甲乙双方不合作的结果,双方都变得更差 以上分析表明:把贝特兰博弈与古诺博弈作比较,对同一市场来说,由于选择了不同的 策略集合(一个以产量作为策略,另一个以定价作为策略),得出了不同的博弈结果,贝特兰博 弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零),而古诺博弈的结果不 是这样:再把贝特兰博弈同囚徒难题博弈作比较,二者具有相似的结构,即局中人合作会取得 最好的结果,但利益的诱惑促使他们采取不合作的行动,致使双方博弈的结局都变得更差 贝特兰博弈也可用囚徒博以来解释:合作是指两个厂商的勾结,背叛是指两个厂商独立 行动,没有勾结。合作,可以索要一个高的垄断价格:背叛,则导致市场价格为零,双方利润 为零。可见,双方合作起来,对两个厂商都有利,似乎应该合作。但博弈的最终结果是双方都 采取背叛策略,导致谁也得不到利润。 本节所举的这些事例说明,寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描 述和研究。实际上,经济学中大部分经济现象都可以作为博弈的特殊情形进行研究,比如历史 上解决竞争均衡的存在性这一经济学基本问题时,就把经济系统看成为一局博弈。 为了研究博弈,必须抓住博弈现象的基本要素,这些要素是:局中人、策略、收益。也 就是说,博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择 种策略后所获得的效用或利益,就是局中人的收益( payoffs),也叫做得失。我们假定每一个 局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益 函数为所有局中人所共知。当然,每个局中人都知道其他局中人掌握着这些信息和知识。局中 人的收益不但依赖于他自己的策略选择,而且依赖于其他局中人的策略选择。我们再假定每个 局中人在给定的主观信念下会选择收益最大化的行动,并且当新的信息根据贝叶斯规则到来 时,这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。 第二节策略博弈 为了能够正确地应用博弈论硏究经济问题,需要对博弈加以准确地描述和定义。要定义 个博弈,需要确定三件事情:一是局中人集合( set of players),一是局中人的策略集合(s of strategies),一是局中人的收益函数( payoff function)。这三件事情中,确定策略集合 是至关重要的。局中人以策略决定胜负,目标是使他的收益最大化。这种以策略定胜负的博弈, 称为策略博弈( game of strategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样,用博 弈论硏究经济问题时,对于同一经济现象,由于选择了不同的策略集合,得到的博弈结果截然
第八章 博弈论 231 如果甲和乙勾结串通,合作起来,那么双方就能按照最大利润价格 (2 ) P = Q0 b 获得垄断 价格,并且各得最大利润的一半。这里,利润最大化价格是按照 ( ( 0 − )) = 0 − 2 = 0 = P Q bP Q bP P P 确定的。但是,占领市场的诱惑对每个局中人都存在,只要他稍微降价,他就能获得全部市场。 假如甲先进入该矿泉市场,那么甲就按照利润最大化价格$P_1=Q_o/(2b)$获取最大利润。 继 而乙进入这个市场,且乙认为甲不会改变他的价格$P_1$,于是乙为了夺取市场而采取低于甲 的价格水平 P1 的一个价格 P2 ( ) P2 P1 。由于乙夺走了市场,甲同样又会采取低于乙的价格水 平 P2 的价格 P3 ,以夺回市场。这样不断往复下去,直至最后甲乙双方都把价格水平定为零时 才可达到均衡,此时双方的收益为零,市场各占一半(即甲的销售量 Q1 和乙的销售量 Q2 相等, 且 Q1 = Q2 = Q0 2 )。这就是甲乙双方不合作的结果,双方都变得更差。 以上分析表明:把贝特兰博弈与古诺博弈作比较,对同一市场来说,由于选择了不同的 策略集合(一个以产量作为策略,另一个以定价作为策略),得出了不同的博弈结果,贝特兰博 弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零),而古诺博弈的结果不 是这样;再把贝特兰博弈同囚徒难题博弈作比较,二者具有相似的结构,即局中人合作会取得 最好的结果,但利益的诱惑促使他们采取不合作的行动,致使双方博弈的结局都变得更差。 贝特兰博弈也可用囚徒博以来解释:合作是指两个厂商的勾结,背叛是指两个厂商独立 行动,没有勾结。合作,可以索要一个高的垄断价格;背叛,则导致市场价格为零,双方利润 为零。可见,双方合作起来,对两个厂商都有利,似乎应该合作。但博弈的最终结果是双方都 采取背叛策略,导致谁也得不到利润。 本节所举的这些事例说明,寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描 述和研究。实际上,经济学中大部分经济现象都可以作为博弈的特殊情形进行研究,比如历史 上解决竞争均衡的存在性这一经济学基本问题时,就把经济系统看成为一局博弈。 为了研究博弈,必须抓住博弈现象的基本要素,这些要素是:局中人、策略、收益。也 就是说,博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择一 种策略后所获得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我们假定每一个 局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益 函数为所有局中人所共知。当然,每个局中人都知道其他局中人掌握着这些信息和知识。局中 人的收益不但依赖于他自己的策略选择,而且依赖于其他局中人的策略选择。我们再假定每个 局中人在给定的主观信念下会选择收益最大化的行动,并且当新的信息根据贝叶斯规则到来 时,这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。 第二节 策略博弈 为了能够正确地应用博弈论研究经济问题,需要对博弈加以准确地描述和定义。要定义 一个博弈,需要确定三件事情:一是局中人集合(set of players),一是局中人的策略集合(set of strategies),一是局中人的收益函数(payoff function)。这三件事情中,确定策略集合 是至关重要的。局中人以策略决定胜负,目标是使他的收益最大化。这种以策略定胜负的博弈, 称为策略博弈(game of strategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样,用博 弈论研究经济问题时,对于同一经济现象,由于选择了不同的策略集合,得到的博弈结果截然
不同 用A表示博弈的局中人集合,S。表示局中人a∈A的策略集合,f。表示a的收益函数 则G=(Sa,∫a)nA就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈 根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒 难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和 是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈) 和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。 本节以二人博弈为重点,介绍有关策略博弈的概念与理论 策略表与收益矩阵 设二人博弈的局中人是甲和乙。甲有m种可选策略,策略表为X={x1,x2,…,xm};乙有n 种可选策略,策略表为Y={υ1,y2,…,yn}。当甲采取策略x,,乙采取策略y时,(x,y)称 为博弈的局势,集合S=X×Y就是局势集合(局势表、局势矩阵),即 (x1,y)(x1,y2) S={x,y)1=12…,m/=12…,n=(2y)(x2,y)…(x2,)=(x,y, 每个局中人选择自己的策略时,都要考虑对手的行动。这样每个局中人的收益不但与自 己的选择有关,而且与对手的选择有关,收益函数是定义在局势集合S上的函数,这里假定了 局中人的收益是可以用实数来都来计量的。用∫表示局中人甲的收益函数,用g表示局中人 乙的收益函数。由于局势集合S是有限集合,收益函数∫和g都可用矩阵加以表示,这些矩 就称为收益矩阵。记f=f(x,y),gm=g(x,y),则甲和乙的收益矩阵分别为 f=umm,g=gu) 当∫+g≡C(常数)(=1,2,…,mj=1,2,…,m)时,该博弈就是常和博弈。否则,就是变和 博弈。局中人的策略与收益也可用收益表加以表达: 表1:博弈的收益表 乙的策略 甲的策略 y y IJ2n, g2n 般情况下,二人博弈可表示成G=G2=(X,f},g)。但对于二人常和博弈,则可简单 地表示成G=G2(C)=(X,Y,f,C),其中C为收益的常数和。而矩阵博弈则可更简单地表示 成G=G2=(XY,∫),或者直接用甲的收益矩阵∫来表示矩阵博弈。 最小最大原理 局中人的目标是选择使自己收益最大化的策略,我们来分析局中人如何决策。假定甲乙 双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略y,时,甲必然会采取相应 的某种策略x,以求自己的收益最大,即选择x;使下式成立
第八章 博弈论 232 不同。 用 A 表示博弈的局中人集合, a S 表示局中人 a A 的策略集合, a f 表示 a 的收益函数, 则 a a a A G S f = ( , ) 就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈。 根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒 难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和 是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈) 和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。 本节以二人博弈为重点,介绍有关策略博弈的概念与理论。 一.策略表与收益矩阵 设二人博弈的局中人是甲和乙。甲有 m 种可选策略,策略表为 X = x1 , x2 , , xm ;乙有 n 种可选策略,策略表为 Y = y1 , y2 , , yn 。当甲采取策略 i x ,乙采取策略 y j 时, (xi , y j) 称 为博弈的局势,集合 S = X Y 就是局势集合(局势表、局势矩阵),即 ( ) m n i j m m m n n n i j x y x y x y x y x y x y x y x y x y x y S x y i m j n = = = = = ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ) ( , ): 1,2, , ; 1,2, , 1 2 2 1 2 2 2 1 1 1 2 1 每个局中人选择自己的策略时,都要考虑对手的行动。这样每个局中人的收益不但与自 己的选择有关,而且与对手的选择有关,收益函数是定义在局势集合 S 上的函数,这里假定了 局中人的收益是可以用实数来都来计量的。用 f 表示局中人甲的收益函数,用 g 表示局中人 乙的收益函数。由于局势集合 S 是有限集合,收益函数 f 和 g 都可用矩阵加以表示,这些矩 阵就称为收益矩阵。记 fi j = f (xi , y j) , gi j = g(xi , y j) ,则甲和乙的收益矩阵分别为: ( ) m n i j f f = , ( ) m n g gi j = 当 fi j + gi j C (常数) (i =1,2, ,m; j =1,2, , n) 时,该博弈就是常和博弈。否则,就是变和 博弈。局中人的策略与收益也可用收益表加以表达: 表 1: 博弈的收益表 乙的策略 甲的策略 y1 y 2 …… y n x1 f11 , g11 f12 , g12 …… f1n , g1n x2 f 21 , g21 f 22 , g22 …… f 2 n , g2 n …… xm fm1 , g m1 f m 2 , g m2 …… f mn , g mn 一般情况下,二人博弈可表示成 G = G2 = (X , f ;Y, g) 。但对于二人常和博弈,则可简单 地表示成 G = G2 (C ) = (X,Y, f ,C ) ,其中 C 为收益的常数和。而矩阵博弈则可更简单地表示 成 G = G2 = (X,Y, f ) ,或者直接用甲的收益矩阵 f 来表示矩阵博弈。 二.最小最大原理 局中人的目标是选择使自己收益最大化的策略,我们来分析局中人如何决策。假定甲乙 双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略 y j 时,甲必然会采取相应 的某种策略 xi ,以求自己的收益最大,即选择 xi 使下式成立: