233 f=maxf1,,…fm} 但是,当甲不知道乙会采取什么策略时,如果甲是一个避险者,那么他必将作最坏的打 算,以求取得较好的效果。首先,甲要从收益表中找出自己的每一种策略x1下至少可获得的 收益(即所能获得的最小收益),即先求解min{n,f12,…,fm}(=12,…,m),然后从这些最小 收益策略中选择出收益最大的策略,即“从最小收益中选择最大收益”。从收益矩阵来看这个 决策过程,即甲首先选出自己的收益矩阵∫的各行的最小值,然后从这些最小值中再选出最 大值: max min =max mIr 1sism1sj≤n 就是求解策略博弈的最小最大原理,其合理性表现为:如果甲采取按照最小最大原理确定的 策略,那么不论乙采取什么策略,甲都可至少得到这个最小最大收益。由此可见,最小最大原 理是能够确保局中人收益的一种原理。今后,我们把局中人甲按照最小最大原理所确定的策略, 叫做甲的稳妥策略。 对于局中人乙来说,他的决策行为和决策过程同甲是一样的,只不过乙要依赖于收益矩 阵g。乙决策的最小最大原理是:乙先选出收益矩阵g的各列的最小值,然后从这些最小值 中选出最大值 max min gij =max min g 1≤ jsn lsis 局中人乙按照最小最大原理确定的策略,称为乙的稳妥策略。 读者可能会问:甲先找出他的收益矩阵各列的最大值,然后再从这些最大值中选出最小 值,不也是一种很好的决策办法吗?其实,这种决策办法叫做最大最小法,照此办法做出的决 策,在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最 大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略 (x,y),那么当乙采用策略y时,甲可得到最大最小收益f但是,若乙采用的不是策略y 而是策略νk(k≠j),那么甲如不重新选择他的收益矩阵第k列的最大值的话,他的最大最小 收益f就不一定能够达到,这正是最大最小法同最小最大原理的区别 实际中,在甲不知道乙会采取什么策略的情况下选定了自己的策略以后,乙的策略才出 台,为甲也获悉了乙的这一行动时,甲很有可能来不及调整自己原定的策略,从而给甲带来 定的损失。因此,最大最小法在保证局中人收益方面不如最小最大原理那么保险。 当甲和乙的稳妥策略都已选定时,二者结合起来能否成为博弈的结果呢?答案是未必。 请看下面二人零和博弈的事例 例1.高度不确定的博弈 考虑二人博弈G2=(X,fY,g),甲的策略集合X={x,x2},乙的策略集合Y={v,y2}, 甲和乙的收益矩阵∫和g通过博弈的收益表给出(见表2) 对于甲来说, maxi min,f=2;对于乙来说,max,min;g=-3。这说明甲的稳妥策 略是x2,乙的稳妥策略是y2 表2:甲和乙的收益表 但是,当甲采取x2时,乙采取y2的收益g2=-3小于采 取y1的收益g21=-1,因而乙要改用策略y。在乙改用y后 甲采取策略x的收益f12=2小于采取x的收益f1=4,因而x4-41-1 甲也要改用策略x。而当甲改用x后,乙采用y的收益□x2,=213,=3 g1:=-4小于采用y2的收益g12,于是乙又要改回到y2:在乙改回到y2后,甲也要改回到收 益最大的策略x2。这就让我们看到:当甲采取x2时,乙要采用y;然后甲改用x1,乙随之改 用y2;甲再改用x2,乙又改用y,如此不断往复下去,博弈的结局是高度不确定的
第八章 博弈论 233 fi j = maxf1j , f 2 j , , fm j 但是,当甲不知道乙会采取什么策略时,如果甲是一个避险者,那么他必将作最坏的打 算,以求取得较好的效果。首先,甲要从收益表中找出自己的每一种策略 xi 下至少可获得的 收益(即所能获得的最小收益),即先求解 minfi1 , fi2 , , fin (i =1,2, ,m) ,然后从这些最小 收益策略中选择出收益最大的策略,即“从最小收益中选择最大收益”。从收益矩阵来看这个 决策过程,即甲首先选出自己的收益矩阵 f 的各行的最小值,然后从这些最小值中再选出最 大值: i j i m j n i j i j f f = 1 1 max min max min 这就是求解策略博弈的最小最大原理,其合理性表现为:如果甲采取按照最小最大原理确定的 策略,那么不论乙采取什么策略,甲都可至少得到这个最小最大收益。由此可见,最小最大原 理是能够确保局中人收益的一种原理。今后,我们把局中人甲按照最小最大原理所确定的策略, 叫做甲的稳妥策略。 对于局中人乙来说,他的决策行为和决策过程同甲是一样的,只不过乙要依赖于收益矩 阵 g 。乙决策的最小最大原理是:乙先选出收益矩阵 g 的各列的最小值,然后从这些最小值 中选出最大值: i j j n i m i j j i g g = 1 1 max min max min 局中人乙按照最小最大原理确定的策略,称为乙的稳妥策略。 读者可能会问:甲先找出他的收益矩阵各列的最大值,然后再从这些最大值中选出最小 值,不也是一种很好的决策办法吗?其实,这种决策办法叫做最大最小法,照此办法做出的决 策,在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最 大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略 (xi , y j) , 那么当乙采用策略 y j 时,甲可得到最大最小收益 i j f 。但是,若乙采用的不是策略 y j , 而是策略 yk (k j) ,那么甲如不重新选择他的收益矩阵第 k 列的最大值的话,他的最大最小 收益 i j f 就不一定能够达到,这正是最大最小法同最小最大原理的区别。 实际中,在甲不知道乙会采取什么策略的情况下选定了自己的策略以后,乙的策略才出 台,为甲也获悉了乙的这一行动时,甲很有可能来不及调整自己原定的策略,从而给甲带来一 定的损失。因此,最大最小法在保证局中人收益方面不如最小最大原理那么保险。 当甲和乙的稳妥策略都已选定时,二者结合起来能否成为博弈的结果呢?答案是未必。 请看下面二人零和博弈的事例。 例 1. 高度不确定的博弈 考虑二人博弈 G2 = (X , f ;Y, g) ,甲的策略集合 X = x1 , x2 ,乙的策略集合 Y = y1 , y2 , 甲和乙的收益矩阵 f 和 g 通过博弈的收益表给出(见表 2)。 对于甲来说, maxi min j fi j = 2 ;对于乙来说, max j min i gi j = −3 。这说明甲的稳妥策 略是 x2 ,乙的稳妥策略是 y 2 。 但是,当甲采取 x2 时,乙采取 y 2 的收益 g22 = −3 小于采 取 y1 的收益 g21 = −1 ,因而乙要改用策略 y1 。在乙改用 y1 后, 甲采取策略 x2 的收益 f 21 = 2 小于采取 x1 的收益 f11 = 4 ,因而 甲也要改用策略 x1 。而当甲改用 x1 后,乙采用 y1 的收益 g11 = −4 小于采用 y 2 的收益 g12 ,于是乙又要改回到 y 2 ;在乙改回到 y 2 后,甲也要改回到收 益最大的策略 x2 。这就让我们看到:当甲采取 x2 时,乙要采用 y1 ;然后甲改用 x1 ,乙随之改 用 y 2 ;甲再改用 x2 ,乙又改用 y1 ,如此不断往复下去,博弈的结局是高度不确定的。 表 2: 甲和乙的收益表 乙 甲 y1 y 2 x1 4, − 4 1, −1 x2 2, − 2 3, − 3
234 一般来讲,要想一个二人博弈G2=(X,f;},g)具有确定的结局,必须存在这样的局势 (x*,y=)∈S=X×Y f(x' y*)=max f(x, y*) r∈X g(x, y*)=max g(x', y) 满足这个条件的的局势(x*,υ*),叫做博弈G2的均衡或最优解或最优局势,其中的x*和y*分 别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。 对于二人常和博弈G2=(X,F,来说,(x*,y*)是博弈的最优解当且仅当 f(x y*)=max f(x,y*)=mn f(x', y) 数学中,满足这个条件的点(x*,y*)叫做函数∫的鞍点。因此,(x*,y*)是博弈的最优解当且 仅当(x*,y*)是收益函数∫的鞍点。下面的定理给出了鞍点的判别条件。 鞍点定理.(x*,y)是收益函数∫:XxY→R的鞍点的充要条件是: f(r,y 率)= max min J(x y)=min max f(x, y) 证明:必要性(→).设(x*,y*)是∫的鞍点,即f(x*+,y)=maxf(x,y*)=minf(x*,y)。 从mnf(x,y)≤f(x,y)可知,minf(x,y)≤maxf(x,y)对一切(x,y)∈XxY成立,这 就蕴含着 max min f(x,y)≤ min max f(xy),即 max mn f(x,y)≤ min max f(x,y) 注意, max min f(x,y)≥minf(x*,y)=f(x*,y*)=maxf(x,y*)≥ mn max f(x,y)。这就 证明了f(x*,y*)= maxmin f(x,y)= min max f(x,y) 充分性(<=).设(x*,y*)∈XxY满足f(x*,y*)= max min f(x,y)= min max f(x,y)。从 f(x*,y*)= max min f(x,y)可知f(x*,y*)=mnf(x*,y);从f(x*,y*)= min max f(x,y)可 知f(x*+,y*)=maxf(x,y*)。所以,f(x*,y*)=maxf(x,y*)=minf(x*,y),即(x*,y*)是函 数∫的鞍点。◆ 既然二人常和博弈的最优解恰好就是收益函数的鞍点,鞍点定理告诉我们,当收益函数 的鞍点存在时,利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。 但是,当收益矩阵不存在鞍点时,常和博弈就没有最优解,博弈的结局就是高度不确定 的。鉴于此,我们将有鞍点的常和博弈称为严格确定的博弈。 三.反应函数 博弈G=(X,fY,g)的局中人总是要考虑对手的行动,然后确定自己的对策。当乙采取 了某种策略ν∈γ,而且被甲所觉察时,甲必然有所反应,要确定出相应的对策x∈X以使自 己的收益∫在乙选择y的情况下达到最大,即要使f(x,y)=max(x,y):x'∈x}。甲对乙的 行动的这种反应,确定了一个从乙的策略集合Y到甲的策略集合x的映射q,即对任何y∈Y
第八章 博弈论 234 一般来讲,要想一个二人博弈 G2 = (X, f ;Y, g) 具有确定的结局,必须存在这样的局势 (x*, y*)S = X Y : = = ( *, *) max ( *, ) ( *, *) max ( , *) g x y g x y f x y f x y y Y x X 满足这个条件的的局势 (x*, y*) ,叫做博弈 G2 的均衡或最优解或最优局势,其中的 x* 和 y* 分 别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。 对于二人常和博弈 G2 = (X ,Y, f ) 来说, (x*, y*) 是博弈的最优解当且仅当 f (x*, y*) max f (x, y*) min f (x*, y) xX yY = = 数学中,满足这个条件的点 (x*, y*) 叫做函数 f 的鞍点。因此, (x*, y*) 是博弈的最优解当且 仅当 (x*, y*) 是收益函数 f 的鞍点。下面的定理给出了鞍点的判别条件。 鞍点定理. (x*, y*) 是收益函数 f : X Y → R 的鞍点的充要条件是: f (x*, y*) max min f (x, y) min max f (x, y) xX yY yY xX = = 证明:必要性 () . 设 (x*, y*) 是 f 的鞍点,即 f (x*, y*) max f (x, y*) min f (x*, y) xX yY = = 。 从 min f (x, y ) f (x, y) y Y 可知, min f (x, y ) max f (x , y) y Y x X 对一切 (x, y) X Y 成立,这 就蕴含着 max min f (x, y ) min max f (x , y) x X y Y y Y x X ,即 max min f (x, y) min max f (x, y) xX yY yY xX 。 注意, max min f (x, y) min f (x*, y) f (x*, y*) max f (x, y*) min max f (x, y) xX yY yY xX yY xX = = 。这就 证明了 f (x*, y*) max min f (x, y) min max f (x, y) xX yY yY xX = = 。 充分性 () .设 (x*, y*) X Y 满足 f (x*, y*) max min f (x, y) min max f (x, y) xX yY yY xX = = 。从 f (x*, y*) max min f (x, y) xX yY = 可知 f (x*, y*) min f (x * , y) yY = ;从 f (x*, y*) min max f (x, y) yY xX = 可 知 f (x*, y*) max f (x, y*) xX = 。所以, f (x*, y*) max f (x, y*) min f (x*, y) xX yY = = ,即 (x*, y*) 是函 数 f 的鞍点。◆ 既然二人常和博弈的最优解恰好就是收益函数的鞍点,鞍点定理告诉我们,当收益函数 的鞍点存在时,利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。 但是,当收益矩阵不存在鞍点时,常和博弈就没有最优解,博弈的结局就是高度不确定 的。鉴于此,我们将有鞍点的常和博弈称为严格确定的博弈。 三.反应函数 博弈 G = (X, f ;Y, g) 的局中人总是要考虑对手的行动,然后确定自己的对策。当乙采取 了某种策略 yY ,而且被甲所觉察时,甲必然有所反应,要确定出相应的对策 x X 以使自 己的收益 f 在乙选择 y 的情况下达到最大,即要使 f (x, y) = maxf (x , y): x X 。甲对乙的 行动的这种反应,确定了一个从乙的策略集合 Y 到甲的策略集合 X 的映射 ,即对任何 yY
235 甲的反应策略x=0(y)是按照f(x,y)=f((y,y)=max{(x2y):x∈x来确定的。这个映射 q:Y→X就叫做甲对乙的反应函数。 同样的道理,可以确定出乙对甲的反应函数v:X→Y,即对任何x∈X,y=v(x)是按 照g(x,y)=g(x,v(x)=maxg(x,y):y∈}来确定的 利用反应函数,我们也可以解释博弈的结局。就象古诺博弈一样,假如甲先采取某种策 略x∈Ⅺ,乙通过某种途径获悉了甲的这一行动,并认为甲不会改变他的策略,于是作出反 应,决定采取策略υ=ψ(x1),以使自己的收益最大化。当乙采取策略υ时,甲掌握了这一信 息,并认为乙不会改变他的策略,于是作出反应,改变原来的策略,决定采用x2=(y),以 求收益最大化。这时,乙再次对甲的行为作出反应,采取新策略y2=v(x2)。甲也再次对乙 的行动作出反应,采取新策略x=(y2)。这样的反应不断下去,直到最后达到y=v(x)且 x=φ(υ)时博弈实现了均衡,此时的局势(x,y)就是博弈的最优解(均衡、最优局势)。 综上所述,博弈的结局是实现均衡,并且均衡由甲乙双方的反应函数确定,即由方程组 ∫x=(y)决定。事实上,(x,y+)是该方程组的解当且仅当 f(x', y*)=max f(x, ys) g(x*,y*)=maxg(x*,y’而这 正是博弈G实现均衡的含义。注意,以上关于反应函数的讨论,没有要求策略集合的有限性 即集合X和Y可以是任何集合。 下面考虑二人无限博弈的一种特殊情况:策略集合X和Y都是实数区间。比如,本章第 节例3中古诺博弈的局中人策略集合就是区间[O.+∞)(半直线),例4中贝特兰博弈的局中 人策略集合也是半直线。假设局中人甲和乙的收益函数f:X→R和g:Y→R可微,则甲对 乙的反应函数x=0(y)由方程(一阶条件)af(x,y)/x=0决定,乙对甲的反应函数y=v(x)由 方程(一阶条件)∂g(x,y)/∂y=0决定,从而博弈的最优解就是如下方程组的解 (xy)=0(甲对乙的反应函数x=9(y) (x,y) dy0(乙对甲的反应函数y=v(x)) 例2.二人博弈的反应函数及最优解 设二人博弈中,甲和乙的策略集合X和Y为X=Y=[0,+∞),收益函数∫和g分别如下: f(x, y)=a1x+a2y+a3xy+a4x+asy+ g(x,y)=61x+b2y+b3xy+b4x+b5y+b6 求偏导数得方程组 Jof(x, y)/ax=2a1x+a3,y+a4 ag(x,y)/oy=2b+bx+b°由此可知局中人甲和乙的反应函数分别为 ∫x=g(y)=(a3y+a+)(2a1) ,博弈的最优解为 ∫x*=(ab5-2ab2)/4a1b2-a3b) y=y(x)=(bb3x+b5)/(2b2 y*=(a4b3-2a1bs)/(4a1b2-a3b3) 四.策略选择的经济模拟 第一节中曾经指出,描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰 博弈,虽然二者的目的都是要模拟同一经济现象一一双头垄断,但二者的结构却很不同。古诺 博弈中厂商的策略是选择产量,厂商的收益是策略变量的连续函数:而贝特兰博弈中厂商的策
第八章 博弈论 235 甲的反应策略 x =(y) 是按照 f (x, y) = f (( y), y) = maxf (x , y): x X 来确定的。这个映射 :Y → X 就叫做甲对乙的反应函数。 同样的道理,可以确定出乙对甲的反应函数 : X →Y ,即对任何 x X , y =(x) 是按 照 g(x, y) = g(x,(x)) = maxg(x, y ): y Y 来确定的。 利用反应函数,我们也可以解释博弈的结局。就象古诺博弈一样,假如甲先采取某种策 略 x1 X ,乙通过某种途径获悉了甲的这一行动,并认为甲不会改变他的策略,于是作出反 应,决定采取策略 y1 =(x1 ) ,以使自己的收益最大化。当乙采取策略 y1 时,甲掌握了这一信 息,并认为乙不会改变他的策略,于是作出反应,改变原来的策略,决定采用 x2 =( y1 ) ,以 求收益最大化。这时,乙再次对甲的行为作出反应,采取新策略 y2 =(x2 ) 。甲也再次对乙 的行动作出反应,采取新策略 x3 =( y2 ) 。这样的反应不断下去,直到最后达到 y =(x) 且 x =(y) 时博弈实现了均衡,此时的局势 (x, y) 就是博弈的最优解(均衡、最优局势)。 综上所述,博弈的结局是实现均衡,并且均衡由甲乙双方的反应函数确定,即由方程组 = = ( ) ( ) y x x y 决定。事实上, (x*, y*) 是该方程组的解当且仅当 = = ( *, *) max ( *, ) ( *, *) max ( , *) g x y g x y f x y f x y y Y x X ,而这 正是博弈 G 实现均衡的含义。注意,以上关于反应函数的讨论,没有要求策略集合的有限性, 即集合 X 和 Y 可以是任何集合。 下面考虑二人无限博弈的一种特殊情况:策略集合 X 和 Y 都是实数区间。比如,本章第 一节例 3 中古诺博弈的局中人策略集合就是区间 [0,+) (半直线),例 4 中贝特兰博弈的局中 人策略集合也是半直线。假设局中人甲和乙的收益函数 f : X → R 和 g :Y → R 可微,则甲对 乙的反应函数 x =(y) 由方程(一阶条件) f (x, y) x = 0 决定,乙对甲的反应函数 y =(x) 由 方程(一阶条件) g(x, y) y = 0 决定,从而博弈的最优解就是如下方程组的解: = = = = 0 ( ( )) ( , ) 0 ( ( )) ( , ) y x y g x y x y x f x y 乙对甲的反应函数 甲对乙的反应函数 例 2.二人博弈的反应函数及最优解 设二人博弈中,甲和乙的策略集合 X 和 Y 为 X = Y =[0,+) ,收益函数 f 和 g 分别如下: 3 4 5 6 2 2 2 1 3 4 5 6 2 2 2 1 ( , ) ( , ) g x y b x b y b x y b x b y b f x y a x a y a x y a x a y a = + + + + + = + + + + + 求偏导数得方程组 = + + = + + 2 3 5 1 3 4 ( , ) 2 ( , ) 2 g x y y b y b x b f x y x a x a y a 。由此可知局中人甲和乙的反应函数分别为 = = + = = + ( ) ( ) (2 ) ( ) ( ) (2 ) 3 5 2 3 4 1 y x bb x b b x y a y a a ,博弈的最优解为 = − − = − − * ( 2 ) (4 ) * ( 2 ) (4 ) 4 3 1 5 1 2 3 3 3 5 4 2 1 2 3 3 y a b a b a b a b x a b a b a b a b 。 四.策略选择的经济模拟 第一节中曾经指出,描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰 博弈,虽然二者的目的都是要模拟同一经济现象——双头垄断,但二者的结构却很不同。古诺 博弈中厂商的策略是选择产量,厂商的收益是策略变量的连续函数;而贝特兰博弈中厂商的策
略是选择价格,厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡,究竟哪一种 是正确的呢? 如果抽象地看待这个问题,那么“哪一种模型正确”这样的提问并无什么意义。要回答 这个问题,就必须看模型试图模拟什么。不要问哪一种模型是正确的,而去问策略选择中什么 样的考虑是切入主题的,这样的提问可能会更加有益一些。比如,如果我们观察OPEC公司的 公告,就会发现OPEC企图为每一个员工决定产量配额,并且允许按照世界石油市场价格定价 这样按照产量水平而不是按价格水平来模拟博弈策略,就可能更加合理。 在策略选择的经济模拟中还有另一方面的考虑,乃就是一旦对手的行为被观察到,那么 对手的策略应该是被承诺的或者是难以改变的。然而到目前为止,所描述的博弈是“一次性” (one-shot)博弈,其特点是一旦知道对手的行动,策略变量可以很快地进行调整。例如,假设 我为我的产品选择一个价格,然后发现我的对手制定了一个略低一些的价格,在这种情况下我 可以很快地调整我的价格。因此,尽管“一次性”博弈所描述的现象应该是发生在实际生活中 的现实,但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎 应该使用多阶段博弈,这样才能捕获到策略选择行为的所有可能的内容。 另一方面,如果我们把古诺博弈中的产量水平解释成为厂商的生产能力,那么一定产量 的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下,厂商一旦发现对手的产量 水平,而要改变厂商自己的产量水平,则可能是难以办到或非常昂贵的。生产能力或产量水平 似乎是厂商策略的天然选择,即使一次性博弈中也是这样。 同大部分经济模拟一样,在策略选择的经济模拟中,如果既要让博弈简单明了以便分析, 又要能够说明实际策略的迭接要素,那么如何表示博弈的策略选择,就是一项艺术。 第三节重复博弈 到目前为止,所谈论的博弈是一次性的。其实,任何博弈都可以一次一次地重复进行, 且每一次重复都不是简单地重复前一次的着法,而会考虑得比前一次更全面些,技法也会更高 些。就好像棋手下棋一样,一局结束了再开一局,前一局在某些着法上吃了亏,这一局中就会 吸取教训而加以注意,正所谓“吃一暂,长一智”。反反复复地开局,给棋手不断积累经验, 让棋手的技艺越来越高 通过博弈的重复进行,局中人的经验越来越丰富,这种经验源于博弈历史。实际上,重 复博弈中的每一点处,局中人决定自己的选择时会考虑到达该点之前的全部博弈历史,比如象 棋棋手在上一局中因出车慢而吃了亏,那么这一局中就会吸取前一局的教训而赶快把车开出 来。这样一来,重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大, 也就是说,博弈历史越长,局中人的策略空间越大,可以选择的着法越多。由于“我的对手会 基于我的选择历史而修正他的行为,我必须在做出自己的选择时考虑到这种影响”,所以,重 复博弈的结果不绝不是一次性博弈的简单重复 例1.囚徒博弈的重复 我们以囚徒博弈为例,来分析重复博弈问题。囚徒博弈中,企图获得“(合作,合作)” 解是两个局中人的长期利益所在。对于每个局中人来说,可行的做法是试着给另一个局中人发 出“信号”以表明他的“善意”,并且在博弈一开始移动就进行合作。当然,背叛是另一个局 中人的短期利益所在。如果他不合作而采取背叛策略,那么对方就可能失去耐心而从此以后永
第八章 博弈论 236 略是选择价格,厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡,究竟哪一种 是正确的呢? 如果抽象地看待这个问题,那么“哪一种模型正确”这样的提问并无什么意义。要回答 这个问题,就必须看模型试图模拟什么。不要问哪一种模型是正确的,而去问策略选择中什么 样的考虑是切入主题的,这样的提问可能会更加有益一些。比如,如果我们观察 OPEC 公司的 公告,就会发现 OPEC 企图为每一个员工决定产量配额,并且允许按照世界石油市场价格定价, 这样按照产量水平而不是按价格水平来模拟博弈策略,就可能更加合理。 在策略选择的经济模拟中还有另一方面的考虑,乃就是一旦对手的行为被观察到,那么 对手的策略应该是被承诺的或者是难以改变的。然而到目前为止,所描述的博弈是“一次性” (one-shot)博弈,其特点是一旦知道对手的行动,策略变量可以很快地进行调整。例如,假设 我为我的产品选择一个价格,然后发现我的对手制定了一个略低一些的价格,在这种情况下我 可以很快地调整我的价格。因此,尽管“一次性”博弈所描述的现象应该是发生在实际生活中 的现实,但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎 应该使用多阶段博弈,这样才能捕获到策略选择行为的所有可能的内容。 另一方面,如果我们把古诺博弈中的产量水平解释成为厂商的生产能力,那么一定产量 的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下,厂商一旦发现对手的产量 水平,而要改变厂商自己的产量水平,则可能是难以办到或非常昂贵的。生产能力或产量水平 似乎是厂商策略的天然选择,即使一次性博弈中也是这样。 同大部分经济模拟一样,在策略选择的经济模拟中,如果既要让博弈简单明了以便分析, 又要能够说明实际策略的迭接要素,那么如何表示博弈的策略选择,就是一项艺术。 第三节 重复博弈 到目前为止,所谈论的博弈是一次性的。其实,任何博弈都可以一次一次地重复进行, 且每一次重复都不是简单地重复前一次的着法,而会考虑得比前一次更全面些,技法也会更高 些。就好像棋手下棋一样,一局结束了再开一局,前一局在某些着法上吃了亏,这一局中就会 吸取教训而加以注意,正所谓“吃一暂,长一智”。反反复复地开局,给棋手不断积累经验, 让棋手的技艺越来越高。 通过博弈的重复进行,局中人的经验越来越丰富,这种经验源于博弈历史。实际上,重 复博弈中的每一点处,局中人决定自己的选择时会考虑到达该点之前的全部博弈历史,比如象 棋棋手在上一局中因出车慢而吃了亏,那么这一局中就会吸取前一局的教训而赶快把车开出 来。这样一来,重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大, 也就是说,博弈历史越长,局中人的策略空间越大,可以选择的着法越多。由于“我的对手会 基于我的选择历史而修正他的行为,我必须在做出自己的选择时考虑到这种影响”,所以,重 复博弈的结果不绝不是一次性博弈的简单重复。 例 1. 囚徒博弈的重复 我们以囚徒博弈为例,来分析重复博弈问题。囚徒博弈中,企图获得“(合作,合作)” 解是两个局中人的长期利益所在。对于每个局中人来说,可行的做法是试着给另一个局中人发 出“信号”以表明他的“善意”,并且在博弈一开始移动就进行合作。当然,背叛是另一个局 中人的短期利益所在。如果他不合作而采取背叛策略,那么对方就可能失去耐心而从此以后永
远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推 理可以得到的事实是,一个局中人目前的做法将在未来将得到回应一一其他局中人的未来选择 可能依赖于这个局中人当前的选择。 现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种 情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈 先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如 重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行 次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其 结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中 人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。 但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就 没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然 而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有 采取背叛。同理不断向后归纳( backwards induction),结果最后一次移动之前的所有移动中, 合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动 中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次 数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合 再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。 此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益 在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人 在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局 中人的收益是各阶段收益的贴现值之总和一一贴现和(向时刻0贴现)。具体地说,设局中人在 时刻t的收益(即第t局重复中的收益)为u1(t=12,3,…),他在重复博弈中的收益就是贴现和 ∑=1u4/(1+r)3,其中r为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都 是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用 第一节例2提供的数据。 假设两个局中人一直合作,移动到了时刻T。如果本次移动中一个人决定背叛,那么另 个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩 罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本 次移动中立即得到了4000元的收益,但也以以后无限次的1000元收益这个低收益流来毁灭自 己,他从背叛中得到的收益贴现和为R1=4000+2m1000(4+)”=4001000元。另 方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴 现和为R2=30+∑m12300(1+n)”=3000+3000元。比较R和R2可知,只要贴现率 r<2,就有R1<R2。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其 以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方 就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现 率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略 以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该 定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那 么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确 叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是 如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现 并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的
第八章 博弈论 237 远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推 理可以得到的事实是,一个局中人目前的做法将在未来将得到回应——其他局中人的未来选择 可能依赖于这个局中人当前的选择。 现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种 情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈。 先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如 重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一 次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其 结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中 人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。 但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就 没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然 而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有 采取背叛。同理不断向后归纳(backwards induction),结果最后一次移动之前的所有移动中, 合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动 中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因此,在重复某一固定次 数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合 作)”。 再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。 此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益 在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人 在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局 中人的收益是各阶段收益的贴现值之总和——贴现和(向时刻 0 贴现)。具体地说,设局中人在 时刻 t 的收益(即第 t 局重复中的收益)为 ut (t =1,2,3, ) ,他在重复博弈中的收益就是贴现和 =1 (1+ ) t t ut r ,其中 r 为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都 是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用 第一节例 2 提供的数据。 假设两个局中人一直合作,移动到了时刻 T 。如果本次移动中一个人决定背叛,那么另 一个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩 罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本 次移动中立即得到了 4000 元的收益,但也以以后无限次的 1000 元收益这个低收益流来毁灭自 己,他从背叛中得到的收益贴现和为 R r r n n 4000 1000 (1 ) 4000 1000 1 = + 1 + = + = 元。另一 方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴 现和为 R r r n n 3000 3000 (1 ) 3000 3000 2 = + 1 + = + = 元。比较 R1 和 R2 可知,只要贴现率 r 2 ,就有 R1 R2 。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其 以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方 就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现 率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。 以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该 定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那 么都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确 叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是, 如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现 率,并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的