、方差分析法 先从一个简单的模型结合数据结构形象地说明方法。考虑模型 y=B6+5+6n,i=1…,m,j=1,…,n (42.4) B0为总平均,是固定效应,51,…,m是随机效应,E51=0,CoV5,5)=0,i≠j, var()=a2=1…,m。对于随机误差5g,var(sn)=σ2。这个模型如果记作方差分量模 型的标准形式是 Y=XBo+U5+8 (42.5) 其中设计阵X=(1,1,…,1)′,随机效应矩阵为 0 0 01 (42.6) k 我们手中资料只有Y=(Y12…,H1k,Y21,…,2k2…,Fm) 们采用(42.4)记法方便一些,将资料y排成表 k 组内平均 YIK Y Y 2k Yn y
6 一、方差分析法 先从一个简单的模型结合数据结构形象地说明方法。考虑模型 Yij = 0 + i + ij , i = 1, ,m, j = 1, ,n (4.2.4) β0 为总平均,是固定效应,ξ1,…,ξm 是随机效应, E i j i = 0,Cov( i , j ) = 0, , Var( i ) A ,i 1, ,m = 2 = 。对于随机误差 2 ,Var( ) ij ij = 。这个模型如果记作方差分量模 型的标准形式是 Y = X +U + 0 (4.2.5) 其中设计阵 X=(1,1,…,1)′,随机效应矩阵为 m U 1 0 1 0 1 0 1 1 0 0 1 0 = mk k (4.2.6) 我们手中资料只有 ( , , , , , , , ) Y = Y11 Y1k Y21 Y2k Ymk 我们采用(4.2.4)记法方便一些,将资料 Y 排成表 j i 1 2 … k 组内平均 1 Y11 Y12 … Y1k Y1 2 Y21 Y22 … Y2k Y2 m Ym1 Ym2 … Ymk Ym
方差分析主要掌握三点,一是计算组内差、组间差,二是作平方和分解,三是计算各自的 自由度 先计算总平均 总变差(全体资料与总平均的偏差平方和) S=∑∑(-)2 各组平均(各组资料横向相加并平均) (4.2.9) 组间差(各组平均数与总平均数的偏差平方和) ∑(x-Y) j=l i=l 组内差(各组数据与本组平均数的偏差平方和) ∑∑(-F (4.2.11) i=l j=l 则必有平方和分解 (42.12) 将各平方和除以各自的自由度。Sr有一个约束Y(427),自由度为n-1=mk-1:Sa 有m组差,1个约束,自由度为m-1:S有mk组差,m个约束,自由度为mk-m。注意有 自由度分解: fr=tfe, mk-1=(m-1)+(mk-m (42.13) 于是算出均方: er Q (42.15) (42.16) 因为假定为随机效应,可以算出各均方的均值:
7 方差分析主要掌握三点,一是计算组内差、组间差,二是作平方和分解,三是计算各自的 自由度。 先计算总平均: ij k j m i Y mk Y = = = 1 1 1 (4.2.7) 总变差(全体资料与总平均的偏差平方和): 2 1 1 ( ) = = S = Yij −Y k j m i T (4.2.8) 各组平均(各组资料横向相加并平均) Y i m k Y ij k j i , 1, , 1 1 = = = (4.2.9) 组间差(各组平均数与总平均数的偏差平方和) ( ) 1 1 = = S = Yi −Y m i k j A (4.2.10) 组内差(各组数据与本组平均数的偏差平方和) 2 1 1 ( ) = = = ij − i k j m i S Y Y (4.2.11) 则必有平方和分解 ST = S A + S (4.2.12) 将各平方和除以各自的自由度。ST 有一个约束 Y.. (4.2.7),自由度为 n −1= mk −1 ;SA 有 m 组差,1 个约束,自由度为 m -1;Se有 mk 组差,m 个约束,自由度为 mk-m。注意有 自由度分解: f f f , mk 1 (m 1) (mk m) T = A + e − = − + − (4.2.13) 于是算出均方: T ST mk Q 1 1 − = (4.2.14) A S A m Q 1 1 − = (4.2.15) S mk m Q − = 1 (4.2.16) 因为假定为随机效应,可以算出各均方的均值:
E(2)=kod+o (42.17) E(O=0 (42.18) 以Q4代者E(QA),Q代替E(Q),得方程组: ko4+0:=ea (42.19) 解得 62=0 =(Q4-Q2)k (4.2.20) 这样就作好了方差分量的估计,然后可以按(42.2)作出B的估计。因为这里的方差分量是由方 差分析法作出的,故称为方差分析法 推广到一般的方差分量模型时,基本原则是类似的。我们不妨考虑方差分量模型 ∫Y=XB+U5+V252+E (42.21) Cov(n)=010101+020202+ofI 先对总平方和Y′Y作平方和分解 yr=SB+Sa+Sa2+Se (4.2.22) 其中Sa是在模型Y=XB+E中,B的回归平方和 SB=SES (B)=YX(rX)Xr (42.23) Sa是在模型Y=B+U151+E中,消去P影响后51的平方和 Sa= Ses (B,50)-SEs(B) (42.24) 类似地,S:2是在模型Y=B+U151+U252+E中消去B和51影响后,52的平方和 2=EEs(B,51,52)-Ss(B,51) (42.25) 最后的S为残差平方和 S=Y-Ss(B,51,92) (4.2.26) 可以验证 Sa=r(-D) (42.27) SAI=Y(D-D,r (4.2.28)
8 2 2 ( ) = + E Q k A (4.2.17) 2 ( ) E Q = (4.2.18) 以 QA 代者 ( ) E QA ,Q 代替 ( ) E Q ,得方程组: = + = Q k A QA 2 2 2 (4.2.19) 解得 Q Q Q k e A A ˆ , ˆ ( )/ 2 2 = = − (4.2.20) 这样就作好了方差分量的估计,然后可以按(4.2.2)作出β的估计。因为这里的方差分量是由方 差分析法作出的,故称为方差分析法。 推广到一般的方差分量模型时,基本原则是类似的。我们不妨考虑方差分量模型 = + + = + + + Y U U U U I Y X U U 2 2 2 2 1 1 2 2 1 1 1 2 2 Cov( ) (4.2.21) 先对总平方和 Y′Y 作平方和分解 Y Y = S + S + S + S 1 2 (4.2.22) 其中 Sβ是在模型 Y=Xβ+ε中,β的回归平方和: S = SES = YX XX XY − () ( ) (4.2.23) 1 S 是在模型 = + + Y X U1 1 中,消去β影响后ξ1 的平方和 ( , ) ( ) S1 = S ES 1 − S ES (4.2.24) 类似地, 2 S 是在模型 = + + + Y X U1 1 U2 2 中消去β和ξ1 影响后,ξ2 的平方和: ( , , ) ( , ) S 2 = EES 1 2 − S ES 1 (4.2.25) 最后的 Sε为残差平方和 ( , , ) S Y Y − SES 1 2 = (4.2.26) 可以验证 S = Y (I − D)Y (4.2.27) S1 = Y (D − D1 )Y (4.2.28)
S=2=Y(D1-D12)y (42.29) S=DMR 这里 D=7-X(XXX=l-Px (42.31) DU(UIDUJUD=D-PD D12=D1-DU2(),=D, -Pou (42.33) 这里P,表示关于*的投影阵 下面计算各平方和的均值。 E(SE)=BX(D-D)XB+tr(D-D) U1Uσ2+U2U22+a2门 BY(D-D)XB+tr(U,DU )02 tr(U'DU1o +tr(U,DU, )o tr(U,DU,)o,+tr(D-Do (42.34) 因为DX=0,DX=0,所以上式第一项为0。在第三项中, tr(U,DU=trUIDU-UIDU,(UIDUUDU=0 (42.35) 在第六项中 tr(D-Di)=tr[DU(UIDUD-UIDI trL(UDUUDUI k(UDU=rk(UID) rk(l X'-rk(X) rk(U X)-rk(X) (4.3.36) 所以最后有 (Sa)=cG2+(c2-c32+r2a2 (43.37) 其中 (UIDUD)
9 S 2 = Y (D1 − D12 )Y (4.2.29) S = YD12Y (4.2.30) 这里 PX D = I − X X X X = I − − ( ) (4.2.31) 1 1 1 1 1 1 ( ) D D DU U DU U D = D − PDU = − − (4.2.32) 12 1 1 2 2 1 2 2 1 1 1 2 ( ) D D DU U DU U D = D − PDU = − − (4.2.33) 这里 P*表示关于*的投影阵。 下面计算各平方和的均值。 2 2 2 2 2 1 1 1 1 2 1 1 1 1 2 2 2 2 2 2 1 1 1 1 1 1 tr( ) tr( ) ( ) tr( ) [ ] ( ) ( ) tr( ) U D U U DU X D D X U DU U U U U I E S X D D X D D − + = − + + + = − + − 2 1 2 2 1 2 2 tr( ) tr( ) U D U + D − D − (4.2.34) 因为 DX = 0,D1X = 0 ,所以上式第一项为 0。在第三项中, tr( 1 1 1 ) = tr[ 1 1 − 1 1 ( 1 1 ) 1 1 ] = 0 − U D U U DU U DU U DU U DU (4.2.35) 在第六项中 rk( ) rk( ) rk( ) rk( ) tr[( ) ] tr( ) tr[ ( ) ] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 U X X U D U U D U D U U D U D D D U U D U U D = − = = = − = − − rk( ) rk( ) = U1 X − X (4.3.36) 所以最后有 2 2 2 2 3 2 2 1 1 1 ( ) ( ) E S = c + c − c + r (4.3.37) 其中 tr( ) 1 U1DU1 c = (4.2.38)
C2=t(2DU2) c3=tr(U,,U2) (4.2.40) 1=k(X),n+n2=k(U1|X (42.41) 类似还可以求得 E(S2)=c2a2+n2 (42.42) E(S)=(n-n-r2-n1)2 r3=k(x:U1:U2)-r-2 (42.44) 于是我们得到方程组 C +rg 20 (n-r1-r2-r3)o 解此方程组,就可以得到2,G2,a2的估计。然后进入二步估计的第二步,就可以得到关于 固定效应的估计。 算例421市场收益率与股利和换手率的关系 考虑一个随机效应的多元线性模型 Y =X B+U5 U的形式如同(426) 问题的实际背景是,观测对象被分成了m组,可能存在一个随机效应向量对各组资料有 不同的作用。模型也可以写作 数据结构及具体数值如下表所示,m=6,k=6。这些资料采自《96上海股票市场资料总汇》。 我们研究目的一是看过去一年的股利收入与当年换手率对当年市场收益率有何影响,二是 想知道是否存在一个潜在的尚未观测到的随机效应,对行业有明显影响。当然这种情况采用方 差分量模型比较合适。 要注意本例是两个方差量,上一章第二节模型(32.10)也是两个待估的方差量。它们的随 机效应作用范围不一样,不是一回事
10 tr( ) 2 U2DU2 c = (4.2.39) tr( ) 3 U2D1U2 c = (4.2.40) rk( ), rk( | ) r1 = X r1 + r2 = U1 X (4.2.41) 类似还可以求得 2 3 2 2 2 2 ( ) E S = c + r (4.2.42) 2 1 2 3 ( ) ( ) E S = n − r − r − r (4.2.43) 3 1 2 1 2 r = rk(X U U ) − r − r (4.2.44) 于是我们得到方程组 = − − − = + = + − + 2 1 2 3 2 3 2 2 2 2 2 2 2 2 3 2 2 1 1 1 ( ) ( ) S n r r r S c r S c c c r (4.2.45) 解此方程组,就可以得到 2 2 2 2 1 , , 的估计。然后进入二步估计的第二步,就可以得到关于 固定效应的估计。 算例 4.2.1 市场收益率与股利和换手率的关系 考虑一个随机效应的多元线性模型 = + + 1 1 1 p n m m n n p Y X U U 的形式如同(4.2.6)。 问题的实际背景是,观测对象被分成了 m 组,可能存在一个随机效应向量对各组资料有 不同的作用。模型也可以写作 Y X i m j k ij ij i ij = + + , = 1, , , = 1, , 数据结构及具体数值如下表所示,m=6,k=6。这些资料采自《'96 上海股票市场资料总汇》。 我们研究目的一是看过去一年的股利收入与当年换手率对当年市场收益率有何影响,二是 想知道是否存在一个潜在的尚未观测到的随机效应,对行业有明显影响。当然这种情况采用方 差分量模型比较合适。 要注意本例是两个方差量,上一章第二节模型(3.2.10)也是两个待估的方差量。它们的随 机效应作用范围不一样,不是一回事