30 20% 61=20% 10%F=25% (2)=1l9 图1.1.1.2 E(r1)=F=11%与E(r2)=F=23%都恰好在套利平面,处于均衡状态。E(n)=17%也恰 好在套利平面,而元=25%在套利平面之上,于是存在套利机会。如果有较多的人认识到这个 机会都来大量购进证券Y,则Y的价格会上升,从而使Y的收益率下降而回落到套利平面的均 衡点上 通过本节实例,我们已经引入了多元线性回归模型。多元线性回归模型的解法、性质,如 何筛选自变量,如何克服观测资料存在的缺陷等,这些问题将通过这一章逐步解决。 第二节多元线性回归的基本原理 多元线性回归模型及其参数估计 多元线性回归考虑的是因变量Y与多个自变量X1,X2;…M之间的线性关系 Y=Bo+BX+B2x2+.+BXm+8 (1.2.1) 其中B0,B1,B2…;Bm是未知参数,X,羟2;…,m是m个可以精确测量并可控制的一般变量,ε 是随机误差。通常我们假定 E(a=0, Var(a=o (1.2.2) 在作显著性检验或 Bayes分析等许多情况下,我们作更强的假定:
6 图 1.1.1.2 E(rx ) = rx = 11% 与 E(r z ) = r z = 23% 都恰好在套利平面,处于均衡状态。E(rY)=17% 也恰 好在套利平面,而 Y r =25%在套利平面之上,于是存在套利机会。如果有较多的人认识到这个 机会都来大量购进证券 Y,则 Y 的价格会上升,从而使 Y 的收益率下降而回落到套利平面的均 衡点上。 通过本节实例,我们已经引入了多元线性回归模型。多元线性回归模型的解法、性质,如 何筛选自变量,如何克服观测资料存在的缺陷等,这些问题将通过这一章逐步解决。 第二节 多元线性回归的基本原理 一、多元线性回归模型及其参数估计 多元线性回归考虑的是因变量 Y 与多个自变量 X1,X2,…,Xn 之间的线性关系 = + + + + + Y 0 1X1 2X2 m X m (1.2.1) 其中β0,β1,β2,…,βm 是未知参数,X1,X2,…,Xm是 m 个可以精确测量并可控制的一般变量,ε 是随机误差。通常我们假定 2 E() = 0, Var() = (1.2.2) 在作显著性检验或 Bayes 分析等许多情况下,我们作更强的假定: 20% 30% 10% ry = 25 % E(ry ) = 17% rx = E(rx ) = 11% 1 2 3 δ1=20% E(rz)=23% 0.5 1 1.5
N(0,a2) (1.2.3) 为了估计回归系数B0,B1…,Bm,我们对变量进行了n次观察,得到n组观察资料(YX,X2… Xm),=1,…。一般要求nm。于是回归关系可写为 =B0+B2x1+B2X12+…+Bmxm+5 2=B+B1X21+B2X22+…+BmX2m+E2 (1.2.4) Bo +B,Xn+B, B 其中E1,E2,…,en独立同分布,都满足(1.2.2) 我们要采用矩阵形式来表示(1.2.4)。令 XM X 1 X, X X X 1X, X B B 则多元线性回归模型为 其中n×(m+1)矩阵X称为回归设计矩阵,一般情况下我们假定X列满秩,即r(X)=m+1。关 于误差的假定与(1.2.2)对应为 E(a=0, Var(8)=o-l (1.2.6) 其中Ln为单位阵。与(1.2.3)对应为 N(0,02l (1.2.7) (1.2.5)与(1.2.6)(或与(1.2.7)合在一起称为多元线性模型 下面求模型参数的最小二乘估计( Least Square estimate,LSE)。残差平方和S(B)为 S(B)=(r-XBrr-XB (, -Bo-B,X lY-XBl 最小二乘法则即要求β=(B,B,…Bn)使
7 ~ (0, ) 2 N (1.2.3) 为了估计回归系数β0,β1,…,βm,我们对变量进行了 n 次观察,得到 n 组观察资料(Yi,Xi1,Xi2,… Xim),i=1,…,n。一般要求 n>m。于是回归关系可写为 = + + + + + = + + + + + = + + + + + n n n m nm n m m m m Y X X X Y X X X Y X X X 0 1 1 2 2 2 0 1 21 2 22 2 2 1 0 1 11 2 12 1 1 (1.2.4) 其中ε1,ε2,…,εn 独立同分布,都满足(1.2.2)。 我们要采用矩阵形式来表示(1.2.4)。令 = = = = n n n nm m m n X X X X X X X X X X Y Y Y Y 2 1 0 1 0 1 2 21 22 2 11 12 1 2 1 , 1 1 1 , 则多元线性回归模型为 Y = X + (1.2.5) 其中 n×(m+1)矩阵 X 称为回归设计矩阵,一般情况下我们假定 X 列满秩,即 rk (X)=m+1。关 于误差的假定与(1.2.2)对应为 n E I 2 ( ) = 0, Var( ) = (1.2.6) 其中 In 为单位阵。与(1.2.3)对应为 ε~N(0,σ2 In) (1.2.7) (1.2.5)与(1.2.6)(或与(1.2.7)合在一起称为多元线性模型。 下面求模型参数的最小二乘估计(Least Square Estimate,LSE)。残差平方和 S(β)为 2 0 1 1 1 ( ) ( ) ( ) ( ) i i m im n i Y X X S Y X Y X = − − − − = − − = 2 = Y − X (1.2.8) 最小二乘法则即要求 ) ˆ , , ˆ , ˆ ( ˆ = 0 1 m 使
S(B)=min S(B) (1.2.9) 或记为 Y-xp -E →mm (1.2.10) 因为S(B)是B的二次可微函数,极值点处的各偏导数为0。采用矩阵微商记法 aS(P)=C[()(Y-XB) (rY-2YXB+BXXB -2XY+2XB=0 (1.2.11) (XXB=X (1.2.12) 它称为正规方程。若X列满秩,则X"X为非奇异阵,其逆矩阵存在,左乘(1.2.12)两边得β 的最小二乘解 B=(XXXY (1.2.13) 可以验证(1.2.13)确能使S(B)达最小值。分解S(B)得: S(=(r-XB)(r-XB Or-XB+XB-xB)(r-XB+XB-XB (-B)(-B)+(B-B)XX(B-B) S(B)+(B-B)XX(B-B) 2.14) 这是因为中间两个交叉项为0: (B-B)X(Y-XB)=(B-B)'X'TY-X(XX)"] (B-B)IXY-XX(XX)XY=0 (r- XB)X(B-B)=0 (1.2.15) 观察(1.2.14)第二项(B-B)XX(B-B)为非负定二次型,当且仅当B=B时它取得最小 值0,即SB)当且仅当B=B对取得最小值S() 下面研究B的基本统计性质,我们以定理形式叙述并证明
8 ) min ( ) ˆ S( = S (1.2.9) 或记为 − ⎯→min Y X (1.2.10) 因为 S(β)是β的二次可微函数,极值点处的各偏导数为 0。采用矩阵微商记法 ( 2 ) [( ) ( )] ( ) Y Y Y X X X Y X Y X S − + = − − = = −2X Y + 2X X = 0 (1.2.11) 即 (X ' X ) = X 'Y (1.2.12) 它称为正规方程。若 X 列满秩,则 X ' X 为非奇异阵,其逆矩阵存在,左乘(1.2.12)两边得β 的最小二乘解 = X X X Y −1 ( ) ˆ (1.2.13) 可以验证(1.2.13)确能使 S(β)达最小值。分解 S(β)得: ) ˆ ) ( ˆ ) ( ) ( ˆ ( ) ˆ ˆ ) ( ˆ ˆ ( ( ) ( ) ( ) = − − + − − = − + − − + − = − − Y X Y X X X Y X X X Y X X X S Y X Y X ) ˆ ) ( ˆ ) ( ˆ = S( + − X X − (1. 2.14) 这是因为中间两个交叉项为 0: ) [ ( ) ] 0 ˆ ( ) [ ( ) ] ˆ ) ( ˆ ) ( ˆ ( 1 1 = − − = − − = − − − − X Y X X X X X Y X Y X X Y X X X X Y ) 0 ˆ ) ( ˆ (Y − X X − = (1.2.15) 观察(1.2.14)第二项 ) ˆ ) ( ˆ ( − X X − 为非负定二次型,当且仅当 ˆ = 时它取得最小 值 0,即 S(β)当且仅当 ˆ = 对取得最小值 ) ˆ S( 。 下面研究 ˆ 的基本统计性质,我们以定理形式叙述并证明
定理1.2.1( Gauss markov)线性回归模型 Y=XB+8, E(a=0, Var(8)=o'l 中回归系数β的最小二乘解 XX-XY 1.2.17) 是B的唯一最小方差线性无偏估计 证明从β的表达式知B是子样Y的线性函数。又 E(B)=EIOXX-XY=(XX)"XE(Y))))))))) (XX)XXB=B (1.2.18) 故B是B的无偏估计。 B的协方差阵是 B=Cov(BL, B1)=(Xrr)XCov(r, n)X(rx) X)"XoI,X(XX) 0(XX) (1.2.19) 若7=C′Y是B的另一线性无偏估计,由无偏性要求,应有 E(刀=E(C=CE(=CXB=B 对一切B成立,即有 而T的协方差阵为 2r=Cov(TT)=C′Cov(yY)C=a2(C′C) (1.2.20) 因为 CC-(YY)-=CC+(XX)--(Yx--Y'X CC+(XX)(XX)"XC-CX(XX) C′-(XX)xC-(Xx)X]≥ (1.2.21) 这里矩阵≥0表示非负定矩阵。于是 X (1.2.22) 即有 2(XX)-≤a2(C
9 定理 1.2.1 (Gauss Markov)线性回归模型 n Y X I 2 = + , E( ) = 0,Var( ) = (1.2.16) 中回归系数β的最小二乘解 X X X Y 1 1 ( ) ˆ − = (1.2.17) 是β的唯一最小方差线性无偏估计。 证明 从 ˆ 的表达式知 ˆ 是子样 Y 的线性函数。又 ) [( ) ] ( ) ( ) ˆ ( 1 1 E = E X X X Y = X X X E Y − − = = − X X X X 1 ( ) (1.2.18) 故 ˆ 是β的无偏估计。 ˆ 的协方差阵是 1 2 1 1 1 ˆ ( ) ( ) ) ( ) ( , ) ( ) ˆ , ˆ ( − − − − = = = X X X I X X X Cov X X X Cov Y Y X X X n L L 2 1 ( ) − = X X (1.2.19) 若 T=C′Y 是β的另一线性无偏估计,由无偏性要求,应有 E(T)=E(C′Y)=C′E(Y)=C′Xβ=β 对一切β成立,即有 C′X=Im+1 而 T 的协方差阵为 ΣT=Cov(T,T)=C′Cov (Y,Y)C=σ2 (C′C) (1.2.20) 因为 1 1 1 1 1 1 1 ( ) ( ) ( ) ( ) ( ) ( ) ( ) − − − − − − − = + − − − = + − − C C X X X X X C C X X X C C X X C C X X X X X X [ ( ) ][ ( ) ] 0 1 1 = − − − − C X X X C X X X (1.2.21) 这里矩阵≥0 表示非负定矩阵。于是 C′C≥(X′X)-1 (1.2.22) 即有 X X C C = T = − ( ) ( ) 2 1 2 ˆ (1.2.23)
由于T是任选的一个线性无偏估计,所以最小二乘估计B是B的最小方差线性无偏估计 下证唯一性。设T=CY是B的某一个最小方差线性无偏估计,则必有∑r=Σ;即 CC=(XX)-,由(1.1.21)知,C’=X)X,即T=C′Y=(xxxY=B 证毕 需要指出的是,B的LSE的最小方差性是局限在线性无偏估计类中的,如果考虑B的一 切无偏估计类,LSE就不一定是方差最小者。进一步,如果在β的有偏估计中考虑,LSE就 更不见得是方差最小了。 下面我们考虑σ2的估计。与一元情况类似,我们应该用残差平方和去构造它。记 Y=Y-Y=Y-XB=Y-X(XX-YY I-X(XX)"Xr (1.2.24) Y称为剩余向量,或残差向量。记 P=1-X(XX)X (1.2.25) 则Y=PxY。Px称为投影阵。容易验证投影阵有如下简单性质: Pr=pr, Px.Pr, PxX=0 (1.2.26) rk(Px)=tr(Px)=trL,-X(XX)"XT tr(In )-tr(XX)X) =n-tr(Xx)"XX=n-tr(mD) n-m-1 (1.2.27) 残差向量Y与LSEB是互不相关的,因为 Cov(r, B)=CoV(Pr,(xx)Xn) Py Cov(r, rI(Xx)"XI (1.2.28) P1X(X)-=0 残差Y的均值向量与协方差阵分别是 E(Y)=E(Y-BB)=HB-X(XX)-XXB=0(1.2.29) Cov(Y, Y)=P Cov(r,XPx=pro,px =o Px (1.2.30) 记残差平方和
10 由于 T 是任选的一个线性无偏估计,所以最小二乘估计 ˆ 是β的最小方差线性无偏估计。 下证唯一性。设 T = C′Y 是β的某一个最小方差线性无偏估计,则必有 T = ˆ 即 1 ( ) − CC = X X ,由(1.1.21)知,C′=(X′X) -1X′,即 T=C′Y=(X′X) -1X′Y= ˆ 。 证毕 需要指出的是,β的 LSE 的最小方差性是局限在线性无偏估计类中的,如果考虑β的一 切无偏估计类,LSE 就不一定是方差最小者。进一步,如果在β的有偏估计中考虑,LSE 就 更不见得是方差最小了。 下面我们考虑σ2 的估计。与一元情况类似,我们应该用残差平方和去构造它。记 Y = Y −Y = Y − X = Y − X X X X Y −1 ( ) ˆ ˆ ~ [I n X (X X ) X ]Y 1 = − − (1.2.24) Y ˆ 称为剩余向量,或残差向量。记 PX = I n − X X X X −1 ( ) (1.2.25) 则 Y ˆ =PXY。PX 称为投影阵。容易验证投影阵有如下简单性质: PX = PX , PX PX , PX X = 0 (1.2.26) tr( ) tr( ) tr( ) - tr( ) ) rk( ) tr( ) tr[ ( ) ] 1 1 1 1 + − − − = − = − = = = − m n X X n n X X X X n I I X X X P P I X X X X = n −m−1 (1.2.27) 残差向量 Y ˆ 与 LSE ˆ 是互不相关的,因为 ( ) 0 Cov( , )[( ) ] ) Cov( ,( ) ) ˆ , ~ Cov( 2 1 1 1 = = = = − − − P X X X P Y Y X X X Y P Y X X X Y X X X (1.2.28) 残差 Y ˆ 的均值向量与协方差阵分别是 ) ( ) 0 ˆ ) ( ~ ( 1 = − = − = − E Y E Y X X X X X X X (1.2.29) X X X nPX PX Y Y P Y X P P I 2 2 ) Cov( , ) ~ , ~ Cov( = = = (1.2.30) 记残差平方和