第七章 线性回归模型 §7.1 引言 线性回归模型是现代统计学中应用最为广泛的模型之一,它也是其它统计模型研究或应用 的基础。这主要有下列几个原因: 1.在实际问题中,变量之间的关系常具有线性或近似线性的依赖关系。 2.在现实世界中,虽然许多变量间的关系是非线性的,但经过适当的变换,将会成为线性 关系。 3.线性关系是变量之间最简单的关系,容易处理,理论和方法比较完善,这些为实际应用 提供了有效算法。 本节将通过实例说明线性统计模型的背景和分类。 一、一元线性回归模型 变量之间的关系大致可分为确定性关系和非确定性关系两大类,数理统计是处理非确定性 变量统计规律性的学科。线性回归模型是非确定性(具有随机性)变量之间关系的最基本的模型 之一,如人的体重(Y)与身高(X)之间有一定的相依关系:当X大时,Y也倾向于大,但X不 能严格决定Y。小麦产量(Y)与小麦品种(X)、施肥量(X2)和浇水量(X3)有一定的关系,但还 不能严格利用数学函数关系表达它们之间的关系。 以上例子中,通常称Y为因变量或响应变量,称X为自变量。Y的值有两部分组成:一部 分是能够由X决定的部分,它是X的函数,记为f(X):另一部分是由其它众多未加考虑的因素 产生的影响,称为随机误差,故有: Y=f(X)+e, (7.1.1) 这里e作为随机误差,假定E()=0。特别,当f(X)是线性函数时,f(X)=Bo+BX,则有 Y=Bo +B1X +e. (7.1.2) (71.2)式称为线性回归模型或线性回归方程,其中B和B1未知,常数项是回归直线y= B0+B1X的截距,B1是斜率。 设有一组样本(x,),i=1,2…n,将上述模型用样本表示为 y=B0+6xi+ei,i=1,2.··n. (7.1.3) e:为随机误差。若用适当的估计方法求得o,B1的估计为%和1,代入到(7.1.2)中将误差项©:用 其均值0代替,得到 Y=o+31X, (7.1.4) 称为经验回归方程,它是由n组样本观察值获得的。如果经检验,是合适的回归方程,则(71.4) 刻画了Y与X之间的相关关系
1 ‘ Ÿ Ç 5 £ 8 . §7.1 ⁄ Û Ç5£8.¥yì⁄OÆ•A^Åè2ç.Éòßß襟ß⁄O.Ôƒ½A^ ƒ:"˘ÃákeA᜵ 1. 3¢SØK•ßC˛Ém'X~‰kÇ5½CqÇ5ù6'X" 2. 3y¢.•ßè,NıC˛m'X¥öÇ5ß²L·CÜßÚ¨§èÇ5 'X" 3. Ç5'X¥C˛ÉmÅ{¸'XßN¥?nßnÿ⁄ê{'ıߢ è¢SA^ J¯ ké{" !ÚœL¢~`²Ç5⁄O.µ⁄©a" ò!òÇ5£8. C˛Ém'Xåóå©è(½5'X⁄ö(½5'X¸åaßÍn⁄O¥?nö(½5 C˛⁄O5Æ5Æâ"Ç5£8.¥ö(½5(‰këÅ5)C˛Ém'XŃ. ÉòßX<N(Y ) Üp(X) Émkò½Éù'XµX åûßY èñïuåßX ÿ UÓÇ˚½Y "ð˛(Y ) Üð¨´(X1)!ñù˛(X2) ⁄Y˛(X3) kò½'XßÑ ÿUÓÇ|^ÍÆºÍ'XLàßÇÉm'X" ±˛~f•ßœ~°Y èœC˛½èAC˛ß°X ègC˛"Y äk¸‹©|§µò‹ ©¥U dX ˚½‹©ßߥX ºÍßPèf(X)¶,ò‹©¥dŸßØıô\ƒœÉ )Kèß°èëÅÿßkµ Y = f(X) + e, (7.1.1) ˘peäèëÅÿßb½E(e) = 0"AOßf(X)¥Ç5ºÍûßf(X) = β0 + β1XßKk Y = β0 + β1X + e. (7.1.2) (7.1.2) ™°èÇ5£8.½Ç5£8êßߟ•β0 ⁄β1 ôß~Íëβ0 ¥£8ÜÇy = β0 + β1X Âßβ1 ¥«" kò|(xi , yi), i = 1, 2 · · · nßÚ˛„.^L´è yi = β0 + β1xi + ei , i = 1, 2 · · · n. (7.1.3) ei èëÅÿ"e^·Oê{¶β0, β1 Oèβb0 ⁄βb1 ßì\(7.1.2)•Úÿëei ^ Ÿ˛ä0ìOß Y = βb0 + βb1X, (7.1.4) °è²£8êßßߥdn|* äº"XJ²uߥ‹·£8êßßK(7.1.4) èx Y ÜX ÉmÉ''X" 1
例7.1.1设身高(X)与体重(Y)之间有近似回归关系(7.1.2),e表示除了身高X,所有影响体 重(Y)的其他因素(如遗传、饮食、锻炼等),假定调查了n个人的身高和体重得样本(红,),i= 1,2,…,n,估计0和3得B0=-40,3=0.6,则经验回归方程为 Y=-40+0.6X. (7.1.5) 如果甲身高160cm,算得体重0=56kg,称0=56为身高160cm的体重的预测值。 二、多元线性回归模型 实际问题中影响因变量的自变量往往不止一个,如有X1,X2,…,Xp-1,则它们有如下线性 关系: Y=0+B1X1+…+Bp-1Xp-1+e, (7.1.6) 若有样本(1,x2,…,xp-1,),i=1,2,…,n,则有 :=B0+B1x1+·+Bp-1xp-1+e, (7.1.7) e:为随机误差,将上述方程组用矩阵表: 1 111 T12 T1P-1 Bo T21 T22 T2p-1 3 e2 .. 1 In.1 In.2 np-1 Bp-1 en 即 Unx1=XnxpBpx1+enx1, (7.1.8) 其中y为观测向量,X称为设计阵(习惯称法),B为未知回归参数向量,e是随机误差向量,关 于e通常有两种假定: (1)Gauss-Markovf假定(简称G-M假定):E(e)=0,Cou(e)=o2L,即: (a)E(e)=0,i=l,2,…, (b)Var(e)=o2,i=1,2,…,n; (c)Co(ei,e)=0,i,j=1,2,…,n,且i≠j: (2)正态假定:e~Nn(0,o2I),即e1,·,en相互独立,具有相同分布N(0,o2), 若利用样本对B,1,…,Bp-1作出估计,估计量为o,,…,p-1,则 Y=b0+B1X1+…+Bp-1Xp-1 (7.1.9) 称为经验回归方程,它是否真正描述了Y和X1,X2,·,Xp-1之间的关系,还需要进行检验。 三、可化为线性模型的情形 有些模型表面上是非线性的,但是经过适当变换,可以化为线性模型,请看下例: 2
~7.1.1 p(X) ÜN(Y ) ÉmkCq£8'X(7.1.2)ßeL´ÿ pX ß§kKèN (Y ) Ÿ¶œÉ(X¢D!ÿ†!‚ı)ßb½N ná<p⁄N(xi , yi), i = 1, 2, · · · , nßOβ0 ⁄β1 βb0 = −40, βb1 = 0.6ßK²£8êßè Y = −40 + 0.6X. (7.1.5) XJ`p160 cmßéNy0 = 56 kgß°y0 = 56èp160cmN˝ˇä" !ıÇ5£8. ¢SØK•KèœC˛gC˛ ÿéòáßXkX1, X2, · · · , Xp−1ßKßÇkXeÇ5 'Xµ Y = β0 + β1X1 + · · · + βp−1Xp−1 + e, (7.1.6) ek(xi1, xi2, · · · , xip−1, yi), i = 1, 2, · · · , nßKk yi = β0 + β1xi1 + · · · + βp−1xip−1 + ei , (7.1.7) ei èëÅÿßÚ˛„êß|^› Lµ y1 y2 . . . yn = 1 x11 x12 · · · x1,p−1 1 x21 x22 · · · x2,p−1 . . . . . . . . . . . . . . . 1 xn,1 xn,2 · · · xn,p−1 β0 β1 . . . βp−1 + e1 e2 . . . en , =µ yn×1 = Xn×pβp×1 + en×1, (7.1.8) Ÿ•y è*ˇï˛ßX °èO (S.°{)ßβ èô£8ÎÍï˛ße¥ëÅÿï˛ß' ueœ~k¸´b½µ (1) Gauss)Markovb½({°G-Mb½)µE(e) = 0, Cov(e) = σ 2 I, =µ (a) E(ei) = 0, i = 1, 2, · · · , n; (b) V ar(ei) = σ 2 , i = 1, 2, · · · , n; (c) Cov(ei , ej ) = 0, i, j = 1, 2, · · · , n,Öi 6= j. (2) b½µe ∼ Nn(0, σ2 I), =e1, · · · , en Ép’·ß‰kÉ”©ŸN(0, σ2 ). e|^Èβ0, β1, · · · , βp−1 ä—OßO˛èβb0, βb1, · · · , βbp−1ßK Y = βb0 + βb1X1 + · · · + βbp−1Xp−1 (7.1.9) °è²£8êßßߥƒ˝£„ Y ⁄X1, X2, · · · , Xp−1 Ém'XßÑIá?1u" n!åzèÇ5.ú/ k .L°˛¥öÇ5ߥ²L·CÜßå±zèÇ5.ßûwe~µ 2
例7.l.2在著名的经济学的Cobb-Duglas生产函数为: Qt aLKf, (7.1.10) 其中Q、L:和K:分别表示为t年的产值、劳力投入和资金投入,a,b,c为参数。表面上 是(7.1.10)是非线性关系,若将两边取对数得 In Qt Ina +bln Lt +cln Kt, 令lnLt=Xt1,nKt=X2,班=lnQt,o=na,B1=b,2=c,则有 班=f0+月X1+B2X2+et,t=1,2,…,T. (7.1.11) 这就转化成线性模型的形式。 例7.1.3多项式回归,因变量Y和自变量X之间具有下列关系 Y=B0+31X+B2X2+…+B.Xk+e, 这是一个k次多项式,若令X1=XX2=X2,·,Xk=X*,则 Y=Bo+B1X1+B2X2+...+BkXk +e, 就变为一个线性模型的形式。 注:“回归”一词的由来:英国生物统计学家Galton在研究人类遗传问题时提出“Regression” 一词,他收集1078对父子身高数据,用X一父亲身高,Y一儿子身高,单位:英寸。把(x,)标在 直角坐标纸上,大致成一直线,其规律大致:(1)父亲身高X增加时,儿子身高Y也增加,这与 常识一致:(2)属于高个子的那类父亲的儿子的平均身高要比父亲的平均身高低,反之属于矮 个子那类父亲的儿子的平均身高要比父亲的高。即反映了一个现象:身高超过平均高度(1078个 父亲平均身高)元=68英寸的,他们的儿子的平均身高将低于父亲的身高:反之身高低于平均 高度x=68英寸的儿子的平均身高要高于父亲的平均身高。Golton解释:大自然有一种约束力, 人的身高向中间值“回归”,不会两极分化。这就是所谓的回归效应。 四、应用 对回归模型所进行的统计分析,通常称为回归分析。回归分析的实际应用归纳起来主要有 以下几个方面: 1.描述变量之间的关系:找出对Y有重要相关关系的因变量,建立回归方程(变量选择一 检验一诊断): 2.分析变量之间关系:通过对回归系数的估计,建立经险回归方程 Y=50+31X1+…+fp-1Xp-1
~7.1.2 3Õ¶²LÆCobb-Duglas)ºÍèµ Qt = aLb tKc t , (7.1.10) Ÿ• Qt!Lt ⁄Kt ©OL´è t cä!N›\⁄]7›\ßaßbßc èÎÍ"L°˛ ¥(7.1.10)¥öÇ5'XßeÚ¸>ÈÍ ln Qt = ln a + b lnLt + c ln Kt, -lnLt = Xt1, ln Kt = Xt2, yt = ln Qt, β0 = ln a, β1 = b, β2 = cßKk yt = β0 + β1Xt1 + β2Xt2 + et, t = 1, 2, · · · , T. (7.1.11) ˘“=z§Ç5./™" ~7.1.3 ı뙣8ßœC˛Y ⁄gC˛X Ém‰ke'X Y = β0 + β1X + β2X2 + · · · + βkXk + e, ˘¥òák gıë™ße-X1 = X, X2 = X2 , · · · , Xk = XkßK Y = β0 + β1X1 + β2X2 + · · · + βkXk + e, “CèòáÇ5./™" 5µ/£80òcd5µ=I)‘⁄OÆ[Galton3Ôƒ<a¢DØKûJ—/Regression0 òcß¶¬81078ÈIfpÍ‚ß^X )IäpßY )fp߸†µ=Ä"r(xi , yi)I3 ÜãIí˛ßåó§òÜÇߟ5Æåóµ(1) IäpX O\ûßfpY èO\ß˘Ü ~£òó¶(2) ·upáf@aIäf²˛pá'I䲞p$ßáÉ·uL áf@aIäf²˛pá'Iäp"=áN òáyñµpáL²˛p›(1078á I䲞p) x = 68=Äß¶Çf²˛pÚ$uIäp¶áÉp$u²˛ p›x = 68=Äf²˛pápuI䲞p"Golton)ºµåg,kò´ÂÂß <pï•mä/£80ßÿ¨¸4©z"˘“¥§¢£8A" o!A^ È£8.§?1⁄O©¤ßœ~°è£8©¤"£8©¤¢SA^8BÂ5Ãák ±eAáê°µ 1. £„C˛Ém'XµÈ—ÈY káÉ''XœC˛ßÔ·£8êß(C˛¿J) u)‰§¶ 2. ©¤C˛Ém'XµœLÈ£8XÍOßÔ·²£8êß Y = βb0 + βb1X1 + · · · + βbp−1Xp−1. 3
回归系数:的估计量:(i=0,1,…,p-1)的大小在一定程度上反映了X对Y的影响的大小。 另一方面,应用一些统计分析方法,还可以分析自变量之间存在的相关关系。 3.预测:点预测、区间预测。 §7.2 若干预备知识 一、均值向量与协方差阵 定义7.2.1设X=(X1,X2,…,Xn'为随机向量,则称 E(X)=(E(X1),E(X2),·,E(Xn) 为随机向量X的均值向量,称n×n阶对称阵 Cou(X)=E[(X -EX)(X -EX)]=(Cou(Xi,Xj))xn 为随机向量X的协方差阵,其中 Cov(Xi;Xj)=E(Xi-EXi)(Xj-EXj). 当i=j时,Cou(X,X)=Var(X. 定理7.2.1设X和b分别为n×1维和m×1维的随机向量,A是m×n阶的非随机矩阵, 记Y=AX+b,则 E(Y)=E(AX +6)=AE(X)+E(6). 证明:设A=(a)m×n,b=(b1,b2,,bm)',X=(X1,X2,…,Xn)',Y=(Y,Y,…,Ym)', 则由Y=AX+b可知 =∑X+ j=1 E0)=∑aECX)+Eb).i=1,2…,m j=1 推论72.1rCo(X】-∑Var(X,此处rA标识方阵A的迹. i=1 定理7.2.2设Xx1为随机向量,则有Cou(X)=(Co(X,X)nxn≥0. 证明:设c为任一非随机向量,按定义只要证明cCou(X)c≥0.记Y=dX,则 Var(Y)Var(c'X)=E[c'X-c'E(X)]2 =E[c'(X-E(X)(X-EX)'c] =c'E[(X-EX)(X-EX)]c =cCow(X)c≥0
£8XÍβiO˛βˆ i (i = 0, 1, · · · , p − 1) å3ò½ß›˛áN Xi ÈYi Kèå" ,òê°ßA^ò ⁄O©¤ê{ßÑ屩¤gC˛Ém3É''X" 3. ˝ˇµ:˝ˇ!´m˝ˇ" §7.2 e Z ˝ £ ò!˛äï˛Üê ½¬7.2.1 X = (X1, X2, · · · , Xn) 0 èëÅï˛ßK° E(X) = E(X1), E(X2), · · · , E(Xn) 0 èëÅï˛X ˛äï˛ß°n × n Ȱ Cov(X) = E[(X − EX)(X − EX) 0 ] = Cov(Xi , Xj ) n×n èëÅï˛X ê ߟ• Cov(Xi , Xj ) = E(Xi − EXi)(Xj − EXj ). i = j ûßCov(Xi , Xi) = V ar(Xi). ½n7.2.1 X ⁄b©Oèn × 1ë⁄m × 1ëëÅï˛ßA¥m × n öëÅ› ß PY = AX + bßK E(Y ) = E(AX + b) = AE(X) + E(b). y²µA = (aij )m×n, b = (b1, b2, · · · , bm) 0 , X = (X1, X2, · · · , Xn) 0 , Y = (Y1, Y2, · · · , Ym) 0 , Kd Y = AX + b å Yi = Xn j=1 aijXj + bi E(Yi) = Xn j=1 aijE(Xi) + E(bi), i = 1, 2, · · · , m. Ìÿ7.2.1 tr[Cov(X)] = Xn i=1 V ar(Xi), d?trA I£ê A," ½n7.2.2 Xn×1 èëÅï˛ßKkCov(X) = Cov(Xi , Xj ) n×n ≥ 0. y²µcè?òöëÅï˛ßU½¬êáy²c 0Cov(X)c ≥ 0.PY = c 0XßK V ar(Y ) = V ar(c 0X) = E[c 0X − c 0E(X)]2 = E[c 0 X − E(X) X − EX0 c] = c 0E[(X − EX)(X − EX) 0 ]c = c 0Cov(X)c ≥ 0, 4
故知Cou(X)≥0. ▣ 定理7.2.3设A为m×n阵,Xmx1为随机向量,Y=AX,则Cou(Y)=ACow(X)A'. 证明: Cov(Y)=E[(AX-AEX)(AX-AEX)] =AE[(X-EX)(X-EX)门A' ACov(X)A'. 口 定理7.2.4设X和Y分别为n×1维和m×1维的随机向量,Apxn和B,×m为常数阵, Cov(AX,BY)=ACou(X,Y)B'. 证明:从定义出发。 口 二、随机向量的二次型 定义7.2.2设Xnx1=(X1,X2,…,Xn/为n×1维随机向量,A=(a)为n×n对称阵,则 =1 称为随机向量X的二次型。 如何求二次型的均值、方差,我们有下述定理: 定理7.2.5设随机向量Xnx1有E(X)=4nx1,Co(X)=2nxn,则 E(X'AX)='Aμ+tr(A). 证明: X'AX=[X-m)+'A[(X-四)+4 =(X-)'A(X-)+2A(X-))+'A, 由于EA(X-]='AE(X-)=0,故有 E(X'AX)=E[(X-)}'A(X-]+μ'A4 =E[tr(A(X-)(X-))]+A4 =trAE[(X-(X-)门]+μ'A4 tr[ACou(X)]+u'Au tr(AE)+'Au. 特别: (1)当4=0时,E(X'AX)=trA∑: (2)当∑=σ2I时,E(XAX)=4Aμ+o2trA: (3)当4=0,∑=I时,E(XAX)=trA. 例7.2.1设随机变量X为一维总体,E(X)=4,Var(X)=D(X)=o2,X1,X2,…,Xn为 从此总体中抽取的样本,求E(5,其中S3=n二(X-X 5
Cov(X) ≥ 0. ½n7.2.3 Aèm × n ßXn×1 èëÅï˛ßY = AXßKCov(Y ) = ACov(X)A0 . y²µ Cov(Y ) = E[(AX − AEX)(AX − AEX) 0 ] = AE[(X − EX)(X − EX) 0 ]A 0 = ACov(X)A 0 . ½n7.2.4 X ⁄ Y ©Oè n × 1 ë⁄ m × 1 ëëÅï˛ßAp×n ⁄ Bq×m è~Í ß K Cov(AX, BY ) = ACov(X, Y )B0 . y²µl½¬—u" !ëÅï˛g. ½¬7.2.2 Xn×1 = (X1, X2, · · · , Xn) 0 èn × 1ëëÅï˛ßA = (aij )èn × nȰ ßK X0AX = Xn i=1 Xn j=1 aijXiXj °èëÅï˛X g." X¤¶g.˛ä!ê, ·Çke„½nµ ½n7.2.5 ëÅï˛Xn×1 kE(X) = µn×1, Cov(X) = Σn×nßK E(X0AX) = µ 0Aµ + tr(AΣ). y²µ X0AX = [(X − µ) + µ] 0A[(X − µ) + µ] = (X − µ) 0A(X − µ) + 2µ 0A(X − µ) + µ 0Aµ, duE[µ 0A(X − µ)] = µ 0AE(X − µ) = 0, k E(X0AX) = E[(X − µ) 0A(X − µ)] + µ 0Aµ = E tr A(X − µ)(X − µ) 0 + µ 0Aµ = trAE[(X − µ)(X − µ) 0 ] + µ 0Aµ = tr[ACov(X)] + µ 0Aµ = tr(AΣ) + µ 0Aµ. AOµ (1) µ = 0ûßE(X0AX) = trAΣ¶ (2) Σ = σ 2 I ûßE(X0AX) = µ 0Aµ + σ 2 trA¶ (3) µ = 0, Σ = I ûßE(X0AX) = trA. ~7.2.1 ëÅC˛X èòëoNßE(X) = µ, V ar(X) = D(X) = σ 2 , X1, X2, · · · , Xn è ldoN•ƒß¶E(S 2 )ߟ•S 2 = 1 n − 1 Xn i=1 (Xi − X) 2 . 5