第九章多元线性回归与多项式回归 直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学 领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量 这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多 个自变量间的回归分析,即多元回归分析( multiple regression analysis),而其中最为简单 常用并且具有基础性质的是多元线性回归分析( multiple linear regression analysis),许多非 线性回归(non- linear regression)和多项式回归( polynomial regression)都可以化为多元 线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想 方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分 析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进 行计算 第一节多元线性回归分析 多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量 对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显 著性:检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线 性影响的自变量,建立最优多元线性回归方程:评定各个自变量对依变量影响的相对重要性 以及测定最优多元线性回归方程的偏离度等 多元线性回归方程的建立 (一)多元线性回归的数学模型设依变量y与自变量x1、x2、…、xm共有n组 实际观测数据 变量 VI x pn 假定依变量y与自变量x、x、…、xm间存在线性关系,其数学模型为: y=0+月x+B2x21+…+Bmxm+E (9-1) 式中,x、x2、…、xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观
162 第九章 多元线性回归与多项式回归 直线回归研究的是一个依变量与一个自变量之间的回归问题,但是,在畜禽、水产科学 领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比如绵羊的产毛量 这一变量同时受到绵羊体重、胸围、体长等多个变量的影响,因此需要进行一个依变量与多 个自变量间的回归分析,即多元回归分析(multiple regression analysis),而其中最为简单、 常用并且具有基础性质的是多元线性回归分析(multiple linear regression analysis),许多非 线性回归(non-linear regression)和多项式回归(polynomial regression)都可以化为多元 线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性回归分析的思想、 方法和原理与直线回归分析基本相同,但是其中要涉及到一些新的概念以及进行更细致的分 析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进 行计算。 第一节 多元线性回归分析 多元线性回归分析的基本任务包括:根据依变量与多个自变量的实际观测值建立依变量 对多个自变量的多元线性回归方程;检验、分析各个自变量对依自变量的综合线性影响的显 著性;检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线 性影响的自变量,建立最优多元线性回归方程;评定各个自变量对依变量影响的相对重要性 以及测定最优多元线性回归方程的偏离度等。 一、 多元线性回归方程的建立 (一)多元线性回归的数学模型 设依变量 y 与自变量 1 x 、 2 x 、…、 xm 共有 n 组 实际观测数据: 变量 序号 y 1 x 2 x … xm 1 1 y 11 x 21 x … m1 x 2 2 y 12 x 22 x … m2 x ┆ ┆ ┆ ┆ … ┆ n n y n x1 n x2 … mn x 假定依变量 y 与自变量 x1、x2、…、xm间存在线性关系,其数学模型为: j j j m mj j y = + x + x +...+ x + 0 1 1 2 2 (9-1) (j=1,2,…,n) 式中,x1、x2、…、xm为可以观测的一般变量(或为可以观测的随机变量);y 为可以观
测的随机变量,随x、、…、而变,受试验误差影响:E为相互独立且都服从N(0a2) 的随机变量。我们可以根据实际观测值对B、月1、B2、、Bn以及方差a2作出估计 (二)建立线性回归方程设y对x1、x2、…、xn的m元线性回归方程为 +b1x1+bx)+…十 其中的b、b1、b2…、b为B、月、压2…、Bn的最小二乘估计值。即b、b1、b2 bυ应使实际观测值y与回归估计值的偏差平方和最小 令Q=∑y- 1 Q为关于 b的m+1元函数。 根据微分学中多元函数求极值的方法,若使Q达到最小,则应有: oO xi( -bo (i=1、2 经整理得 nb+(Σx1)b1+(Σx2)b2 (∑xm)bm=习 (Ex, )bo+(Ex1b,+(Ex x2)b2+.+(Ex xm )bm= Ex,y (Σx2)b+(2x2x1)+(xx2)b2+…+(x2xm)bm=x2y (Cxm)+(Xxmx)+(Cxmx)2+…+(xm)m=∑xmy 由方程组(9-2)中的第一个方程可得 b=歹-bx1-b2x2 b x (9-3) 即 b=j-∑b 其中 x 若记 SPk=∑(x-x-)=SP6SP0=∑(x一xXy- 并将b=j-bx1-b2x2…-bmxm分别代入方程组(92)中的后m个方程,经整理可得到关 于偏回归系数b、b2、…、bm的正规方程组( normal equations)为 163
163 测的随机变量,随 x1、x2、…、xm而变,受试验误差影响; j 为相互独立且都服从 (0, ) 2 N 的随机变量。我们可以根据实际观测值对 0、1、 2、...、 m 以及方差 2 作出估计。 (二)建立线性回归方程 设 y 对 1 x 、 2 x 、…、 xm 的 m 元线性回归方程为: y = b0 + b1 x1 + b2 x2 ++ bmxm ˆ 其中的 b0 、 1 b 、b2 、…、 bm 为 0、1、 2 ...、 m 的最小二乘估计值。即 b0 、 1 b 、b2 、…、 bm 应使实际观测值 y 与回归估计值 y ˆ 的偏差平方和最小。 令 = = − n j j j Q y y 1 2 ( ˆ ) = = − − − − − n j j j j m mj y b b x b x b x 1 2 0 1 1 2 2 ( ) Q 为关于 b0 、 1 b 、b2 、…、 bm 的 m +1 元函数。 根据微分学中多元函数求极值的方法,若使 Q 达到最小,则应有: = = − − − − − − = n j j j j m mj y b b x b x b x b Q 1 0 1 1 2 2 0 2 ( ) 0 = = − − − − − − = n j i j j j j m mj i x y b b x b x b x b Q 1 2 ( 0 1 1 2 2 ) 0 ( i =1、2、…、 m ) 经整理得: + + + + = + + + + = + + + + = + + + + = x b x x b x x b x b x y x b x x b x b x x b x y x b x b x x b x x b x y n b x b x b x b y m m m m m m m m m m m m ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 0 1 1 2 2 2 2 2 2 2 0 2 1 1 2 1 1 2 2 1 1 2 1 0 1 0 1 1 2 2 (9-2) 由方程组(9-2)中的第一个方程可得 m m b = y − b x − b x −− b x 0 1 1 2 2 (9-3) 即 = = − m i i i b y b x 1 0 1 , 1 : 1 1 = = = = n j i ij n j j x n y x n 其中 y 若记 ( ) , 1 2 = = − n j i ij i SS x x = = − n j y j SS y y 1 2 ( ) = = − − = n j ik ij i kj k SPki SP x x x x 1 ( )( ) = = − − n j io ij i j SP x x y y 1 ( )( ) ( i 、 k =1、 2 、…、 m ; i k) 并将 b0 = y −b1 x1 −b2 x2 −−bm xm 分别代入方程组(9-2)中的后 m 个方程,经整理可得到关 于偏回归系数 1 b 、b2 、…、 bm 的正规方程组(normal equations)为:
6+ Spba SPmnbm s JSP21b1+ SS2b2++SPm bm = SP2o (9-4) 解正规方程组(9-4)即可得偏回归系数b、b2、…、bn的解,而 于是得到m元线性回归方程 y=bo+b,x,+b,x m元线性回归方程的图形为m+1维空间的一个平面,称为回归平面;b称为回归常数 项,当x1=x2=…=xm=0时,j=0在b有实际意义时,b表示y的起始值;b(i=1、2、…、 m)称为依变量y对自变量x的偏回归系数( partial regression coefficient),表示除自变量 x以外的其余m-1个自变量都固定不变时,自变量x每变化一个单位,依变量y平均变化 的单位数值,确切地说,当b>0时,自变量x每增加一个单位,依变量y平均增加b个单 位;当b<0时,自变量x;每增加一个单位,依变量y平均减少b个单位。 若将b=j-b1-b2x2-…-bn买代入上式,则得 (9-5)式也为y对x1、x2、…、xn的m元线性回归方程。 对于正规方程组(9-4),记 则正规方程组(94)可用矩阵形式表示为 SP ss b2 SP (9-6) Ab= B 其中A为正规方程组的系数矩阵、b为偏回归系数矩阵(列向量)、B为常数项矩阵(列向 量)。 设系数矩阵A的逆矩阵为C矩阵,即A=C,则 SPmn!SPm2…SSm nI Cm2 其中:C矩阵的元素cn(i,户=1、2、…、m)称为高斯乘数,是多元线性回归分析中显著 性检验所需要的。 关于求系数矩阵A的逆矩阵A的方法有多种,如行(或列)的初等变换法等,请参阅 线性代数教材,这里就不再赘述 对于矩阵方程(9-7)求解,有
164 + + + = + + + = + + + = m1 1 2 2 0 21 1 2 2 2 20 1 1 12 2 1 10 SP m m m m m m m m b SP b SS b SP SP b SS b SP b SP SS b SP b SP b SP (9-4) 解正规方程组(9-4)即可得偏回归系数 1 b 、b2 、…、 bm 的解,而 m m b = y − b x − b x −− b x 0 1 1 2 2 于是得到 m 元线性回归方程 m m y = b + b x + b x ++ b x 0 1 1 2 2 ˆ m 元线性回归方程的图形为 m +1 维空间的一个平面,称为回归平面; b0 称为回归常数 项,当 1 x = 2 x =…= xm =0 时, y ˆ = 0, 在 b0 有实际意义时, b0 表示 y 的起始值; i b ( i =1、2、…、 m )称为依变量 y 对自变量 i x 的偏回归系数(partial regression coefficient),表示除自变量 i x 以外的其余 m −1 个自变量都固定不变时,自变量 i x 每变化一个单位,依变量 y 平均变化 的单位数值,确切地说,当 i b >0 时,自变量 i x 每增加一个单位,依变量 y 平均增加 i b 个单 位;当 i b <0 时,自变量 x i 每增加一个单位,依变量 y 平均减少 i b 个单位。 若将 m m b = y − b x − b x −− b x 0 1 1 2 2 代入上式,则得 ˆ ( ) ( ) ( ) 1 1 1 2 2 2 m m m y = y + b x − x + b x − x ++ b x − x (9-5) (9-5)式也为 y 对 1 x 、 2 x 、…、 xm 的 m 元线性回归方程。 对于正规方程组(9-4),记 = m m m m m SP SP SS SP SS SP SS SP SP A 1 2 21 2 2 1 12 1 , = bm b b b 2 1 , = 0 20 10 SPm SP SP B 则正规方程组(9-4)可用矩阵形式表示为 = 0 20 10 2 1 1 2 21 2 2 1 12 1 m m m m m m m SP SP SP b b b SP SP SS SP SS SP SS SP SP (9-6) 即 Ab = B (9-7) 其中 A 为正规方程组的系数矩阵、b 为偏回归系数矩阵(列向量)、B为常数项矩阵(列向 量)。 设系数矩阵 A 的逆矩阵为 C 矩阵,即 A = C −1 ,则 = = = − − m m mm m m m m m m m c c c c c c c c c S P S P S S S P S S S P S S S P S P C A 1 2 21 22 2 11 12 1 1 1 2 21 2 2 1 12 1 1 其中:C 矩阵的元素 ij c ( i ,j=1、2、…、 m )称为高斯乘数,是多元线性回归分析中显著 性检验所需要的。 关于求系数矩阵 A 的逆矩阵 A-1 的方法有多种,如行(或列)的初等变换法等,请参阅 线性代数教材,这里就不再赘述。 对于矩阵方程(9-7)求解,有:
b=CB CImS b m2∴C 关于偏回归系数b1、b2、…、bn的解可表示为 b i=casPio +cisP2o +.+cimSPno (i=1、2 或者b Cirp 而b=-b1x1-b22 【例9.1】猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌 面积、胴体长、膘厚等性状。设依变量y为瘦肉量(kg),自变量x为眼肌面积(cm2), 自变量x2为胴体长(cm),自变量x3为膘厚(cm)。根据三江猪育种组的54头杂种猪的实 测数据资料,经过整理计算,得到如下数据: SS1=846.2281Ss,=745.6041SS3=13.8987 Sf2=40.6832 =-62594SP23=-45.1511 SP0=1144530SP20=762799SP30=-11l2966 x2=944343x3=34344 SS.=70.6617 =14.8722 试建立y对x1、x2、x3的三元线性回归方程y=b+b1x1+b2x2+b3x3 将上述有关数据代入(9-5)式,得到关于偏回归系数b1、b2、b3的正规方程组: 8462281b1+406832b2-62594b2=1144530 40.6832b+745.6041b2-45.1511b3=76.2799 62594b1-4515l1b2+13.8987b3=-11.2966 用线性代数有关方法求得系数矩阵的逆矩阵如下: 846.22814068326.2594 406832745604145.1511 45.151113898 000004000016710.005410 0.00040300054100089707 C31C32C33 根据式(9-8),关于b1、b2、b3的解可表示为 b 即关于b1、b2、b3的解为:
165 b CB b A B = = − 1 即: = 0 20 10 1 2 21 22 2 11 12 1 2 1 m m mm m m m m SP SP SP c c c c c c c c c b b b (9-8) 关于偏回归系数 1 b 、b2 、…、 bm 的解可表示为: i i1 10 i2 20 imSPm0 b = c SP + c SP ++ c (9-9) ( i =1、2、…、 m ) 或者 = = m j i ij j b c sp 1 0 而 m m b = y − b x − b x −− b x 0 1 1 2 2 【例 9.1】 猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌 面积、胴体长、膘厚等性状。设依变量 y 为瘦肉量( kg ),自变量 1 x 为眼肌面积( cm 2), 自变量 2 x 为胴体长( cm ),自变量 3 x 为膘厚( cm )。根据三江猪育种组的 54 头杂种猪的实 测数据资料,经过整理计算,得到如下数据: 70.6617 14.8722 25.7002 94.4343 3.4344 114.4530 SP 76.2799 SP 11.2966 40.6832 SP 6.2594 SP 45.1511 846.2281 SS 745.6041 SS 13.8987 1 2 3 10 20 30 12 13 23 1 2 3 = = = = = = = = − = = − = − = = = S S y x x x S P S P S S y 试建立 y 对 1 x 、 2 x 、 3 x 的三元线性回归方程 0 1 1 2 2 3 3 y ˆ = b + b x + b x + b x 。 将上述有关数据代入(9-5)式,得到关于偏回归系数 1 b 、b2 、b3 的正规方程组: − − + = − + − = + − = 6.2594 45.1511 13.8987 11.2966 40.6832 745.6041 45.1511 76.2799 846.2281 40.6832 6.2594 114.4530 1 2 3 1 2 3 1 2 3 b b b b b b b b b 用线性代数有关方法求得系数矩阵的逆矩阵如下: 1 1 - 6.2594 - 45.1511 13.8987 40.6832 745.6041 - 45.1511 846.2281 40.6832 - 6.2594 − − = C = A = 0.000403 0.005410 0.089707 - 0.000040 0.001671 0.005410 0.001187 - 0.000040 0.000403 = 31 32 33 21 22 23 11 12 13 c c c c c c c c c 根据式(9-8),关于 1 b 、b2、b3 的解可表示为: = 30 20 10 31 32 33 21 22 23 11 12 13 3 2 1 SP SP SP c c c c c c c c c b b b 即关于 b1、b2、b3 的解为:
b1000117-00000003145300.1282 b2|=-0.00000016710005410762799|=00617 0.000403 00054100089707 0.5545 而b=y-b1x1-b2x2-b3x3 =14.8722-0.1282×25.7002-00617×944343-(-0.5545)×34344 =76552 于是得到关于瘦肉量y与眼肌面积x1、胴体长x2、膘厚x3的三元线性回归方程为 7.6552+0.1282x1+0.0617x2-0.5545x3 (三)多元线性回归方程的偏离度以上根据最小二乘法,即使偏差平方和 ∑y-j最小建立了多元线性回归方程。偏差平方和∑(-分)的大小表示了实测点与回 归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在m元线性回 归分析中,离回归平方和的自由度为(nm1)。于是可求得离回归均方为∑y-)21(mm-1) 离回归均方是模型(9-1)中口2的估计值。离回归均方的平方根叫离回归标准误,记为S12m (或简记为S),即 (y-y)/(n-m-1) (9-10) 离回归标准误S12m的大小表示了回归平面与实测点的偏离程度,即回归估计值j与 实测值y偏离的程度,于是我们把离回归标准误S12m用来表示回归方程的偏离度。离回 归标准误S12m大,表示回归方程偏离度大,离回归标准误S12m小,表示回归方程偏离 度小 利用公式∑(y-j)计算离回归平方和,因为先须计算出各个回归预测值j,计算量大 下面我们将介绍计算离回归平方和的简便公式 多元线性回归的显著性检验 (一)多元线性回归关系的显著性检验在畜禽、水产科学的许多实际问题中 我们事先并不能断定依变量y与自变量x、x2、…、xm之间是否确有线性关系,在根据依 变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线 性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程 之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元 线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用F检 验方法。 与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量y的总平方 和SS,可以剖分为回归平方和SS与离回归平方和SS两部分,即: (9-11) 依变量y的总自由度,也可以剖分为回归自由度dR与离回归自由度矿两部分,即 d, =dr+dr (9-12)
166 − = − = − 0.5545 0.0617 0.1282 11.2966 76.2799 114.4530 0.000403 0.005410 0.089707 0.000040 0.001671 0.005410 0.001187 - 0.000040 0.000403 3 2 1 b b b 而 0 1 1 2 2 3 3 b = y − b x − b x − b x =14.8722 − 0.1282 25.7002 − 0.0617 94.4343 − (−0.5545)3.4344 = 7.6552 于是得到关于瘦肉量 y 与眼肌面积 1 x 、胴体长 2 x 、膘厚 3 x 的三元线性回归方程为: 1 2 5545 3 y ˆ = 7.6552 + 0.1282 x + 0.0617 x − 0. x (三)多元线性回归方程的偏离度 以上根据最小二乘法,即使偏差平方和 2 (y − y ˆ) 最小建立了多元线性回归方程。偏差平方和 2 (y − y ˆ) 的大小表示了实测点与回 归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在 m 元线性回 归分析中,离回归平方和的自由度为(n-m-1)。于是可求得离回归均方为 2 (y − y ˆ) (/ n-m-1)。 离回归均方是模型(9-1)中σ2 的估计值。离回归均方的平方根叫离回归标准误,记为 Sy.12...m (或简记为 Se),即 ( ˆ) ( 1) 2 Sy.12...m = Se = y − y n − m − (9-10) 离回归标准误 Sy.12...m 的大小表示了回归平面与实测点的偏离程度,即回归估计值 y ˆ 与 实测值 y 偏离的程度,于是我们把离回归标准误 Sy.12...m 用来表示回归方程的偏离度。离回 归标准误 Sy.12...m 大,表示回归方程偏离度大,离回归标准误 S y.12...m 小,表示回归方程偏离 度小。 利用公式 2 (y − y ˆ) 计算离回归平方和,因为先须计算出各个回归预测值 y ˆ ,计算量大, 下面我们将介绍计算离回归平方和的简便公式。 二、多元线性回归的显著性检验 (一)多元线性回归关系的显著性检验 在畜禽、水产科学的许多实际问题中, 我们事先并不能断定依变量 y 与自变量 1 x 、 2 x 、…、 xm 之间是否确有线性关系,在根据依 变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线 性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程 之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元 线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用 F 检 验方法。 与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量 y 的总平方 和 SSy 可以剖分为回归平方和 SS R 与离回归平方和 SSr 两部分,即: SSy = SSR + SSr (9-11) 依变量 y 的总自由度 df y 也可以剖分为回归自由度 df R 与离回归自由度 dfr 两部分,即: df y = dfR + dfr (9-12)