二、直线回归的显著性检验 若x和y变量间并不存在直线关系,但由n对观测值(x,y)也可以根据上面介绍的 方法求得一个回归方程j=a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是 不真实的。这取决于如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这 取决于变量x与y间是否存在直线关系。我们先探讨依变量y的变异,然后再作出统计推断 1、直线回归的变异来源 (x,y) 图8-4(y-j)的分解图 从图8-4看到:依变量y的总变异(y-y)由y与x间存在直线关系所引起的变异(y-y 与偏差(y-j)两部分构成,即 上式两端平方,然后对所有的n点求和,则有 ∑ ∑ ∑(-)2+∑(y-j)2+2∑ 由于j=a+bx=j+b(x-x),所以y-j=b(x-x) 于是∑(-y-j)=∑b(x-x)y-j ∑b(x-x)(y-j)-b(x-刘 ∑b )-∑b(x-x)b(x SS 所以有∑(y-y)2=∑(-2+∑(y-2 (8-8) ∑①-)2反映了y的总变异程度,称为y的总平方和,记为SS;∑(-亓2反映了
146 二、 直线回归的显著性检验 若 x 和 y 变量间并不存在直线关系,但由 n 对观测值(xi,yi)也可以根据上面介绍的 方法求得一个回归方程 y ˆ =a+bx。显然,这样的回归方程所反应的两个变量间的直线关系是 不真实的。这取决于如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这 取决于变量 x 与 y 间是否存在直线关系。我们先探讨依变量 y 的变异,然后再作出统计推断。 1、直线回归的变异来源 从图8-4看到:依变量y的总变异 ( y − y) 由y与x间存在直线关系所引起的变异 ( y ˆ − y) 与偏差 ( y − y ˆ) 两部分构成,即 (y − y) = (y ˆ − y) + (y − y ˆ) 上式两端平方,然后对所有的 n 点求和,则有 − = 2 ( y y) 2 [( y ˆ − y) + ( y − y ˆ)] ( ˆ ) ( ˆ) 2 ( ˆ )( ˆ) 2 2 = y − y + y − y + y − y y − y 由于 y ˆ = a + bx = y + b(x − x) ,所以 y ˆ − y = b(x − x) 于是 ( y ˆ − y)( y − y ˆ) =b(x − x)( y − y ˆ) =b(x − x)[( y − y) − b(x − x)] =b(x − x)( y − y) −b(x − x) b(x − x) b SPxy b SSx = − 2 0 2 = = − x x xy xy x xy SS SS SP SP SS SP 所以有 − = 2 ( y y) − + − 2 2 ( y ˆ y) ( y y ˆ) (8-8) 2 ( y − y) 反映了 y 的总变异程度,称为 y 的总平方和,记为 y SS ; − 2 ( y ˆ y) 反映了 图 8-4 ( y − y) 的分解图
由于y与x间存在直线关系所引起的y的变异程度,称为回归平方和,记为Ss:∑(- 反映了除y与x存在直线关系以外的原因,包括随机误差所引起的y的变异程度,称为离回 归平方和或剩余平方和,记为SS。(8-8)式又可表示为: (8-9) 这表明y的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,y的总自 由度d,也划分为回归自由度dR与离回归自由度df两部分,即 d,=d +dr (8-10) 在直线回归分析中,回归自由度等于自变量的个数,即dR=1:y的总自由度dJ,=n-1 离回归自由度d=n-2。于是: 离回归均方M,=SS5d,回归均方MS= SSR/df 2、回归关系显著性检验-F检验 x与y两个变量间是否存在直线关系,可用F检验法进行检验。由(8-1)式可推知, 若x与y间不存在直线关系,则总体回归系数β=0,若x与y间存在直线关系,则总体回归 系数β≠0。所以,对x与y间是否存在直线关系的假设检验其无效假设Ho:β=0,备择假 设H4:B≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从d1=1和 d2=n-2的F分布,所以可以用 (8-11) SS, /dfr SS, /(n-2) 来检验回归关系即回归方程的显著性 回归平方和还可用下面的公式计算得到 SSR=∑(-j)2=∑b(x-对)2 6->(x-x)=b-SS.=bSP (8-12) (8-13) 利用(8-13)式计算SSg的舍入误差最小;而(8-12)式便于推广到多元线性回归分析的情 况。根据(8-9)式。可得到离回归平方和计算公式为: 对于【例8.1】资料,有 SS,=83149167 SP,.=36585.00,SS,=1685.00 36585002 =79433960 SS168500 SS=SS,-SS=831491.67-79433960=37152.07 而dfy=n-1=12-1=11dR=Ldr=12-2=10。于是可以列出方差分析表进行回归关系 显著性检验
147 由于 y 与 x 间存在直线关系所引起的 y 的变异程度,称为回归平方和,记为 SS R ; − 2 ( y y ˆ) 反映了除 y 与 x 存在直线关系以外的原因,包括随机误差所引起的 y 的变异程度,称为离回 归平方和或剩余平方和,记为 SSr。(8-8)式又可表示为: SSy = SSR + SSr (8-9) 这表明 y 的总平方和划分为回归平方和与离回归平方和两部分。与此相对应,y 的总自 由度 y df 也划分为回归自由度 df R 与离回归自由度 r df 两部分,即 df y = dfR + dfr (8-10) 在直线回归分析中,回归自由度等于自变量的个数,即 df R =1 ;y的总自由度 df y = n −1 ; 离回归自由度 dfr = n − 2 。于是: 离回归均方 MSr SSr dfr = / ,回归均方 MSR SSR dfR = / 2、 回归关系显著性检验—F 检验 x 与 y 两个变量间是否存在直线关系,可用 F 检验法进行检验。由(8-1)式可推知, 若 x 与 y 间不存在直线关系,则总体回归系数=0,若 x 与 y 间存在直线关系,则总体回归 系数≠0。所以,对 x 与 y 间是否存在直线关系的假设检验其无效假设 H 0 :=0,备择假 设 H A:≠0。在无效假设成立的条件下,回归均方与离回归均方的比值服从 df1 = 1 和 df2 = n − 2 的 F 分布,所以可以用 / /( 2) / − = = = SS n SS SS df MS df MS MS F r R r r R R r R ,df1=1,df2=n-2 (8-11) 来检验回归关系即回归方程的显著性。 回归平方和还可用下面的公式计算得到: 2 2 SS =( y ˆ − y) =[b(x − x)] R b SSx bSPxy = b x − x = = 2 2 2 ( ) (8-12) x xy xy x xy SS SP SP SS SP 2 = = (8-13) 利用(8-13)式计算 SS R 的舍入误差最小;而(8-12)式便于推广到多元线性回归分析的情 况。根据(8-9)式。可得到离回归平方和计算公式为: x xy r y R y SS SP SS SS SS SS 2 = − = − 对于【例 8.1】资料,有 SSy = 831491.67 , SPxy = 36585.00 , SSx = 1685.00 794339.60 1685.00 36585.002 2 = = = x xy R SS SP SSSSr = SSy − SSR = 831491.67 − 794339.60 = 37152.07 而 df y = n −1=12 −1=11,dfR =1,dfr =12 − 2 =10 。于是可以列出方差分析表进行回归关系 显著性检验
表8-2四川白鹅70日龄重与雏鹅重回归关系方差分析 变异来源 F值 0.01 回归 79433960 79433960 213.81 4.96 10.04 离回归 10 37152.07 3715.21 总变异 831491.67 因为F=21381>F010=1004P<001,表明四川白鹅70日龄重与雏鹅重间存在显著 的直线关系。 3、回归系数的显著性检验-t检验 采用回归系数的显著性检验-t检验也可检验x与y间是否存在直线关系。回归系数显 著性检验的无效假设和备择假设分别为H。:β=0,H,:β≠0。 t检验的计算公式为: 其中,Sb为回归系数标准误 对于【例8.1】资料,已计算得SS=168500,S1=609525,故有 S=Sx/√Ssx=609525/√1685=14849 b_21.7122 S6148o=1462 当=n-2=12-2=10,查值表,得0(o=2,6o00=3169。因t=1462>lo0o0 P<001,否定H0:B=0,接受H4:B≠0,即四川白鹅70日龄重(y)与雏鹅重(x) 的直线回归系数b=21.7122是极显著的,表明四川白鹅70日龄重与雏鹅重间存在极显著的 直线关系,可用所建立的直线回归方程来进行预测和控制 F检验的结果与t检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二 种检验方法是等价的,可任选一种进行检验 由于四川白鹅70日龄重与雏鹅重间的直线回归关系极显著,因此,在实际生产中,可以 通过四川白鹅的雏鹅重对70日龄重作出预测或控制。特别要指出的是:利用直线回归方程 进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范 围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测 和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控 制,一般只能内插,不要轻易外延。 、直线回归的区间估计 前面已求出了总体回归截距a、回归系数尸和x所对应的y值总体平均数a+Rx的估计 值a,b和y。这仅是一种点估计。下面在一定置信度下对a、B以及a+x作出区间估计
148 表 8-2 四川白鹅 70 日龄重与雏鹅重回归关系方差分析 变异来源 df SS MS F 值 F0.05 F0.01 回归 1 794339.60 794339.60 213.81** 4.96 10.04 离回归 10 37152.07 3715.21 总变异 11 831491.67 因为 F = 213.81 F0.01(1,10) =10.04, P 0.01 ,表明四川白鹅 70 日龄重与雏鹅重间存在显著 的直线关系。 3、回归系数的显著性检验—t 检验 采用回归系数的显著性检验—t 检验也可检验 x 与 y 间是否存在直线关系。回归系数显 著性检验的无效假设和备择假设分别为 H 0 :β=0, H A :β≠0。 t 检验的计算公式为: , b S b t = df = n − 2 (8-14) x yx b SS S S = (8-15) 其中, b S 为回归系数标准误。 对于【例 8.1】资料,已计算得 SSx =1685.00, Syx = 60.9525 ,故有 Sb = Syx / SSx = 60.9525/ 1685 =1.4849 14.62 1.4849 21.7122 = = = Sb b t 当 df = n − 2 =12− 2 =10,查 t 值表,得 t0.05(10) = 2.228, 3.169 t0.01(10) = 。因 62 0.01(10) t =14. t , P 0.01 ,否定 H 0 :β=0,接受 H A :β≠0,即四川白鹅 70 日龄重(y)与雏鹅重(x) 的直线回归系数 b=21.7122 是极显著的,表明四川白鹅 70 日龄重与雏鹅重间存在极显著的 直线关系,可用所建立的直线回归方程来进行预测和控制。 F 检验的结果与 t 检验的结果一致。事实上,统计学已证明,在直线回归分析中,这二 种检验方法是等价的,可任选一种进行检验。 由于四川白鹅 70 日龄重与雏鹅重间的直线回归关系极显著,因此,在实际生产中,可以 通过四川白鹅的雏鹅重对 70 日龄重作出预测或控制。特别要指出的是:利用直线回归方程 进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大,因为在研究的范 围内两变量是直线关系,这并不能保证在这研究范围之外仍然是直线关系。若需要扩大预测 和控制范围,则要有充分的理论依据或进一步的实验依据。利用直线回归方程进行预测或控 制,一般只能内插,不要轻易外延。 *三、直线回归的区间估计 前面已求出了总体回归截距 a、回归系数 β 和 x 所对应的 y 值总体平均数 a+βx 的估计 值 a,b 和 y ˆ 。这仅是一种点估计。下面在一定置信度下对 α、β 以及 α+βx 作出区间估计