第9章 方差分析 学习目标 1、理解方差分析的基本思想: 2、熟练掌据单因素方差分析的基木原理及甚实际南用。 3、熟练掌双因素方差分析的基本原理及其实际应用。 基本概念 总离差平方和组间离差平方和组内离差平方和检验统计量自由度单因素方 差分析双因素方差分析 9.1方差分析的基本认识 9.1.1问题的提出 方差分析是对多个总体均值是否相等这一假设进行检验。下面通过一个例子说明方差分 析的内容。 [例91]某化妆品生产公司研制出一种新型爽肤水。爽肤水的颜色共有四种,分别为橘 黄色、粉色、绿色和无色透明。现随机从五家专卖市场上收集了前一期该种爽肤水的销售量, 如表9-1所示。 表91 某爽肤水在五家专卖市场的销售情况 专卖市场 无色 商巴 绿色 31. .9 28.7 28.3 25.1 29.6 25.1 30. 28.5 29. 27.2 26.5 32.8 爽肤木的是否对销售高牛生 销对四种不调颜色的爽肤水的销售量均值是否相等进行检验 由于爽肤水是同一公司生产的,它们的成分、价格等可能影 响销售量的因素全部相同,我们 把四种不同颜色的爽肤水的销售量均值分别记为4,凸,,,由题意知,要检验假设 H。:4=4=43=44: H14,凸,4,4,不全相等 如果检验结果为4,山,不全相等,则表明爽肤水颜色对销售量产生影响。反之 如果检验结果为4,凸,不存在显著影响,则可以认为爽肤水颜色对销售量没有影响,他 们来自于相同的总体。 方差分析简称ANOVA(analysis of variance)),就是利用试验观测值总偏差的可分解性 将不同条件所引起的偏差与随机误差分解开来,按照一定的规则进行比较,以确定各种偏差 的影响程度和相对大小。当已确定某几种因素对试验结果有显著影响时,可使用方差分析检 验确定哪种因素对试验结果的影响最为显著及估计影响程度。 9.1.2方差分析的基本概 在万差分新中,常常用到一 些术语。我们把要考察的对象的某种特征称为指标。试验条 件分为可控制的和不可控制的两类,称可控制的试验条件为因素:因素所处的状态称为该 的水:试险中只有 个因素在变化,称他为单因素试验。若试验中变化因素 一个,称他为双因素以及多因素试验
1 第 9 章 方差分析 学习目标 1、理解方差分析的基本思想; 2、熟练掌握单因素方差分析的基本原理及其实际应用; 3、熟练掌握双因素方差分析的基本原理及其实际应用。 基本概念 总离差平方和 组间离差平方和 组内离差平方和 检验统计量 自由度 单因素方 差分析 双因素方差分析 9.1 方差分析的基本认识 9.1.1 问题的提出 方差分析是对多个总体均值是否相等这一假设进行检验。 下面通过一个例子说明方差分 析的内容。 [例 9-1]某化妆品生产公司研制出一种新型爽肤水。爽肤水的颜色共有四种,分别为橘 黄色、 粉色、 绿色和无色透明。 现随机从五家专卖市场上收集了前一期该种爽肤水的销售量, 如表 9-1 所示。 表 9-1 某爽肤水在五家专卖市场的销售情况 专卖市场 无色 粉色 橘黄色 绿色 1 26.5 31.2 27.9 30.8 2 28.7 28.3 25.1 29.6 3 25.1 30.8 28.5 32.4 4 29.1 27.9 24.2 31.7 5 27.2 29.6 26.5 32.8 问爽肤水的颜色是否对销售量产生影响。 这是一个方差分析问题,即对四种不同颜色的爽肤水的销售量均值是否相等进行检验。 由于爽肤水是同一公司生产的,它们的成分、价格等可能影响销售量的因素全部相同,我们 把四种不同颜色的爽肤水的销售量均值分别记为 1 2 3 4 m , m ,m , m ,由题意知,要检验假设 0 1 2 3 4 H : m = m = m = m ; 1 1 2 3 4 H : m ,m , m ,m 不全相等 如果检验结果为 1 2 3 4 m , m ,m , m 不全相等,则表明爽肤水颜色对销售量产生影响。反之, 如果检验结果为 1 2 3 m ,m ,m 不存在显著影响,则可以认为爽肤水颜色对销售量没有影响,他 们来自于相同的总体。 方差分析简称 ANOVA(analysis of variance),就是利用试验观测值总偏差的可分解性, 将不同条件所引起的偏差与随机误差分解开来,按照一定的规则进行比较, 以确定各种偏差 的影响程度和相对大小。当已确定某几种因素对试验结果有显著影响时,可使用方差分析检 验确定哪种因素对试验结果的影响最为显著及估计影响程度。 9.1.2 方差分析的基本概念 在方差分析中,常常用到一些术语。我们把要考察的对象的某种特征称为指标。试验条 件分为可控制的和不可控制的两类,称可控制的试验条件为因素; 因素所处的状态称为该因 素的水平。如果在一项试验中只有一个因素在变化,称他为单因素试验。若试验中变化因素 多于一个,称他为双因素以及多因素试验
在例91中,爽肤水的销售量为指标,爽肤水的颜色为因素,爽肤水的四种颜色为该因 素的四 水平,该例是 单因素四水平试验。假设检验章所讲的对两个总体均值的比较, 实际上就是单因素两水平试验。下面,我们简单闸述单因素方差分析的基木原理。 9.2单因素方差分析 9.2.1单因素方差分析的基本原理 单因素方差分析是研究一个因素的变化对试验指标的影响是否显著的统计分析方法,是 方差分析中最简单的情形。 设因素A有r个水平A,4,.,A,在水平A亿=L,2,.,r)下进行n(i≥2)次独立试验, 试验记录如表92 表92独立试验记录表 样本 水平 j Xu Xin A X X 其中X,表示第1水平A进行第j次试验的可能结果 假设X,~N(4,o),0=1,2,.,r)。待检假设为 H。:=、=.= H1:4,凸,.,4不全相等。 如果H,成立,那么r个总体间无显著差异,即是说因素A对试验结果的影响不显若 所有X。可视为来自同一个总体N(4,σ),各X。间的差异只是由随机因素引起的。若H。 不成立,则在X。所有的总变差中,除随机波动引起的变差外,还应包括由于因素A的不同 先将这两种差异分开,然后进行比较。记 -22 (9-1) 称灭为第1组的样本均值,灭为样本总均值。再记 s,=2x,-x (9-2) 1j- 称为总离差平方和。我们将S分解如下: ST=S+Sg (9-3) 2
2 在例 9-1 中,爽肤水的销售量为指标,爽肤水的颜色为因素,爽肤水的四种颜色为该因 素的四个水平,该例是一个单因素四水平试验。假设检验章所讲的对两个总体均值的比较, 实际上就是单因素两水平试验。下面,我们简单阐述单因素方差分析的基本原理。 9.2 单因素方差分析 9.2.1 单因素方差分析的基本原理 单因素方差分析是研究一个因素的变化对试验指标的影响是否显著的统计分析方法,是 方差分析中最简单的情形。 设因素A有r个水平 1 2 , , , , A A L Ar 在水平 Ai (i =1,2,L ,r) 下进行 ( 2) i n i ³ 次独立试验, 试验记录如表 9-2 表 9-2 独立试验记录表 样本 水平 1 L j L i n A1 M Ai M Ar X11 L X 1 j L 1n 1 X M M M Xi 1 L X ij L i X in M M M Xr 1 L X rj L r X rn 其中 X ij 表示第 i 水平 Ai 进行第 j 次试验的可能结果。 假设 2 ~ ( , ) Xij N mi s ,(i =1,2,L ,r) 。待检假设为: 0 1 2 : H m = m =L = mr , 1 1 2 : , , , H m m L m r 不全相等。 如果 H 0 成立,那么 r 个总体间无显著差异,即是说因素 A 对试验结果的影响不显著, 所有 X ij 可视为来自同一个总体 2 N(m,s ) ,各 X ij 间的差异只是由随机因素引起的。若 H 0 不成立,则在 X ij 所有的总变差中,除随机波动引起的变差外,还应包括由于因素 A 的不同 水平作用产生的差异。 如果不同水平作用产生的差异比随机因素引起的差异大得多, 就认为 因素 A 对试验结果有显著影响, 否则就认为因素 A 对试验的影响不显著。为此可在总变差中 先将这两种差异分开,然后进行比较。记 1 1 1 1 , 1, 2, , 1 i i n i ij j i r n ij i j X X i r n X X n = = = Ï = = Ô Ô Ì Ô = Ô Ó Â ÂÂ L (9-1) 称 X i 为第 i 组的样本均值, X 为样本总均值。再记 2 1 1 ( ) i r n T ij i j S X X = = = ÂÂ - (9-2) 称为总离差平方和。我们将 T S 分解如下: T A E S = S + S (9-3)
其中, s-22R-群=2a(R-对 (94) s-22x,- S,是组间平方和,反映了不同水平作用产生的差异大小:是组内平方和,反映的是 水平内部,或组内观测值的离散状况,它实质上是随机因素带来的影响。 在H。成立的条件下,由抽样分布定理,我们可以得到: 是-xm-),n=n (9-5) 且S与S独立。 若组间差异比组内差异大得多,则说明因素的不同水平间有显著差异,应拒绝H。否 则,说明因素各水平之间的差异不显著,可接受H。为此,选取统计量 F=SAr-1) Se/(n-r) (9-6) 当H,为真时,由F分布的定义知,统计品 F=S/(r-1) -F(r-1n-r) (9-7) Ss/(n-r) 如果因素A的各水平对总体的影响由显著差异,那么S,相对较大,因而F也较大。由 此可见,对于给定的显著性水平α,拒绝域为 W={F>Fr-1,n-r)} (9-8) 将计算结果列成表,称为方差分析表(见表9一3) 表93单因素方差分析末 方差来源 平方和 白由 F值 F的临界值 组间 r-1 组内 n-r F- F.r-l,n-r) 总和 S -1 Se/(n-r) 9.2.2单因素方差分析应用实例 [例92](续例9-1)取仪=0.05,要检验的假设: H。:4==4=4 颜色对销售量没有影响 H:4,4,4,4,不全相等 颜色对销售量有影响 解:由题设知: r=4,n==n=n,=5,n=20。根据表9-1中的观测数据 得 S,=22(X,-X3=115.9295 局 Se=∑2(X,-X,}=39.084 11 S,=S7-5e=76.8455 3
3 其中, 2 2 1 1 1 2 1 1 ( ) ( ) ( ) i i r n r A i i i i j i r n E ij i i j S X X n X X S X X = = = = = Ï = - = - Ô Ô Ì Ô = - Ô Ó ÂÂ Â ÂÂ (9-4) A S 是组间平方和,反映了不同水平作用产生的差异大小; E S 是组内平方和,反映的是 水平内部,或组内观测值的离散状况,它实质上是随机因素带来的影响。 在 H 0 成立的条件下,由抽样分布定理,我们可以得到: 2 2 ~ ( 1) T S c n s - , 1 r i i n n = = Â 2 2 ~ ( ) E S c n r s - , 2 2 ~ ( 1) A S c r s - (9-5) 且 A S 与 E S 独立。 若组间差异比组内差异大得多,则说明因素的不同水平间有显著差异,应拒绝 H 0 。否 则,说明因素各水平之间的差异不显著,可接受 H 0 。为此,选取统计量 ( 1) ( ) A E S r F S n r - = - (9-6) 当 H 0 为真时,由 F 分布的定义知,统计量 ( 1) ~ ( 1, ) ( ) A E S r F F r n r S n r - = - - - (9-7) 如果因素 A 的各水平对总体的影响由显著差异,那么 A S 相对较大,因而 F 也较大。由 此可见,对于给定的显著性水平a ,拒绝域为 W = { F > F1- a (r -1, n - r)} (9-8) 将计算结果列成表,称为方差分析表(见表 9-3)。 表 9-3 单因素方差分析表 方差来源 平方和 自由度 F 值 F 的临界值 组 间 A S r-1 组 内 E S n-r 总 和 T S n-1 ( 1) ( ) A E S r F S n r - = - 1 F (r 1, n r) -a - - 9.2.2 单因素方差分析应用实例 [例 9-2](续例 9-1)取a = 0.05,要检验的假设: 0 1 2 3 4 H : m = m = m = m 颜色对销售量没有影响 1 1 2 3 4 H : m ,m ,m ,m 不全相等 颜色对销售量有影响 解:由题设知: r = 4 , 1 2 3 4 n = n = n = n = 5 , n = 20 。根据表 9-1 中的观测数据 得 2 1 1 ( ) i r n T ij i j S X X = = =ÂÂ - = 115.9295 2 1 1 ( ) r ni E ij i i j S X X = = = ÂÂ - =39.084 A T E S = S - S =76.8455
从而计算统计量F得观测值为: F-256152=10486 24428 当取a=0.05时,查表知: F.(r-1,n-r)=F(3,16=3.24 由于F>F,故拒绝原假设。说明爽肤水的颜色对销售量有显著影响。 可以将计算结果列成方差分析表: 表9-4 单因素方差分析表 方差来源 平方和 自由度 F值 F的临界值 组何 5,=76.8455 3 组内 S5=39.084 16 F=10.486 F5(3,16)=3.24 总和 S,=115.9295 19 9.2.3单因素方差分析中应注意的问题 1.方差分析需满足的假设条件。方差分析实质上是对各总体均值相等的假设进行检验, 为了得到检验统计量的精确分布,需满足的前提条件有: (1)每次试验都是独立进行的: (2)各样本都来自正态总体: (3)各个总体的方差相等。 只有满足这些条件,方差分析的结果才是有效的。一般地,我们总认为以上的假定条件 都是满足的或近似满足 水平下总体的试验 下相等 差分能判各总体的均值是否相等,而不能判断哪个总体的均值是大还是小。 这时需要在均值不等的前提下,采用多重比较法进一步比较各个均值的大小 9.3双因素方差分析 9.3.1双因素方差分析的类型 ,有时需要考虑两个因素对试验结果的影响。例如上一节中饮料销 我们还 方差分 是对影响因索 进行检验,究 两个因素都在起作用 进不因素在起作用,还是 或是两个因系的无交石作用的双因孝方若分析,它假定因孝A和因 双因素方差分析有两种类型: 素B的效应之间是相互独立的,不存在相互关系:另一个是有交互作用的双因素方差分析, 它假定因素A和B的结合会产生出一种新的效应。例如,若假定不同地区的消费者对某种颜 色有与其他地区清费者不同的特殊偏爱,这就是两个因素结合后产生的新效应,属于有交互 作用的背景,否则就是无交互作用的背景。下面我们将分别介绍无交互作用的双因素方差分 析和有交互作用的双因素方差分析。 9.3.2无交互作用的双因素方差分析 4
4 从而计算统计量 F 得观测值为: 25.6152 10.486 2.4428 F = = 当取a = 0.05时,查表知: 1 0.95 F (r 1,n r) F (3 16) 3.24 -a - - = , = 由于 F > F1-a ,故拒绝原假设。说明爽肤水的颜色对销售量有显著影响。 可以将计算结果列成方差分析表: 表 9-4 单因素方差分析表 方差来源 平方和 自由度 F 值 F 的临界值 组 间 76.8 455 A S = 3 组 内 E S =39.084 16 总 和 115.9 295 T S = 19 F = 10.486 0.95 F (3, 16)= 3.24 9.2.3 单因素方差分析中应注意的问题 1.方差分析需满足的假设条件。方差分析实质上是对各总体均值相等的假设进行检验, 为了得到检验统计量的精确分布,需满足的前提条件有: (1)每次试验都是独立进行的; (2)各样本都来自正态总体; (3)各个总体的方差相等 。 只有满足这些条件,方差分析的结果才是有效的。一般地,我们总认为以上的假定条件 都是满足的或近似满足的。 2.在实际问题中,各水平下总体的试验次数可以相等也可以不相等,分析过程和结论基 本不变。但是当试验次数相差较大或因素相差较多时,应考虑采用广义线性模型分析,以消 除非均衡试验设计的影响。 3.方差分析只能判断各总体的均值是否相等,而不能判断哪个总体的均值是大还是小。 这时需要在均值不等的前提下,采用多重比较法进一步比较各个均值的大小。 9.3 双因素方差分析 9.3.1 双因素方差分析的类型 在实际问题的研究中, 有时需要考虑两个因素对试验结果的影响。 例如上一节中饮料销 售量的例子,除了关心饮料颜色之外,我们还想了解销售地区是否影响销售量,如果在不同 的地区,销售量存在显著的差异,就需要分析原因。若把饮料的颜色看作影响销售量的因素 A ,饮料的销售地区看作影响销售量的因素 B。对因素 A 和 B 同时进行分析,就属于双因素 方差分析。双因素方差分析的内容,是对影响因素进行检验,究竟一个因素在起作用,还是 两个因素都在起作用,或是两个因素的影响都不显著。 双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素 A 和因 素 B 的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析, 它假定因素 A 和 B 的结合会产生出一种新的效应。 例如,若假定不同地区的消费者对某种颜 色有与其他地区消费者不同的特殊偏爱, 这就是两个因素结合后产生的新效应,属于有交互 作用的背景, 否则就是无交互作用的背景。 下面我们将分别介绍无交互作用的双因素方差分 析和有交互作用的双因素方差分析。 9.3.2 无交互作用的双因素方差分析
假设因素A有r个水平A,A,A,因素B有s个水平B,B,.,B,。对 因素A/B各种水平的每一对组合(4,B,)(=1,2,.,r:广=1,2,.,s)只进行一次试验 并假定试验结果是相互独立的,试验结果见表9一5。 表9-5无交互作用的双因素方差分析数据结构 水平B B 水平A B, X A X 各样本X(位=1,2,.,r;j=1,2,.,5)相互独立,均服从正态分布,且有相等的方差 σ2。这是进行双因素方差分析的假定条件。记: x=2x, i=1,2,.,r (9-9) ,=2x, j=1,2,.,3 其中,了表示所有观测值的平均值,X表示A因素第1个水平的样本平均值,元,表 示B因素第j个水平的样本平均值 要判断因素A、B的影响是否显著,就是要检验假设: H0A4=4.=.=4: H44,凸,.,4、不完全相等 HB41=42=.=4, H1g41,42,.,4,不完全相等 其中,4,表示因素A第i个水平的均值,4,表示因素B第j个水平的均值。 同单因素方差分析一样,要检验上述假设,需将总离差平方和进行分解。总离差平方和 S,=∑∑x,- (9-10) 表示所有观测值X。与总平均值下的离差平方和。由于存在两个因素,总离差平方和中 除各水平组内随机误差之外,同时有两种组间差异,所以S,可以分解成三个部分: ST=S+SR+SE (9-11)
5 假设因素 A 有 r 个水平 1 2 , , , A A L Ar ,因素 B 有 s 个水平 1 2 , , , B B L Bs 。对 因素 A/ B 各种水平的每一对组合( , ) ( 1, 2, , ; 1, 2, , ) Ai Bj i = L r j = L s 只进行一次试验, 并假定试验结果是相互独立的,试验结果见表 9-5。 表 9-5 无交互作用的双因素方差分析数据结构 水平 B 水平 A B1 L B j L Bs A1 M Ai M Ar X11 L X 1 j L X1s M M M Xi 1 L X ij L Xis M M M Xr 1 L X rj L Xrs 各样本 ( 1,2, , ; 1, 2, , ) Xij i = L r j = L s 相互独立,均服从正态分布,且有相等的方差 2 s 。这是进行双因素方差分析的假定条件。记: 1 1 1 1 1 1 1,2, , 1 1,2, , r s ij i j s i ij j r j ij i X X rs X X i r s X X j s r = = × = × = Ï = Ô Ô Ô Ì = = Ô Ô Ô = = Ó ÂÂ Â Â L L (9-9) 其中, X 表示所有观测值的平均值, Xi × 表示 A 因素第 i 个水平的样本平均值, X× j 表 示 B 因素第 j 个水平的样本平均值。 要判断因素 A、B 的影响是否显著,就是要检验假设: 0 1 2 : H A m × = m × =L = mr× , 1 1 2 : , , , H A m × m × L mr × 不完全相等 0 1 2 : H B m× = m× =L = m× r , 1 1 2 : , , , H B m× m× L m× r 不完全相等 其中,mi× 表示因素 A 第 i 个水平的均值,m× j 表示因素 B 第 j 个水平的均值。 同单因素方差分析一样,要检验上述假设,需将总离差平方和进行分解。总离差平方和 2 1 1 ( ) r s T ij i j S X X = = = ÂÂ - (9-10) 表示所有观测值 X ij 与总平均值 X 的离差平方和。 由于存在两个因素, 总离差平方和中 除各水平组内随机误差之外,同时有两种组间差异,所以 T S 可以分解成三个部分: T A B E S = S + S + S (9-11)