2016/5/8 多总体的统计检验 多总体检验问愿: H=L=(x)=x+0,=,Lk 第4章多总体的统计检验 水平戒处夏 本章内容 多样本检验和两样本检验之间的差异 coizien 空 方差分析 几个术语 里置的他查分折中处于自 分析纳果是由一个方整分析表示 来省壁华药 ·佛有装据旁凳实验分组 「爱器 201658 201658 1
2016/5/8 1 第4章 多总体的统计检验 中国人民大学统计学院 2016-5-8 【 例 】确定超市的位置和竞争者的数量对销售额是否有 显著影响,获得的年销售额数据(单位:万元)如下表 因素 水平或处理 样本数据 多总体的统计检验 多总体检验问题: H : F F H : F (x) F(x ),i 1, ,k 0 1 k 1 i i L L 中国人民大学统计学院 本章内容 中国人民大学统计学院 多样本检验和两样本检验之间的差异 用分布做两两的比较,则需要做多次比较。 这样做不仅程序繁琐,而且每次检验犯第Ι 类错误的概率都会影响到整体的检验显著 性,作多次检验会使犯第Ι类错误的概率相 应地增加,所有检验完成时,犯第Ι类错误 的概率会大于每个检验的显著性水平。同 时,随着检验的次数的增加,偶然因素导 致差别的可能性也会增加 2016/5/8 中国人民大学统计学院 方差分析(analysis of variance,ANOVA)是分析定性 自变量对因变量影响的一种方法。 自变量是定性变量,也称为因子或协变量(covariate) 分析结果是由一个方差分析表表示的。 原理为:因变量的值随着自变量的不同取值而变化。将 这些变化按照自变量进行分解,使得每个自变量都包含 一份贡献,不能分解的部分是随机误差的贡献。 将各自变量的贡献和随机误差的贡献进行比较(F检验), 判断该自变量的不同水平是否对因变量的变化有显著贡 献。输出就是F-值和检验的一些p-值。 方差分析 2016/5/8 中国人民大学统计学院 几个术语 因子 在分析中处于自 变量的位置. 水平 在一个自变量中 的不同条件或数值. 总方差 不考虑实验分组, 所有数据的方差
2016/5/8 组间方差 ·泰差往斯晚因是辐助我钢分析方差是因误 2016/58 2016/58 方差分析的几种类型 方差分析的基本假定 出位“音争者数”对销售额的影 数子,器意 州空:控超中抢置不同是百是到销5期的一个重要变量 组路程松宝给素是指李格 with ren 因素各水平的 L20658 单因素方差分析举例 单因素方差分析的数据结构 产行一 ·购风:四种方才法类吾不周? 值)水平A, 因素A) 水平A2 水平A 促筑方法 15i2193.4 288 2 1253 185g 1357 1535 198.6 均值人-1536均值-1524地C-1物,7户 均准0-22,7 016W5/8 201653 2
2016/5/8 2 2016/5/8 中国人民大学统计学院 组间方差 (Between-Groups Variance) 组内方差(Within-Groups Variance) 2016/5/8 中国人民大学统计学院 方差分析的作用是帮助我们分析方差是因误 差产生的还是因处理产生的 中国人民大学统计学院 2016-5-8 方差分析的几种类型 1. 分析“超市位置”和“竞争者数量”对销售额的影响 2. 如果只分析超市位置或只分析竞争者数量一个因素对销售 额的影响,则称为单因素方差分析(one-way analysis of variance) 3. 如果只分析超市位置和竞争者数量两个因素对销售额的单 独影响,但不考虑它们对销售额的交互效应(interaction), 则称为只考虑主效应(main effect)的双因素方差分析,或称 为无重复双因素分析(two-factor without replication) 4. 如果除了考虑超市位置和竞争者数量两个因素对销售额的 单独影响外,还考虑二者对销售额的交互效应,则称为考 虑交互效应的双因素方差分析,或称为可重复双因素分析 (two-factor with replication) 中国人民大学统计学院 2016-5-8 方差分析的基本假定 1. 正态性(normality)。每个总体都应服从正态分布,即对于 因素的每一个水平,其观测值是来自正态分布总体的简单 随机样本 – 例如,检验超市位置不同是否是影响到销售额的一个重要变量 ,要求每个位置超市的销售额必须服从正态分布 – 检验总体是否服从正态分布的方法有很多,包括对样本数据作 直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以 进行非参数检验等 2. 方差齐性(homogeneity variance)。各个总体的方差必须相同 ,对于分类变量的个水平,有1 2=2 2=…=k 2 – 例如, 要求不同位置超市的销售额的方差都相同 3. 独立性(independence)。每个样本数据是来自因素各水平的 独立样本 2016/5/8 中国人民大学统计学院 单因素方差分析举例 比较数据, n=19类产品, 销售只与促销方式有关,用 p=4种不同的广告方法进行一段时间后看销售是否受 到广告的影响而不同? 问题: 四种方法是否不同? 促销方法 A B C D 133.8 151.2 193.4 225.8 125.3 149.0 185.3 224.6 143.1 162.7 182.8 220.4 128.9 143.8 188.5 212.3 135.7 153.5 198.6 均值A= 133.36 均值B= 152.04 均值C=189.72 均值D= 220.78 2016/5/8 中国人民大学统计学院 单因素方差分析的数据结构 观察值 ( j ) 因素(A) i 水平A1 水平A2 … 水平Ak 1 2 : : n x11 x21 … xk1 x12 x22 … xk2 : : : : : : : : x1n1 x2n2 … xknk
2016/5/8 单因素方差分析举例 四种方法的围 :四种才是吾不周? 四种方法的均值图 促师方法 8i24 90 24.4 1438 135.7 153.5 198.6 2016W58 申量认绝太李海学海 201658 线性模型: 公式:总平方和=姐间平方和+姐内平方和 y=4,+6g,i=1,,p,j=1,,n SS7=SSB+5E=2n0,-+20,- 。广义性9ene解为 美中,SST有自由度-,SSB有自由度P- SSE有自由度-P,在正烧分有的很设下,如 假设: 果春姐增量均值相普(零假设),则 yy2,y、N(4,o2),1=1, F=MSB SSB/(p-1) 检验:H0:山…= MSE SSE /(n-p) 有自由度为p-1和p的F分有. 2016/5/8 2016/5/8 方分析表: (比较一元总体的)ANOVA 此 /p-1) 这厘n为观测戴目p为水平戴,F满是 PF)=a这是自由皮为p-1和np的尺 2016W5/8 布的来 3
2016/5/8 3 2016/5/8 中国人民大学统计学院 单因素方差分析举例 比较数据, n=19类产品, 用p=4种不同的广告方法 进行一段时间后看销售是否受到促销方式不同的 影响? 问题: 四种方法是否不同? 促销方法 A B C D 133.8 151.2 193.4 225.8 125.3 149.0 185.3 224.6 143.1 162.7 182.8 220.4 128.9 143.8 188.5 212.3 135.7 153.5 198.6 2016/5/8 中国人民大学统计学院 N = 5 5 5 4 fodder A B C D WEIGHT 240 220 200 180 160 140 120 100 8 四种方法的箱图 四种方法的均值图 fodder A B C D Mean of WEIGHT 240 220 200 180 160 140 120 2016/5/8 中国人民大学统计学院 假设: 检验: H0 : m1=…=mp 线性模型: , 1,..., , 1,..., ij i ij i y i p j n m 广义线性模型(general linear model),可被理解为: “任何个体得分是总体均值、处理 效应和随机误差影响的总和。” y i y i y in N i i p i , ,..., ~ ( , ), 1,..., 2 1 2 m 2016/5/8 中国人民大学统计学院 公式:总平方和=组间平方和+组内平方和 2 2 1 1 1 ( ) ( ) i p p n i ij i i i i j SST SSB SSE n y y y y 其中, SST 有自由度 n-1, SSB有自由度 p-1, SSE 有自由度 n-p,在正态分布的假设下, 如 果各组增重均值相等(零假设), 则 有自由度为 p-1 和n-p 的F 分布. /( 1) /( ) MSB SSB p F MSE SSE n p 2016/5/8 中国人民大学统计学院 2016/5/8 中国人民大学统计学院 (比较一元总体的) ANOVA 方差分析表: Sum of Squares(平方和) Df 自由 度 Mean Square(均方) F Sig. Between Groups(处理) SSB P-1 MSB=SSB/(p-1) F= MSB/MSE P(F>F a ) Within Groups (误差) SSE n-p MSE=SSE/(n-p) Total(总和) SST n-1 这里n 为观测值数目p 为水平数,Fa满足 P(F>Fa)=a.这是自由度为p-1和n-p的F- 分布的概率
2016/5/8 Kruskal--Wallis单因素方差分析 检验方法 计算第组的样本平均秩, 对秩照方差分析原理:得到Knska-Ws的H统计量 全随机设计粒形 H。s9T.E, “a+工/-a+) 密露被被况不,版似服从店当之的时候 教鎏7王鹭水平 对比其中每两组差异 对比其中每两组差异的时候,用D(1964年提出用: d元-瓦,/sE 其中 SE-c(1.1 受图+分折+男 01658 IR.-Ru cVsD47-167-210m1615s846 4
2016/5/8 4 中国人民大学统计学院 Kruskal-Wallis单因素方差分析 基本原理:类似处理两个样本相关性位置检验的W-M-W 方法类似,将多个样本混合起来求秩,如果遇到打结的情 况,采用平均秩,然后再按样本组求秩和。 中国人民大学统计学院 检验方法 计算第j组的样本平均秩: 对秩仿照方差分析原理:得到Kruskal-Wallis的H统计量: 在零假设情况下,H近似服从 ,当 的时候 拒绝零假设。 2 (k 1) 2 H a ,(k 1) j n i ij j j j n R n R R j . 1 . 2016/5/8 中国人民大学统计学院 wangxingscy@gmail.com 教育年限在17年以上的工资水平 差别大吗?硕士=博士吗? RECODE 定义筛选变量 SELECT 选择分析数据 ANALYSIS 单因素方差分析 Kruskal- Wallis 非参数检验确认差异 GRAPH 箱线图观察差异 变异源 平方和 自由度 均方 F值 P值 处理 619712167 2 309856083 2.8185 0.07732 误差 2968265250 27 109935750 — — 合计 3587977417 29 — — — 自由度 卡方检验统计量值 P值 2 11.6989 0.002881 中国人民大学统计学院 对比其中每两组差异 对比其中每两组差异的时候,用Dunn(1964)年提出用: 其中 如果 那么表示i和j两组之间存在差异, , 为标准正态分布分位数。 * ij 1 | d | Z a * a a / k(k 1) Z dij | R.i R. j | / SE i j n n n n SE 1 1 12 ( 1) 中国人民大学统计学院 中国人民大学统计学院
2016/5/8 计分标自6到 ”世g,+ 被来->一,能交从,是hn 申银能大装立 联大学福时 区组设计数据回顾 Friedman秩方差分析 ·在额解组的费据中,总的变化可以分解 假设检验问题: 一处理造成的不同 H:0-L -0.:H:3.jcLL.k.0-0 区组之间的变化 ·遵果时代表处理的样本的鞋 样本1样本2 样本越 区组6…■ 在同一区组内,计算样本的铁,并求出: R,=∑R,J=1-k 瓦 -1) var(Ri) 样木1样本2 样椒 A-∑,R,/k=+1b 区细 R Ra 区2R R, R ar(R)=∑t1arR=b 秩和 R Re 5
2016/5/8 5 中国人民大学统计学院 中国人民大学统计学院 中国人民大学统计学院 区组设计数据回顾 在有区组的数据中,总的变化可以分解 到以下几个方面: – 处理造成的不同 – 区组内的变化 – 区组之间的变化 当有区组存在时, 代表处理的样本的独 立性就不存在了. 中国人民大学统计学院 Friedman秩方差分析 b1 x b2 x bk x 11 x 12 x 1k x 21 x 22 x 2k x 样本1 样本2 … 样本k 区组1 … 区组2 … … … … … … 区组b … bk x b1 x b2 x 完全随机区组设计表 假设检验问题: H : : H : i, j 1, ,k, 0 1 k 1 i j L L 中国人民大学统计学院 R11 R12 R1k R21 R22 R2k Rb1 Rb2 Rbk Rg1 Rg2 Rgk 样本1 样本2 … 样本k 区组1 … 区组2 … … … … … … 区组b … 秩和 … 在同一区组内,计算样本的秩,并求出: b R R j j . R R j k . b i j ij , 1,..., 1 . 中国人民大学统计学院