2016/5/8 什么是分类数据 第6章分类数据关联分析 ·美数据贸行微入是备整雾 间是否存在相关。 得儿后木学装时韩 本章内容 问题:两个分类变量有关系吗?如何度量? 不良习惯 健康 得肺病没有肺病 得肺病没有肺病 吸烟900 吸烟040 不吸烟00 不吸烟4020 ♪海肺病吸烟=? P叫得肺病不吸细= 6.111!列联表和检验 独立性检验 B1B,B,总和 假设检验问题: BBB总和 Ay nut mz.mum. ,ln2·h,ne H。:p=PP 总和12…n Ar trt Bra ..nrs tr 构透统计量: 总和1格2…n m=∑y,i=1,2…一,表示各行之和 西=立小=12表示各列之和 -g2-ggg兰父→x2 n--2 当尤取大值,或者即值很小的时候,拒绝零假设。 中人转大穿车 中人是大学保布 1
2016/5/8 1 第6章 分类数据关联分析 中国人民大学统计学院 什么是分类数据 统计数据的一种。指反映事物类别的数据。如 人按性别分为男、女两类。 分类数据(categorical data)是离散数据(discrete data)。分类属性具有有限个(但可能很多)不同 值,值之间无序。 例子: 200例肿瘤患者中A指标阳性100例,阴性 100例;B指标阳性50例,阴性150例。AB都是分 类变量。有AB同时阳性的患者20例,想看AB之 间是否存在相关。 中国人民大学统计学院 本章内容 Mantel-Haenszel检验 McNemar检验 明德主楼1019王星 wangxingscy@gmail.com 82500167 中国人民大学统计学院 90 0 90 吸烟 0 不吸烟 得肺病 没有肺病 80 40 20 吸烟 40 不吸烟 得肺病 没有肺病 P(得肺病|吸烟)=? P(得肺病|不吸烟)=? 2 3 问题:两个分类变量有关系吗?如何度量? 不良习惯 ------------ 健康 中国人民大学统计学院 6.1 r s 列联表和 2 检验 中国人民大学统计学院 独立性检验 2 假设检验问题: 当 取大值,或者p-值很小的时候,拒绝零假设。 2 2 (r 1)(s 1) 2 构造统计量: H0 pij pi. p. j : . n n n e i j ij . . . i j ij ij i j ij ij ij n e n e n e , .. 2 , 2 2 ( ) ( )
2016/5/8 交叉分析 例6.1 酸 生 明德主楼1019 民大学流时 解答 6.2齐性检验例6.2 c山-rwt话t with Yatea'Cat1 aulty correctia0 师程对类用的关生卡是香一快 V1=1,一元月。:风:=…-%=到行瓜:等式不全成立 e大 齐性检验 齐性检验 生2,对好的告计是 0:/o 民品…B总和 假设检验问 =l,rH。:Pa==B=R付H,:等式不全相等 构透统计量: -3-3%- 期…L元 在零假没下近似有:父→X 检验方法和独立性检验相同 。s 2
2016/5/8 2 明德主楼1019 中国人民大学统计学院 交叉分析 性 别 可 以 接受 的 数 码相 机 的 价格 Crosstabulation 31 115 85 64 21 316 9.8% 36.4% 26.9% 20.3% 6.6% 100.0% 11.2% 39.7% 47.5% 83.1% 44.7% 36.4% 3.6% 13.2% 9.8% 7.4% 2.4% 36.4% 245 175 94 13 26 553 44.3% 31.6% 17.0% 2.4% 4.7% 100.0% 88.8% 60.3% 52.5% 16.9% 55.3% 63.6% 28.2% 20.1% 10.8% 1.5% 3.0% 63.6% 276 290 179 77 47 869 31.8% 33.4% 20.6% 8.9% 5.4% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 31.8% 33.4% 20.6% 8.9% 5.4% 100.0% Count % within 性 别 % within 可以接受的 数码相机的价格 % of Total Count % within 性 别 % within 可以接受的 数码相机的价格 % of Total Count % within 性 别 % within 可以接受的 数码相机的价格 % of Total 男 女 性 别 Total 1000元以下 1001-2000元 2001-3000 3000-6000 6001以 上 可以接受的数码相机的价格 Total Chi-Square Tests 160.399a 4 .000 173.531 4 .000 113.234 1 .000 869 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Value df Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.09. a. 注意: 1. 交叉列联表中的期望数<5的格点数 不超过20%,方可进行Chi square检验。 2.只有当交叉列联检验通过,才可认 为行变量和列变量存在关系,否则只能视 为独立。 中国人民大学统计学院 例6.1 中国人民大学统计学院 解答 C=0.1294459 中国人民大学统计学院 6.2 齐性检验 例6.2 中国人民大学统计学院 齐性检验 • H0 : pi 1= pi 2 = …=pi . • 在H0 之下,对pi. 最好的估计是 pi. = ni./n • 对交叉列联表的每个单元格而 言,我们希望测量观测频数和 期望频数的差异: (nij - n.jpi .) • 将上面的结果平方再标准化得 到统计量 2 calc. • 注意到Eij = pi . n.j = (ni .)(n.j )/n 这个形式和独立性检验的形式 是一致的。 ^ ^ ^ ^ 中国人民大学统计学院 2 齐性检验 假设检验问题: 构造统计量: 2 2 在零假设下近似有: (r 1)(s 1) 检验方法和独立性检验相同。 i j ij ij i j ij ij ij n e n e n e Q , .. 2 , 2 ( ) ( ) .. . . . n n n e i j ij i 1,...,r, H0 : pi1 ... pir pi. H1 :等式不全相等
2016/5/8 Riddle of Jane Austen -0 chisa 中1球大 6.3 Fisher精确检验 检验fisher..test 22列胜去 B 品总和 A.h 、务格千的的大烤 当大样木时可用因我 在A、B独立时: P,}= n!P(m)= ninlmalnanal 例6.3 6.4 Mantel-Haensze检验 存话424 之间常常有不 54.47.3 q3506.df1,p-ae-006718 中现大保时
2016/5/8 3 中国人民大学统计学院 解答 讨论题: 多样本检验和X^2检 验相似之处和区别 中国人民大学统计学院 Riddle of Jane Austen Word Sense Emma SanditonI SanditonI Sbility a 147 186 101 83 an 25 26 11 29 this 32 39 15 15 that 94 105 37 22 with 59 74 28 43 without 18 10 10 4 chisq.test(Jane) Pearson's Chi-squared test data: Jane X-squared = 45.5775, df = 15, pvalue = 6.205e-05 中国人民大学统计学院 6.3Fisher精确检验 总和 n.1 n.. n2. n12 n1. B1 B2 总和 A1 A2 2*2列联表 在A、B独立时: n22 n.2 n11 n21 ! ! ! ! ! ! ! ! ! { } .. 11 12 21 22 1. .1 2. .2 n n n n n n n n n P nij .1 21 2. 11 1. 11 .. ( ) n n n n n n P n 中国人民大学统计学院 检验fisher.test 任何一个格子中的的数目都不会过大或者过小,如果过 大过者过小就可以考虑拒绝零假设,因而我们考虑 就 可以了。当大样本时,可以采用近似正态分布进行检验, 即: 11 n (0,1) ( ) 1. 2. .1 .2 .. 11 22 12 21 N n n n n n n n n n Z 中国人民大学统计学院 例6.3 中国人民大学统计学院 6.4 Mantel-Haenszel检验 42 54 47 33 20 14 17 25 A B 存活 死亡 UU=matrix(c(42,54,47,33),2) > chisq.test(UU) Pearson's Chi-squared test with Yates' continuity correction data: UU X-squared = 3.3506, df = 1, p-value = 0.06718 A B 存活 死亡 A B 存活 死亡 22 30 30 8 当组与组之间常常有不 同的背景,而这些背景 因子很可能会影响到组 与组之间结果存在差异
2016/5/8 申侧认绝大李海计学海 Simps0n悖论(女惠.卖s盖支虹第法+) 辛普在悖论(S 这两个学有性别视 论,即在某个 配对设计两样本率比较 的检验(mcnemar.test) 方法原理 方法原理 例6,9用A、B两种方法检查已确诊的乳腺癌患 首140名 ”蕊裂折思路。最终可整理曲如前所列的配对 一合计 23。 24 4
2016/5/8 4 中国人民大学统计学院 中国人民大学统计学院 chisq.test(matrix(c(97,150,97,150),2,2)) Pearson's Chi-squared test data: matrix(c(97, 150, 97, 150), 2, 2) X-squared = 0, df = 1, p-value = 1 > 中国人民大学统计学院 Simpson悖论(女>男|商,女>男|法,女?男|法+商) 辛普森悖论(Simpson‘s Paradox) 亦有人译为辛普森诡论,为英国 统计学家E.H.辛普森E.H.Simpson 于1951年提出的悖论,即在某个 条件下的两组数据,分别讨论时 都会满足某种性质,可是一旦合 并考虑,却可能导致相反的结论。 例题:一所美国高校的两个 学院,分别是法学院和商学 院,新学期招生。人们怀疑 这两个学院有性别歧视。 法学院 商学院 申请性别 法学院 商学院 女 男 录取率 配对设计两样本率比较 的χ 2检验(mcnemar.test) 中国人民大学统计学院 23 方法原理 例6.9 用A、B两种方法检查已确诊的乳腺癌患 者140名,A法检出91名(65%),B法检出77名 (55%),A、B两法一致的检出56名(40%),问哪 种方法阳性检出率更高? B法 A法 + - 合 计 + 56 (a) 35 (b) 91 - 21 (c) 28 (d) 49 合 计 77 63 140 中国人民大学统计学院 24 方法原理 显然,本例对同一个个体有两次不同的测量, 从设计的角度上讲可以被理解为自身配对设计 按照配对设计的思路进行分析,则首先应当求 出各对的差值,然后考察样本中差值的分布是 否按照H0假设的情况对称分布 按此分析思路,最终可整理出如前所列的配对 四格表
2016/5/8 方法原理 方法原理 ·注意 一素角提士西种检验方法的结论相同,对间题的解 根据得b、c两格的理论数均为五=T=(b+c2. 对应的配对检验统计量为: 线年0时,需用确切概率法进行检轮, 或进是 注意事项 配对四格表资料的检馨业e 制,雨种直液学检融结果比粒 甲法门 乙法 计 + r.cvI 2大 序和分布的识别 ▣从 >e80,10,3,10,22 rsomChi-squeredtetwihYhatecontinuiyeorecti 会生活不了 kd-2817,d-1.pac=aw959 陕序是主动的 McNemaschu1,df 1 p-value
2016/5/8 5 中国人民大学统计学院 25 方法原理 注意 – 主对角线上两种检验方法的结论相同,对问题的解 答不会有任何贡献 – 另两个单元格才代表了检验方法间的差异 假设检验步骤如下: – H0:两法总体阳性检出率无差别,即B = C – H1:两法总体阳性检出率有差别,即B C 中国人民大学统计学院 26 方法原理 mcci 56 35 21 28 根据H0得b、c两格的理论数均为Tb = Tc = (b+c)/2, 对应的配对检验统计量为: , 1 ( ) 2 2 b c b c 一般在 b + c < 40 时,需用确切概率法进行检验, 或者进行校正。 中国人民大学统计学院 27 注意事项 McNemar检验只会利用非主对角线单元格上的 信息,即它只关心两者不一致的评价情况,用 于比较两个评价者间存在怎样的倾向。因此, 对于一致性较好的大样本数据,McNemar检验 可能会失去实用价值。 – 例如对1万个案例进行一致性评价,9995个都是完 全一致的,在主对角线上,另有5个分布在左下的 三角区,显然,此时一致性相当的好。但如果使用 McNemar检验,此时反而会得出两种评价有差异的 结论来。 中国人民大学统计学院 例 : 两 种 血 清 学 检 验 结 果 比 较 甲 法 乙 法 合计 + - + 80 (a) 10 (b) 90 - 31 (c) 10 (d) 41 合 计 111 20 131 H 0: B = C H 1 : B C = 0 . 0 5 。 , 1 ( ) 2 2 b c b c 连 续 性 校 正 : , 1 (| | 1) 2 2 b c b c 当 b + c 4 0 时 可 不 校 正 , 而 b + c < 4 0 时 则 一 定 要 校 正 。 本 例 b + c = 1 0 + 3 1 = 4 1 > 4 0 , 不 需 作 连 续 性 校 正 , 计算得 10.76, 1 10 31 (10 31) 2 2 配对四格表资料的 检验 2 McNemar检验(McNemar's test) 中国人民大学统计学院 > ex=matrix(c(80,10,31,10),2,2) > chisq.test(ex) Pearson's Chi-squared test with Yates' continuity correction data: ex X-squared = 2.8817, df = 1, p-value = 0.08959 > mcnemar.test(ex) McNemar's Chi-squared test with continuity correction data: ex McNemar's chi-squared = 9.7561, df = 1, p-value = 0.001787 中国人民大学统计学院 序和分布的识别 从一般意义上,社会生活不能没有秩序; – 公务卡购票 – 安检 – 登机 – 享受飞翔的自由 稳定与秩序的辨别: – 稳定是被动的,秩序是主动的; – 稳定是静态的,秩序是动态的; – 稳定是不主张激活的,秩序则是与活力兼容的