第十一章分类资料的回归分析 Regression菜单详解(下) (医学统计之星:张文彤) 在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行, 我们的老祖先一一类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边 的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上 我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代, 只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统 计学应用上还是卡方检验横行,分层的MH卡方简直就是超级武器,在流行病学 中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多 种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐 龙完全统制地球, Logistic模型就已经飞速进化到了现代人的阶段,各种各样 的 Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样 贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远 离那些恐龙,来看看现代白领的生活方式 特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流 行病学,我这样写只是想说明近些年来统计方法的普及速度之快而己。 山据我一位学数学的师兄讲, Logistic模型和卡方在原理上是不一样的,在公 式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而己,多数 情况下可忽略其不同 §10.3 Binary logistic过程 所谓 Logistic模型,或者说 Logistic回归模型,就是人们想为两分类的应 变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可 是在实数集中,直接做会出现0^1范围之外的不可能结果,因此就有人耍小聪明, 将率做了一个 Logit变换,这样取值区间就变成了整个实数集,作出来的结果就 不会有问题了,从而该方法就被叫做了 Logistic回归 随着模型的发展, Logistic家族也变得人丁兴旺起来,除了最早的两分类 Logistic外,还有配对 Logistic模型,多分类 Logistic模型、随机效应的 Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分 类模型,下面我们就介绍一下最重要和最基本的两分类模型
第十一章 分类资料的回归分析 ――Regression 菜单详解(下) (医学统计之星:张文彤) 在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行, 我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边 的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上... 我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代, 只不过是我开机准备写这一部分的时候,心里忽然想到,在 10 年前,国内的统 计学应用上还是卡方检验横行,分层的 M-H 卡方简直就是超级武器,在流行病学 中称王称霸,更有那些 1:M 的配对卡方,N:M 的配对卡方,含失访数据的 N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多 种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐 龙完全统制地球,Logistic 模型就已经飞速进化到了现代人的阶段,各种各样 的 Logistic 模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样 贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远 离那些恐龙,来看看现代白领的生活方式。 特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流 行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。 据我一位学数学的师兄讲,Logistic 模型和卡方在原理上是不一样的,在公 式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数 情况下可忽略其不同。 §10.3 Binary Logistic 过程 所谓 Logistic 模型,或者说 Logistic 回归模型,就是人们想为两分类的应 变量作一个回归方程出来,可概率的取值在 0~1 之间,回归方程的应变量取值可 是在实数集中,直接做会出现 0~1 范围之外的不可能结果,因此就有人耍小聪明, 将率做了一个 Logit 变换,这样取值区间就变成了整个实数集,作出来的结果就 不会有问题了,从而该方法就被叫做了 Logistic 回归。 随着模型的发展,Logistic 家族也变得人丁兴旺起来,除了最早的两分类 Logistic 外,还有配对 Logistic 模型,多分类 Logistic 模型、随机效应的 Logistic 模型等。由于 SPSS 的能力所限,对话框只能完成其中的两分类和多分 类模型,下面我们就介绍一下最重要和最基本的两分类模型
10.3.1界面详解与实例 例11.1某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集 了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取26例资料作为示例 进行 logistic回归分析(本例来自《卫生统计学》第四版第11章)。 i:标本序号 ●xl:确诊时患者的年龄(岁 x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共3个等 x3:肾细胞癌组织内微血管数(MVC) x4:肾癌细胞核组织学分级,由低到高共4级 x5:肾细胞癌分期,由低到高共4期 y:肾细胞癌转移情况(有转移y=1;无转移y=0)。 3 43.4 57.2 23456789 61 190 51113411212231111 y00011 10 1234567 36 14 70 22123311113321131311322321 80 94.4 68.6 132.8 94.6 47.8 31.6 66.2 138.6 3 114 40.2 177.2 42124321312441232322442324 51.6 00000010010100110100 124 127.2 24 124.8 1344333 128
10.3.1 界面详解与实例 例 11.1 某研究人员在探讨肾细胞癌转移的有关临床病理因素研究中,收集 了一批行根治性肾切除术患者的肾癌标本资料,现从中抽取 26 例资料作为示例 进行 logistic 回归分析(本例来自《卫生统计学》第四版第 11 章)。 • i: 标本序号 • x1:确诊时患者的年龄(岁) • x2:肾细胞癌血管内皮生长因子(VEGF),其阳性表述由低到高共 3 个等 级 • x3:肾细胞癌组织内微血管数(MVC) • x4:肾癌细胞核组织学分级,由低到高共 4 级 • x5:肾细胞癌分期,由低到高共 4 期 • y: 肾细胞癌转移情况(有转移 y=1; 无转移 y=0)。 i x1 x2 x3 x4 x5 y 1 59 2 43.4 2 1 0 2 36 1 57.2 1 1 0 3 61 2 190 2 1 0 4 58 3 128 4 3 1 5 55 3 80 3 4 1 6 61 1 94.4 2 1 0 7 38 1 76 1 1 0 8 42 1 240 3 2 0 9 50 1 74 1 1 0 10 58 3 68.6 2 2 0 11 68 3 132.8 4 2 0 12 25 2 94.6 4 3 1 13 52 1 56 1 1 0 14 31 1 47.8 2 1 0 15 36 3 31.6 3 1 1 16 42 1 66.2 2 1 0 17 14 3 138.6 3 3 1 18 32 1 114 2 3 0 19 35 1 40.2 2 1 0 20 70 3 177.2 4 3 1 21 65 2 51.6 4 4 1 22 45 2 124 2 4 0 23 68 3 127.2 3 3 1 24 31 2 124.8 2 3 0 25 58 1 128 4 3 0
6031498431 在菜单上选择 Analyze=》 Regression=》 Binary logistic.,系统弹出 Logistic回归对话框如下 Dependent OK 参×4 Previous Block 1 of 1 Next Reset Covariates: Cancel Help >a b Method: Enter Select > Categorical Save Options 左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的 Covariates框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。 两框中间的是 BLOCK系列按扭,我在上一课已经讲过了,不再重复。中下部 的>a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什 么SPSS偏在这里做得不同),下方的 Method列表框用于选择变量进入方法,有 进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重 要,请大家听我慢慢道来: o Select>钮:用于限定一个筛选条件,只有满足该条件的记录才会 被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该 功能纯属多余,和专门的 Select对话框的功能重复了。 o Categorical钮:如果你的自变量是多分类的(如血型等),你必须 要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变 量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作 为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不 改也可以,默认的是以最大取值为基础水平,用 Deviance做比较
26 60 3 149.8 4 3 1 在菜单上选择 Analyze==》Regression==》Binary Logistic...,系统弹出 Logistic 回归对话框如下: 左侧是候选变量框,右上角是应变量框,选入二分类的应变量,下方的 Covariates 框是用于选入自变量的,只不过这里按国外的习惯被称为了协变量。 两框中间的是 BLOCK 系列按扭,我在上一课已经讲过了,不再重复。中下部 的>a*b>框是用于选入交互作用的,和其他的对话框不太相同(我也不知道为什 么 SPSS 偏在这里做得不同),下方的 Method 列表框用于选择变量进入方法,有 进入法、前进法和后退法三大类,三类之下又有细分。最下面的四个按钮比较重 要,请大家听我慢慢道来: o Select>>钮:用于限定一个筛选条件,只有满足该条件的记录才会 被纳入分析,单击它后对话框会展开让你填入相应的条件。不过我觉得该 功能纯属多余,和专门的 Select 对话框的功能重复了。 o Categorical 钮:如果你的自变量是多分类的(如血型等),你必须 要将它用哑变量的方式来分析,那么就要用该按钮将该变量指定为分类变 量,如果有必要,可用里面的选择按钮进行详细的定义,如以哪个取值作 为基础水平,各水平间比较的方法是什么等。当然,如果你弄不明白,不 改也可以,默认的是以最大取值为基础水平,用 Deviance 做比较
Covariates: Categorical Covariates Continue Cancel Help 静×5 ge Contrast Contrast: Indicator Reference Cato C Last C Fi Save钮:将中间结果存储起来供以后分析,共有预测值、影响强度 因子和残差三大类 Predicted values Residuals Continue Probabilitic 厂 Unstandardized Group membership Logit Cancel 厂 Studentized Influence Help 厂 Standardize 厂 Cook's 厂 Deviance 厂 Leverage values 厂 DfBeta(s Options钮:这一部分非常重要,但又常常被忽视,在这里我们可以 对模型作精确定义,还可以选择模型预测情况的描述方式,如 Statistics and plots中的 Classification plots就是非常重要的模型预测工具, Correlations of estimates则是重要的模型诊断工具, Iteration history可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在 病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有 用的
o Save 钮:将中间结果存储起来供以后分析,共有预测值、影响强度 因子和残差三大类。 o Options 钮:这一部分非常重要,但又常常被忽视,在这里我们可以 对模型作精确定义,还可以选择模型预测情况的描述方式,如 Statistics and Plots 中的 Classification plots 就是非常重要的模型预测工具, Correlations of estimates 则是重要的模型诊断工具,Iteration history 可以看到迭代的具体情况,从而得知你的模型是否在迭代时存在 病态,下方则可以确定进入和排除的概率标准,这在逐步回归中是非常有 用的
Logistic Regression: Options Statistics and Plots Continue Classification plots Correlations of estimates Hosmer-Lemeshow goodness-of-fit Iteration history Cancel Casewise listing of residuals CI for exp(B):95 % Help G Outliers outside std,dev C All cases play C At each step C At last step Probability for Stepwise Classification cutoff: Entry: Remoyal:.10 Maximum Iterations: 20 v Include constant in model 好,根据我们的目的,应变量为Y,而X1X5为自变量,具体的分析操作如 下 1. Analyze==》 Regression==》 Binary logistic 2. Dependent框:选入Y 3. Covariates框:选入x1x5 4.OK钮:单击 10.3.2结果解释 Logistic Regression Case Processing Summary Selected Cases Included in Analysis 1000 Missing Cases 1000 Unselected Cases a Mwe ItE h enect see cbs maui tbe tr te ttl imber ofcaset 上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处 因不存在缺失值,26条记录均纳入了分析
好,根据我们的目的,应变量为 Y,而 X1~X5 为自变量,具体的分析操作如 下: 1. Analyze==》Regression==》Binary Logistic... 2. Dependent 框:选入 Y 3. Covariates 框:选入 x1~x5 4. OK 钮:单击 10.3.2 结果解释 Logistic Regression 上表为记录处理情况汇总,即有多少例记录被纳入了下面的分析,可见此处 因不存在缺失值,26 条记录均纳入了分析