第六章:描述性统计分析 Descriptive Statistics菜单详解 (医学统计之星:张文彤) 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的 先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几 个模块则集中在 Descriptive Statistics菜单中,最常用的是列在最前面的四 个过程: Frequencies过程的特色是产生频数表; Descriptives过程则进行一般 性的统计描述; Explore过程用于对数据概况不清时的探索性分析; Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2 检验也在其中完成 心本章讲述的四个过程在9.0及以前版本中被放置在 Summarize菜单中。 §6.1 Frequencies过程 频数分布表是描述性统计中最常用的方法之一, Frequencies过程就是专门为产 生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位 点的数值,以及常用的条图,圆图等统计图。 山和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用 Frequencies过程得到我们所熟悉的频数表,请先用第二章学过的 Recode过程 产生一个新变量来代表所需的各组段。 6.1.1界面说明 Frequencies对话框的界面如下所示
第六章:描述性统计分析-- Descriptive Statistics 菜单详解 (医学统计之星:张文彤) 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的 先决条件。SPSS 的许多模块均可完成描述性分析,但专门为该目的而设计的几 个模块则集中在 Descriptive Statistics 菜单中,最常用的是列在最前面的四 个过程:Frequencies 过程的特色是产生频数表;Descriptives 过程则进行一般 性的统计描述;Explore 过程用于对数据概况不清时的探索性分析;Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的 X 2 检验也在其中完成。 本章讲述的四个过程在 9.0 及以前版本中被放置在 Summarize 菜单中。 §6.1 Frequencies 过程 频数分布表是描述性统计中最常用的方法之一,Frequencies 过程就是专门为产 生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位 点的数值,以及常用的条图,圆图等统计图。 和国内常用的频数表不同,几乎所有统计软件给出的均是详细频数表,即并 不按某种要求确定组段数和组距,而是按照数值精确列表。如果想用 Frequencies 过程得到我们所熟悉的频数表,请先用第二章学过的 Recode 过程 产生一个新变量来代表所需的各组段。 6.1.1 界面说明 Frequencies 对话框的界面如下所示:
价分组量p Variable[s]: OK 参血磷值冈 Paste Reset Cancel Hel y Display frequency tables Statistics Charts Format 该界面在SPSS中实在太普通了,无须多言,重点介绍一下各部分的功能如下 【 Display frequency tables复选框】 确定是否在结果中输出频数表。 【 Statistics钮】 单击后弹出 Statistics对话框如下,用于定义需要计算的其他描述统计量 Frequencies: Statistics Percentile Values Central Tendency Continue T Quartiles ean Cancel Cut points for 10 equal groups Median Help 厂 Percentile(s 厂Mode Add 厂Sum Change Remove Values are group midpoints Dispersion Distribution 厂Std. deviation厂 Minimum 厂 Skewness 厂 Variance 厂 Maximum 厂 Kurtosis 厂 Range 厂SE.mean 现将各部分解释如下:
该界面在 SPSS 中实在太普通了,无须多言,重点介绍一下各部分的功能如下: 【Display frequency tables 复选框】 确定是否在结果中输出频数表。 【Statistics 钮】 单击后弹出 Statistics 对话框如下,用于定义需要计算的其他描述统计量。 现将各部分解释如下:
o Percentile values复选框组定义需要输出的百分位数,可计算四分位 数( Quartiles)、每隔指定百分位输出当前百分位数( Cut points for qual groups)、或直接指定某个百分位数( Percentiles),如直 接指定输出P2.5和P97.5。 o Central tendency复选框组用于定义描述集中趋势的一组指标:均数 Mean)、中位数( Median)、众数(Mode)、总和(Sum)。 o Dispersion复选框组用于定义描述离散趋势的一组指标:标准差 (Std. deviation)、方差( Variance)、全距( Range)、最小值( Minimum)、 最大值( Maximum)、标准误(S.E.mean)。 Distribution复选框组用于定义描述分布特征的两个指标:偏度系数 ( Skewness)和峰度系数( Kurtosis)。 Values are group midpoints复选框当你输出的数据是分组频数数据, 并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。 山众数(Mode)指所有数值中出现频率最高的一个值,在国内用的非常少 【 Charts钮】 弹出 Charts对话框,用于设定所做的统计图。 o Chart type单选钮组定义统计图类型,有四种选择:无、条图(Bar chart)、圆图( Pie chart)、直方图 Histogram),其中直方图还可以选 择是否加上正态曲线( With normal curve o Chart values单选钮组定义是按照频数还是按百分比做图(即影响纵坐 标刻度) 【 Format钮】 弹出 Format对话框,用于定义输出频数表的格式,不过用处不大,一般不管。 o Order by单选钮组定义频数表的排列次序,有四个选项: Ascending values为根据数值大小按升序从小到大作频数分布; Descending values 为根据数值大小按降序从大到小作频数分布; Ascending counts为根据 频数多少按升序从少到多作频数分布; Descending counts为根据频数多 少按降序从多到少作频数分布。 Multiple variables单选钮组如果选择了两个以上变量做频数表,则 Compare variables可以将他们的结果在同一个频数表过程输出结果中显 示,便于互相比较, Organize output by variables则将结果在不同的 频数表过程输出结果中显示。 o Suppress tables more than...复选框当频数表的分组数大于下面设定 数值时禁止它在结果中输出,这样可以避免产生巨型表格。 6.1.2分析实例
o Percentile Values 复选框组 定义需要输出的百分位数,可计算四分位 数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles),如直 接指定输出 P2.5 和 P97.5。 o Central tendency 复选框组 用于定义描述集中趋势的一组指标:均数 (Mean)、中位数(Median)、众数(Mode)、总和(Sum)。 o Dispersion 复选框组 用于定义描述离散趋势的一组指标:标准差 (Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、 最大值(Maximum)、标准误(S.E.mean)。 o Distribution 复选框组 用于定义描述分布特征的两个指标:偏度系数 (Skewness)和峰度系数(Kurtosis)。 o Values are group midpoints 复选框 当你输出的数据是分组频数数据, 并且具体数值是组中值时,选中该复选框以通知 SPSS,免得它犯错误。 众数(Mode)指所有数值中出现频率最高的一个值,在国内用的非常少。 【Charts 钮】 弹出 Charts 对话框,用于设定所做的统计图。 o Chart type 单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图 Histogram),其中直方图还可以选 择是否加上正态曲线(With normal curve)。 o Chart Values 单选钮组 定义是按照频数还是按百分比做图(即影响纵坐 标刻度)。 【Format 钮】 弹出 Format 对话框,用于定义输出频数表的格式,不过用处不大,一般不管。 o Order by 单选钮组 定义频数表的排列次序,有四个选项:Ascending values 为根据数值大小按升序从小到大作频数分布;Descending values 为根据数值大小按降序从大到小作频数分布;Ascending counts 为根据 频数多少按升序从少到多作频数分布;Descending counts 为根据频数多 少按降序从多到少作频数分布。 o Multiple Variables 单选钮组 如果选择了两个以上变量做频数表,则 Compare variables 可以将他们的结果在同一个频数表过程输出结果中显 示,便于互相比较,Organize output by variables 则将结果在不同的 频数表过程输出结果中显示。 o Suppress Tables more than...复选框 当频数表的分组数大于下面设定 数值时禁止它在结果中输出,这样可以避免产生巨型表格。 6.1.2 分析实例
例6.1某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直 方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5(卫统第三版 p2331.1题)。 4.773.376.143.953.564.234.314.715.694.124.564.375.396.305.21 7.225.543.935.214.125.185.774.795.125.205.104.704.743.504.69 4.384.896.255.324.504.633.614.444.434.254.035.854.093.354.08 4.795.304.973.183.975.165.105.864.795.344.244.324.776.366.38 4.885.553.044.553.354.874.175.855.165.094.524.384.314.585.72 6.554.764.614.174.034.473.403.912.704.604.095.965.484.404.55 5.383.894.604.473.644.345.186.143.244.903.05 解:为节省篇幅,这里只给岀精确频数表的做法,假设数据已经输好,变量名为 X,具体解法如下: 1. Analyze==>Descriptive Statistics==>Frequencies 2. Variables框:选入X 3.单击 Statistics钮: 4.选中Mean、Std. deviation、 Median复选框 5.单击 Percentiles:输入2.5:单击Add:输入97.5:单击Ad: 6.单击 Continue钮 7.单击 Charts钮: 8.选中 Bar charts 9.单击 Continue钮 10.单击OK 得出结果后手工计算出CV D上面做出的直方图分组太多,需要进一步编辑 6.1.3结果解释 上题除直方图外的的输出结果如下 Frequencies
例 6.1 某地 101 例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直 方图,计算均数、标准差、变异系数 CV、中位数 M、p2.5 和 p97.5(卫统第三版 p233 1.1 题)。 4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.71 5.69 4.12 4.56 4.37 5.39 6.30 5.21 7.22 5.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.89 6.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.60 4.09 5.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.18 6.14 3.24 4.90 3.05 解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为 X,具体解法如下: 1. Analyze==>Descriptive Statistics==>Frequencies 2. Variables 框:选入 X 3. 单击 Statistics 钮: 4. 选中 Mean、Std.deviation、Median 复选框 5. 单击 Percentiles:输入 2.5:单击 Add:输入 97.5:单击 Add: 6. 单击 Continue 钮 7. 单击 Charts 钮: 8. 选中 Bar charts 9. 单击 Continue 钮 10.单击 OK 得出结果后手工计算出 CV。 上面做出的直方图分组太多,需要进一步编辑。 6.1.3 结果解释 上题除直方图外的的输出结果如下: Frequencies
statistics Median Std Deviation 861615 最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0 例,均数Mean=4.69,中位数 Median=4.61,标准差STD=0.8616,P2.5=3.04, P97.5=6.45。 Percent alid Percent Percent valid 2,7000 30400 10 3.2400 系统对变量ⅹ作频数分布表(此处只列出了开头部分), Vaild右侧为原始值, Frequency为频数, Percent为各组频数占总例数的百分比(包括缺失记录在内), Valid percent为各组频数占总例数的有效百分比, Cum Percent为各组频数占 总例数的累积百分比。 §6.2 Descriptives过程 Descriptives过程是连续资料统计描述应用最多的一个过程,他可对变量进行 描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不 同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量 的形式存入数据库供以后分析 6.2.1界面说明 【 Save standardized values as variables复选框】 确定是否将原始数据的标准正态评分存为新变量。 【 Options钮】
最上方为表格名称,左上方为分析变量名,可见样本量 N 为 101 例,缺失值 0 例,均数 Mean=4.69,中位数 Median=4.61,标准差 STD=0.8616,P2.5=3.04, P97.5=6.45。 系统对变量 x 作频数分布表(此处只列出了开头部分),Vaild 右侧为原始值, Frequency 为频数,Percent 为各组频数占总例数的百分比(包括缺失记录在内), Valid percent 为各组频数占总例数的有效百分比,Cum Percent 为各组频数占 总例数的累积百分比。 §6.2 Descriptives 过程 Descriptives 过程是连续资料统计描述应用最多的一个过程,他可对变量进行 描述性统计分析,计算并列出一系列相应的统计指标。这和其他过程相比并无不 同。但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量 的形式存入数据库供以后分析。 6.2.1 界面说明 【Save standardized values as variables 复选框】 确定是否将原始数据的标准正态评分存为新变量。 【Options 钮】