第三章数据的描述 当我们面对一大堆数据时,往往使人眼花缭乱。没有人能够记住那些巨 大的数据中的所有数值,但总是可以对数据形成一些印象。有些特征大略了解 下就可以得到 这些数据的大致范围;是定性还是定量;有多少变量;收集该数据的目 的等等。 本章介绍如何来简单用图表和少数的一些数字来概括数据的某些特征。 当然,由于数据是从总体中产生的,其特征也反映了总体的特征。对数 据的描述也是对其总体的一个近似的描述。 第一节用图来表示数据 如何用图表来显示数据? 变量分为定性变量和定量变量 定性变量主要反映现象的分类情况, 定量变量主要反映现象的数值大小; 因此对不同的变量采用的图形表示也不相同 二、定量变量的图表示 表示定量变量常用的图形
第三章 数据的描述 当我们面对一大堆数据时,往往使人眼花缭乱。没有人能够记住那些巨 大的数据中的所有数值,但总是可以对数据形成一些印象。有些特征大略了解一 下就可以得到: 这些数据的大致范围;是定性还是定量;有多少变量;收集该数据的目 的等等。 本章介绍如何来简单用图表和少数的一些数字来概括数据的某些特征。 当然,由于数据是从总体中产生的,其特征也反映了总体的特征。对数 据的描述也是对其总体的一个近似的描述。 第一节 用图来表示数据 一、如何用图表来显示数据? 变量分为定性变量和定量变量: 定性变量主要反映现象的分类情况, 定量变量主要反映现象的数值大小; 因此对不同的变量采用的图形表示也不相同 二、定量变量的图表示 表示定量变量常用的图形:
直方图、盒型图、茎叶图、散点图 直方图 对于一个定量变量,比如某个地区(地区1)学校高三男生的身高; 有163个度量 地区1高三男生身高(cmm) Std. Dev =10.91 Mean=170.9 150.0160.0170.0180.0190.0200.0 155.0165.0175 185.0195.0 地区1高三男生高度 如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形 状”呢?一个办法就是画一个直方图( histogram)。Spss选 项: Graphs- Histogram(图3.1) 该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽 度因不同的数据或要求而定),而纵坐标为各种身高区间的身高的频 数。 比如在170cm左右5cm范围的观测值有34个(最高的—个矩 形条),而165cm附近5cm内有28个(第二高的矩形),在175cm附 近5cm范围有26个而在2米附近的区间只有4个观测等等 直
直方图、盒型图、茎叶图、散点图 直方图 对于一个定量变量,比如某个地区(地区 1 )学校高三男生的身高; 有 163 个度量。 如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或 “ 形 状 ” 呢?一个办法就是画一个直方图 (histogram) 。 Spss 选 项 :Graphs-Histogram (图 3.1 ) 该图的横坐标是身高区间,这里每一格代表 5cm 的身高范围(格子宽 度因不同的数据或要求而定),而纵坐标为各种身高区间的身高的频 数。 比如在 170cm 左右 5cm 范围的观测值有 34 个(最高的一个矩 形条),而 165cm 附近 5cm 内有 28 个(第二高的矩形),在 175cm 附 近 5cm 范围有 26 个,而在 2 米 附近的区间只有 4 个观测等等。 直
方图的纵坐标也可以是百分比,即把频数除以样本量。显然用百分比得到的图形 和用频数所得到的形状一样;只是量纲不同而已。 盒型图 比直方图简单一些的是盒形图( boxplot,又称箱图、箱线图、盒子 图)。图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图 其右边的图代表另一个地区(地区2)的高三学生的身高(SPSS数据文件为 eight.sav)。 高三男生身 地区 盒子的中间横线是数据的中位数( median),它是下节要引进的量之一。顾名思 义,中位数是数据中占据中间位子的数,即数据中有一半大于中位数(在其之上), 另一半小于中位数(在其之下) spss选项: Graphs- Boxplot(图3.2) 封闭盒子的上下两横线(边)为上下四分位数(点);其意义为:数据 中有四分之一的数目大于上四分位数,即在盒子之上;另外有四分之一的数目小
方图的纵坐标也可以是百分比,即把频数除以样本量。显然用百分比得到的图形 和用频数所得到的形状一样;只是量纲不同而已。 盒型图 比直方图简单一些的是盒形图 (boxplot ,又称箱图、箱线图、盒子 图 ) 。图 3.2 的左边一个是根据地区 1 高三男生的身高数据所绘的盒形图; 其右边的图代表另一个地区(地区 2 )的高三学生的身高( SPSS 数据文件为: height.sav )。 盒子的中间横线是数据的中位数 (median) ,它是下节要引进的量之一。顾名思 义,中位数是数据中占据中间位子的数,即数据中有一半大于中位数(在其之上), 另一半小于中位数(在其之下)。 Spss 选项 :Graphs-Boxplot (图 3.2 ) 封闭盒子的上下两横线(边)为上下四分位数(点);其意义为:数据 中有四分之一的数目大于上四分位数,即在盒子之上;另外有四分之一的数目小
于下四分位数,即在盒子之下 因此有一半的数目在中间封闭盒子的范 围内。有一半分布在盒子上下两边 在盒子上下两边分别各有一条纵向的线段,表明盒子外面点的分 布。 若干个盒形图往往放在一个图中比较。从图中可以看出左面的度量 比右边的分散得多,但总的来说似乎地区1的学生要高一些。 按照 SPSs的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之 内,则线的端点为最大和最小值。 距离四分位数大于1.5倍盒子长度的 数值点则被软件认为是离群点( outlier),单独点出 而超过盒长三倍 的被认为是极端值( extreme)。当然不同的软件及不同选项所生成的盒形图两 头线长的定义不尽相同,但封闭盒子长度的定义基本一样 茎叶图 在上面介绍的直方图和盒形图中,已经看不到数值,因此很难恢复数据 的原貌。 下面引进另一种图茎叶图(stem-and- eaf plots) 地区1高三男生身高为例的,茎叶图既展示了分布形状又有原始数据。它象一 片带有茎的叶子。茎为较大的数目,图3.3是用SPSS画的地区1高三男生 身高的茎叶图(SPSS数据文件:s3 height1.sav),虽然看起来不象一个 地区1高三男生高度Stem-and- Leaf plot Frequency Stem Leaf
于下四分位数,即在盒子之下。 因此有一半的数目在中间封闭盒子的范 围内。有一半分布在盒子上下两边。 在盒子上下两边分别各有一条纵向的线段,表明盒子外面点的分 布。 若干个盒形图往往放在一个图中比较。从图中可以看出左面的度量 比右边的分散得多,但总的来说似乎地区 1 的学生要高一些。 按照 SPSS 的默认选项,如果所有样本中的数目都在离四分位点 1.5 倍盒子长度之 内,则线的端点为最大和最小值。 距离四分位数大于 1.5 倍盒子长度的 数值点则被软件认为是离群点 (outlier) ,单独点出; 而超过盒长三倍 的被认为是极端值 (extreme) 。当然不同的软件及不同选项所生成的盒形图两 头线长的定义不尽相同,但封闭盒子长度的定义基本一样。 茎叶图 在上面介绍的直方图和盒形图中,已经看不到数值,因此很难恢复数据 的原貌。 下面引进另一种图:茎叶图 (stem-and-leaf plots) 。 以 地区 1 高三男生身高为例的,茎叶图既展示了分布形状又有原始数据。它象一 片带有茎的叶子。茎为较大的数目,图 3.3 是用 SPSS 画的地区 1 高三男生 身高的茎叶图 (SPSS 数据文件: S3height1.sav) ,虽然看起来不象一个 “ 图 ” 。 地区 1 高三男生高度 Stem-and-Leaf Plot Frequency Stem & Leaf
9.00 15.001223344 17.00 15.55666667778899999 20.00 16.01112222223333333444 16 55555666666667777788888888888999999 25.00 17 0000000011112222233333344 555666677777777777888899 18.0111111122333 1.00 18.55667788899 19.2333 2.00 19.56 3.00 Extremes(>=198) Stem width: 10.00 Each leaf: 1 case(s)
9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s)