第3章统计数据的整理与显示 【学习目标】 本章主要介绍了统计整理是统计调査的继续,又是统计分析的前 提。介绍了统计整理的概念和内容,统计分组的方法,分配数列的概 念、种类以及编制分配数列的基本步骤。统计资料汇总的组织形式和 具体方法。 【基本要求】 学习本章内容,要求学习者注意统计资料整个工作过程的有关问 题,掌握统计资料整理的程序、步骤和方法,绘制统计图,编制统计 通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行 加工整理,使之系统化、条理化,以符合分析的需要。通过整理可以 大大简化数据,使我们更容易理解和分析。数据整理通常包括数据的 预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的 必要步骤 【学习内容】 3.1数据的预处理 数据的预处理是数据整理的先前步骤,是在对数据分类或分组之 前所做的必要处理,包括数据的审核、筛选、排序等。 3.1.1数据的审核与筛选 在对统计数据进行整理时,首先要进行审核,以保证数据的质量 为进一步的整理与分析打下基础。从不同渠道取得的统计数据,其审 核内容和方法有所不同,不同类型的统计数据在审核内容和方法上也 有所差异。 对于通过直接调查取得的原始数据,应主要从完整性和准确性两 个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗
第 3 章 统计数据的整理与显示 【学习目标】 本章主要介绍了统计整理是统计调查的继续,又是统计分析的前 提。介绍了统计整理的概念和内容,统计分组的方法,分配数列的概 念、种类以及编制分配数列的基本步骤。统计资料汇总的组织形式和 具体方法。 【基本要求】 学习本章内容,要求学习者注意统计资料整个工作过程的有关问 题,掌握统计资料整理的程序、步骤和方法,绘制统计图,编制统计 表。 通过各种渠道将统计数据搜集上来之后,首先应对这些数据进行 加工整理,使之系统化、条理化,以符合分析的需要。通过整理可以 大大简化数据,使我们更容易理解和分析。数据整理通常包括数据的 预处理、分类或分组、汇总等几个方面的内容,它是统计分析之前的 必要步骤。 【学习内容】 3.1 数据的预处理 数据的预处理是数据整理的先前步骤,是在对数据分类或分组之 前所做的必要处理,包括数据的审核、筛选、排序等。 3.1.1 数据的审核与筛选 在对统计数据进行整理时,首先要进行审核,以保证数据的质量, 为进一步的整理与分析打下基础。从不同渠道取得的统计数据,其审 核内容和方法有所不同,不同类型的统计数据在审核内容和方法上也 有所差异。 对于通过直接调查取得的原始数据,应主要从完整性和准确性两 个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗
漏,所有的调査项目或指标是否填写齐全等。准确性审核主要包括两 个方面:一是检査数据资料是否真实地反映了客观实际情况,内容是 否符合实际:二是检査数据是否有错误,计算是否正确等。审核数据 准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是从定性角 度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相 互矛盾的现象。比如中学文化程度的人所填的职业是大学教师,对于 这种违背逻辑的项目应予以纠正。逻辑检查主要用于对定类数据和定 序数据的审核。计算检査是检查调查表中的各项数据在计算结果和计 算方法上有无错误。比如各分项数字之和是否等于相应的合计数,各 结构比例之和是否等于1或100%,出现在不同表格上的同一指标数值 是否相同,等等。计算检查主要用于对定距数据和定比数据的审核 对于通过其他渠道取得的第二手数据,除了对其完整性和准确性 进行审核外,还应首重审核数据的适用性和时效性。第二手数据可以 来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的, 或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先 应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这 些数据是否符合分析研究的需要,是否需要重新加工整理等,不能盲 目生搬硬套。此外,还要对数据的时效性进行审核,有些时效性较强 的问题,如果所取得的数据过于滞后,就失去了研究的意义。一般来 说,应尽可能使用最新的统计数据。数据经过审核后,确认适合实际 需要,才有必要做进一步的加工整理。 对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数 据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又 无法弥补时,就需要对数据进行筛选。数据筛选包括两方面内容: 是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符 合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除 数据的筛选在市场调查中是十分重要的 3.12.数据的排序 数据排序是按一定顺序将数据排列,以便于研究者通过游览数据 发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序 还有助于对数据检査纠错,为重新归类或分组等提供依据。在某些场 合,排序本身就是分析的目的之一。例如,了解究竟谁是中国家电生 产的三巨头,对于家电厂商而言是很有用的信息。美国的《财富》杂 志每年都要排出世界500强企业,通过这一信息,经营者不仅可以了 解自己企业所处的地位,清楚自己的差距,还可了解到竞争对手的状
漏,所有的调查项目或指标是否填写齐全等。准确性审核主要包括两 个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是 否符合实际;二是检查数据是否有错误,计算是否正确等。审核数据 准确性的方法主要有逻辑检查和计算检查。逻辑检查主要是从定性角 度审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相 互矛盾的现象。比如中学文化程度的人所填的职业是大学教师,对于 这种违背逻辑的项目应予以纠正。逻辑检查主要用于对定类数据和定 序数据的审核。计算检查是检查调查表中的各项数据在计算结果和计 算方法上有无错误。比如各分项数字之和是否等于相应的合计数,各 结构比例之和是否等于 1 或 100%,出现在不同表格上的同一指标数值 是否相同,等等。计算检查主要用于对定距数据和定比数据的审核。 对于通过其他渠道取得的第二手数据,除了对其完整性和准确性 进行审核外,还应首重审核数据的适用性和时效性。第二手数据可以 来自多种渠道,有些数据可能是为特定目的通过专门调查而取得的, 或者是已经按特定目的的需要做了加工整理。对于使用者来说,首先 应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这 些数据是否符合分析研究的需要,是否需要重新加工整理等,不能盲 目生搬硬套。此外,还要对数据的时效性进行审核,有些时效性较强 的问题,如果所取得的数据过于滞后,就失去了研究的意义。一般来 说,应尽可能使用最新的统计数据。数据经过审核后,确认适合实际 需要,才有必要做进一步的加工整理。 对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数 据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又 无法弥补时,就需要对数据进行筛选。数据筛选包括两方面内容:一 是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符 合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。 数据的筛选在市场调查中是十分重要的。 3.1.2. 数据的排序 数据排序是按一定顺序将数据排列,以便于研究者通过游览数据 发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序 还有助于对数据检查纠错,为重新归类或分组等提供依据。在某些场 合,排序本身就是分析的目的之一。例如,了解究竟谁是中国家电生 产的三巨头,对于家电厂商而言是很有用的信息。美国的《财富》杂 志每年都要排出世界 500 强企业,通过这一信息,经营者不仅可以了 解自己企业所处的地位,清楚自己的差距,还可了解到竞争对手的状
况,从而有效制定企业发展的规划和战略目标 对于定类数据,如果是字母型数据,排序有升序与降序之分,但 习惯上升序使用得更普遍,因为升序与字母的自然排列相同:如果是 汉字型数据,排序方式很多,比如按汉字的首位拼音字母排列,这与 字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的 升序降序之分。交替运用不同方式排序,在汉字型数据的检查纠错过 程中十分有用。 定距数据和定比数据的排序只有两种,即递增和递减。设一组数 据为X1,X2,…XN,递增排序后可表示为:X(1<X(2)<…<X(N:递 减排序可表示为:X1)>X(2)>…>X(N排序后的数据也称为顺序统计 量( Order statistics)。无论是品质数据还是数值型数据,排序均可借助 于计算机完成 3.2品质数据的整理与显示 数据经过预处理后,可进一步做分类或分组整理。在对数据进行 整理时,首先要弄清数据的类型,因为对于不同类型的数据所采取的 处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整 理,对数值型数据则主要是做分组整理。 3.21定类数据的整理与显示 定类数据本身就是对事物的一种分类,因此,在整理时除了要列 出所分的类别外,还要计算出每一类别的频数、频率或比例、比率, 同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了 1.频数与频数分布 (1)频数( Frequency)。频数也称次数,是落在各类别中的数据 个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称 次数分布( Frequency distribution)。将频数分布用表格的形式表现出来 就是频数分布表 例3-1为研究广告市场的状况,一家广告公司在某城市随机抽 取200人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较 关心下列哪一类广告?” a商品广告:b.服务广告;c.金融广告:d.房地产广告:e.招生
况,从而有效制定企业发展的规划和战略目标。 对于定类数据,如果是字母型数据,排序有升序与降序之分,但 习惯上升序使用得更普遍,因为升序与字母的自然排列相同;如果是 汉字型数据,排序方式很多,比如按汉字的首位拼音字母排列,这与 字母型数据的排序完全一样,也可按笔画排序,其中也有笔画多少的 升序降序之分。交替运用不同方式排序,在汉字型数据的检查纠错过 程中十分有用。 定距数据和定比数据的排序只有两种,即递增和递减。设一组数 据为 X1,X2,…XN,递增排序后可表示为:X(1)<X(2)<…<X(N );递 减排序可表示为:X(1)>X(2)>…>X(N)。排序后的数据也称为顺序统计 量(Order statistics)。无论是品质数据还是数值型数据,排序均可借助 于计算机完成。 3.2 品质数据的整理与显示 数据经过预处理后,可进一步做分类或分组整理。在对数据进行 整理时,首先要弄清数据的类型,因为对于不同类型的数据所采取的 处理方式和所适用的处理方法是不同的。对品质数据主要是做分类整 理,对数值型数据则主要是做分组整理。 3.2.1 定类数据的整理与显示 定类数据本身就是对事物的一种分类,因此,在整理时除了要列 出所分的类别外,还要计算出每一类别的频数、频率或比例、比率, 同时选择适当的图形进行显示,以便对数据及其特征有一个初步的了 解。 1. 频数与频数分布 (1)频数(Frequency)。频数也称次数,是落在各类别中的数据 个数。我们把各个类别及其相应的频数全部列出来就是频数分布或称 次数分布(Frequency distribution)。将频数分布用表格的形式表现出来 就是频数分布表。 例 3–1 为研究广告市场的状况,一家广告公司在某城市随机抽 取 200 人就广告问题做了邮寄问卷调查,其中的一个问题是:“您比较 关心下列哪一类广告?” a 商品广告;b. 服务广告;c. 金融广告;d. 房地产广告;e. 招生
招聘广告:f.其他广告。 这里的变量就是“广告类别”,不同类型的广告就是变量值。调查 数据经分类整理后形成频数分布表。见表3-1 表3-1某城市居民关注广告类型的频数分布表 广告类型 人数(人) 商品广告 金融广告 房地产广告 招生招聘广告 其他广告 0.010 很显然,如果不做分类整理,观察200个人对不同广告的关注情 况,既不便于理解,也不便于分析。经分类整理后,可以大大简化数 据,很容易看出关注“商品广告”的人数最多,而关注“其他广告 的人数最少。 (2)比例( Proportion)。比例是一个总体中各个部分的数量占总体 数据的比重,通常用于反映总体的构成或结构。假定总体数量N被分 成K个部分,每一部分的数量分别为N1,N2,…Nk,则比例定义为 显然,各部分的比例之和等于1,即 ++…+ NN N 比例是将总体中各个部分的数值都变成同一个基数,也就是都以1 为基数,这样就可以对不同类别的数值进行比较了。比如,在上面的 例子中,关注金融广告和招生招聘广告的人数比例差不多相同。 (3)百分比( Percentage)。将比例乘以100就是百分比或百分数, 它是将对比的基数抽象化为100而计算出来的,用%表示,它表示每 100个分母中拥有多少个分子。比如在上面的例子中,频率一档就是将 比例乘以100而得到的百分比。百分比是一个更为标准化的数值,很 多相对数都用百分比表示。当分子的数值很小而分母的数值很大时, 也可以用千分数(‰)来表示比例,如人口的出生率、死亡率、自然 增长率等都可用千分数来表示 (4)比率( Ratio)。比率是各不同类别的数量的比值。它可以是一个
招聘广告;f. 其他广告。 这里的变量就是“广告类别”,不同类型的广告就是变量值。调查 数据经分类整理后形成频数分布表。见表 3–1。 表 3-1 某城市居民关注广告类型的频数分布表 广告类型 人数(人) 比例 频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 112 51 9 16 10 2 0.560 0.255 0.045 0.080 0.050 0.010 56.0 25.5 4.5 8.0 5.0 1.0 合 计 200 1 100 很显然,如果不做分类整理,观察 200 个人对不同广告的关注情 况,既不便于理解,也不便于分析。经分类整理后,可以大大简化数 据,很容易看出关注“商品广告”的人数最多,而关注“其他广告” 的人数最少。 (2)比例(Proportion)。比例是一个总体中各个部分的数量占总体 数据的比重,通常用于反映总体的构成或结构。假定总体数量 N 被分 成 K 个部分,每一部分的数量分别为 N1,N2,…NK,则比例定义为 N Ni 。 显然,各部分的比例之和等于 1,即 1 1 + 2 + + = N N N N N N K 比例是将总体中各个部分的数值都变成同一个基数,也就是都以 1 为基数,这样就可以对不同类别的数值进行比较了。比如,在上面的 例子中,关注金融广告和招生招聘广告的人数比例差不多相同。 (3)百分比(Percentage)。将比例乘以 100 就是百分比或百分数, 它是将对比的基数抽象化为 100 而计算出来的,用%表示,它表示每 100 个分母中拥有多少个分子。比如在上面的例子中,频率一档就是将 比例乘以 100 而得到的百分比。百分比是一个更为标准化的数值,很 多相对数都用百分比表示。当分子的数值很小而分母的数值很大时, 也可以用千分数(‰)来表示比例,如人口的出生率、死亡率、自然 增长率等都可用千分数来表示。 (4)比率(Ratio)。比率是各不同类别的数量的比值。它可以是一个
总体中各不同部分的数量对比,比如在上面的例子中,关注商品广告 的人数与关注服务广告人数的比率是112:51。为便于理解,通常将分 母化为1。比如,关注商品广告和关注服务广告人数的比率是221。 由于比率不是总体中部分与整体之间的对比关系,因而比值可能 大于1。为方便起见,比率可以不用1作为基数,而用100或其他便于 理解的数作基数。比如,人口的性别比就用每100名女性人口所对应 的男性人口来表示,如性别比为105:100,表示每100个女人对应105 个男人,说明男性人口数量略多于女性人口 在经济和社会问题的研究中,经常使用比率。比如经济学中的积 累与消费之比,国内生产总值中第一、二、三产业产值之比,等等。 比率也可以是同一现象在不同时间或空间上的数量之比,比如将2001 年的国内生产总值与2000年的国内生产总值进行对比,可以得到经济 增长率:将一个地区的国内生产总值同另一个地区的国内生产总值进 行对比,反映两个地区的经济发展水平差异,等等。 2.定类数据的图示 上面我们是用频数分布表示反映分类数据的频数分布。如果用图 形来显示频数分布,就会更加形象和直观。一张好的统计图表,往往 胜过冗长的文字表述。统计图的类型有很多,多数统计图除了可以绘 制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机 来完成。这里首先介绍反映定类数据的图示方法,其中包括条形图和 圆形图。如果两个总体或两个样本的分类相同且问题可比时,还可以 绘制环形图。 (1)条形图( Bar chart)。条形图是用宽度相同的条形的高度或长短 来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形 图。条形图有单式、复式等形式。例如,根据表3-1数据绘制的条形 图如图3-1所示。 (2)圆形图( Pie chart)。圆形图也称饼图,是用圆形及圆内扇形的 面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分 所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体 中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心 角度是按各部分百分比占360°的相应比例确定的。例如,关注服务广 告的人数占总人数的百分比为25.5%,那么其扇形的中心角度就应为 360°×25.5%=918°,其余类推 根据表3-1数据绘制的圆形图如图3-2所示。 其他广告b2 招生招聘广告□10 房地产广告[16
总体中各不同部分的数量对比,比如在上面的例子中,关注商品广告 的人数与关注服务广告人数的比率是 112:51。为便于理解,通常将分 母化为 1。比如,关注商品广告和关注服务广告人数的比率是 2.2:1。 由于比率不是总体中部分与整体之间的对比关系,因而比值可能 大于 1。为方便起见,比率可以不用 1 作为基数,而用 100 或其他便于 理解的数作基数。比如,人口的性别比就用每 100 名女性人口所对应 的男性人口来表示,如性别比为 105:100,表示每 100 个女人对应 105 个男人,说明男性人口数量略多于女性人口。 在经济和社会问题的研究中,经常使用比率。比如经济学中的积 累与消费之比,国内生产总值中第一、二、三产业产值之比,等等。 比率也可以是同一现象在不同时间或空间上的数量之比,比如将 2001 年的国内生产总值与 2000 年的国内生产总值进行对比,可以得到经济 增长率;将一个地区的国内生产总值同另一个地区的国内生产总值进 行对比,反映两个地区的经济发展水平差异,等等。 2. 定类数据的图示 上面我们是用频数分布表示反映分类数据的频数分布。如果用图 形来显示频数分布,就会更加形象和直观。一张好的统计图表,往往 胜过冗长的文字表述。统计图的类型有很多,多数统计图除了可以绘 制二维平面图外,还可以绘制三维立体图。图形的制作均可由计算机 来完成。这里首先介绍反映定类数据的图示方法,其中包括条形图和 圆形图。如果两个总体或两个样本的分类相同且问题可比时,还可以 绘制环形图。 (1)条形图(Bar chart)。条形图是用宽度相同的条形的高度或长短 来表示数据变动的图形。条形图可以横置或纵置,纵置时也称为柱形 图。条形图有单式、复式等形式。例如,根据表 3–1 数据绘制的条形 图如图 3–1 所示。 (2)圆形图(Pie chart)。圆形图也称饼图,是用圆形及圆内扇形的 面积来表示数值大小的图形。圆形图主要用于表示总体中各组成部分 所占的比例,对于研究结构性问题十分有用。在绘制圆形图时,总体 中各部分所占的百分比用圆内的各个扇形面积表示,这些扇形的中心 角度是按各部分百分比占 360°的相应比例确定的。例如,关注服务广 告的人数占总人数的百分比为 25.5%,那么其扇形的中心角度就应为 360°×25.5%=91.8°,其余类推。 根据表 3–1 数据绘制的圆形图如图 3–2 所示。 人数(人) 0 4 0 8 0 120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 广 告 2 10 16 9