第二章资料的整理 由调査或试验收集来的原始资料,往往是零乱的,无规律性可循。只有通过统计整理, 才能发现其内部的联系和规律性,从而揭示事物的本质。资料整理是进一步统计分析的基础, 本章首先介绍资料的分类,然后介绍不同类型资料的整理方法 第一节资料的分类 正确地进行资料的分类是资料整理的前提。在调査或试验中,由观察、测量所得的数据 按其性质的不同,一般可以分为数量性状资料、质量性状资料和半定量(等级)资料三大类。 、数量性状资料 数量性状( quantitative character)是指能够以量测或计数的方式表示其特征的性状。观察 测定数量性状而获得的数据就是数量性状资料( data of quantitative characteristics)。数量性 状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种 (一)计量资料指用量测手段得到的数量性状资料,即用度、量、衡等计量工具 直接测定的数量性状资料。其数据是用长度、容积、重量等来表示,如体高、产奶量、体重、 绵羊剪毛量等。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任 何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此, 计量资料也称为连续性变异资料 (二)计数资料指用计数方式得到的数量性状资料。在这类资料中,它的各个 观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如猪的产仔数、 鸡的产蛋数、鱼的尾数、母猪的乳头数等,这些观察值只能以整数来表示,各观察值是不连 续的,因此该类资料也称为不连续性变异资料或间断性变异资料。 二、质量性状资料 质量性状( qualitative character)是指能观察到而不能直接测量的性状,如颜色、性别、 生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果 作数量化处理,其方法有以下两种: (一)统计次数法在一定的总体或样本中,根据某一质量性状的类别统计其次数 以次数作为质量性状的数据。例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白 猪、黑猪和花猪的头数分类统计如下表 表2-1白猪和黑猪子二代的毛色分离情况 次数( 频率(%) 白色 332 73.78 黑色 21.33 花色 合计 450 100.00
11 第二章 资料的整理 由调查或试验收集来的原始资料,往往是零乱的,无规律性可循。只有通过统计整理, 才能发现其内部的联系和规律性,从而揭示事物的本质。资料整理是进一步统计分析的基础, 本章首先介绍资料的分类,然后介绍不同类型资料的整理方法。 第一节 资料的分类 正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据 按其性质的不同,一般可以分为数量性状资料、质量性状资料和半定量(等级)资料三大类。 一、数量性状资料 数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。观察 测定数量性状而获得的数据就是数量性状资料(data of quantitative characteristics)。数量性 状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种。 (一)计量资料 指用量测手段得到的数量性状资料,即用度、量、衡等计量工具 直接测定的数量性状资料。其数据是用长度、容积、重量等来表示,如体高、产奶量、体重、 绵羊剪毛量等。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任 何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此, 计量资料也称为连续性变异资料。 (二)计数资料 指用计数方式得到的数量性状资料。在这类资料中,它的各个 观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如猪的产仔数、 鸡的产蛋数、鱼的尾数、母猪的乳头数等,这些观察值只能以整数来表示,各观察值是不连 续的,因此该类资料也称为不连续性变异资料或间断性变异资料。 二、质量性状资料 质量性状(qualitative character)是指能观察到而不能直接测量的性状,如颜色、 性别、 生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果 作数量化处理,其方法有以下两种: (一)统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数, 以次数作为质量性状的数据。例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白 猪、黑猪和花猪的头数分类统计如下表。 表2-1 白猪和黑猪子二代的毛色分离情况 毛色 次数(f) 频率(%) 白色 332 73.78 黑色 96 21.33 花色 22 4.89 合 计 450 100.00
这种由质量性状数量化得来的资料又叫次数资料。 (二)评分法对某一质量性状,因其类别不同,分别给予评分。例如,在研究猪 的肉色遗传时,常用的方法是将屠宰后2小时的猪眼肌横切面与标准图谱对比,由浅到深分 别给予1-5分的评分,以便统计分析 、半定量(等级)资料 半定量或等级资料(sem- quantitative or ranked data)是指将观察单位按所考察的 性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次 数资料的特点,又有程度或量的不同。如粪便潜血试验的阳性反应是在涂有粪便的棉签上加 试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾 病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别:然后统计各级别的供试 畜禽数。半定量资料在兽医研究中是常见的 三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将 一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料 属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数 计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组,清点 各组次数,就转化成了半定量资料。 第二节资料的整理 在对原始资料进行整理之前,首先要对全部资料进行检査与核对,然后再根据资料的 类型及研究的目的对资料进行整理。 、资料的检查与核对 检査和核对原始资料的目的在于确保原始资料的完整性和正确性。所谓完整性是指原 始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归 并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复 异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进 行复查或重新试验。资料的检查与核对工作虽然简单,但在统计处理工作中却是一项非常重 要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经 过统计分析得出正确的结论 二、资料的整理方法 对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。当观测值不多(n ≤30)时,不必分组,直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组, 以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。不同 类型的资料,其整理的方法略有不同
12 这种由质量性状数量化得来的资料又叫次数资料。 (二)评分法 对某一质量性状,因其类别不同,分别给予评分。例如,在研究猪 的肉色遗传时,常用的方法是将屠宰后2小时的猪眼肌横切面与标准图谱对比,由浅到深分 别给予1⎯5分的评分,以便统计分析。 三、半定量(等级)资料 半定量或等级资料(semi-quantitative or ranked data)是指将观察单位按所考察的 性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次 数资料的特点,又有程度或量的不同。如粪便潜血试验的阳性反应是在涂有粪便的棉签上加 试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾 病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的供试 畜禽数。半定量资料在兽医研究中是常见的。 三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将 一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料 属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数, 计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组,清点 各组次数,就转化成了半定量资料 。 第二节 资料的整理 在对原始资料进行整理之前,首先要对全部资料进行检查与核对,然后再根据资料的 类型及研究的目的对资料进行整理。 一、资料的检查与核对 检查和核对原始资料的目的在于确保原始资料的完整性和正确性。所谓完整性是指原 始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归 并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、 异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进 行复查或重新试验。资料的检查与核对工作虽然简单,但在统计处理工作中却是一项非常重 要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经 过统计分析得出正确的结论。 二、资料的整理方法 对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。当观测值不多(n ≤30)时,不必分组,直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组, 以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。不同 类型的资料,其整理的方法略有不同
(一)计数资料的整理现以50枚受精种蛋孵化出雏鸡的天数为例,说明计 的整理 表2-250枚受精种蛋孵化出雏鸡的天数 242219222121212222242221212222232222 2122222322232222222323222122 小鸡出壳天数在19-24天范围内变动,有6个不同的观察值。用各个不同观察值进行分 组,共分为6组,可得表2-3形式的次数分布表。 表2-350枚受精种蛋出雏天数的次数分布 孵化天数 划线计数 次数( 19 合计 从表2-3可以看出:种蛋孵化出雏天数大多集中在21-23天,以22天的最多,孵化天 数较短(1920天)和较长(24天)的都较少。 表2-4100只蛋鸡每年产蛋数的次数分布表 产蛋 划线计数 次数(f 200-209 2 210-219 ‖l 15 230-239 廿廿 240-249 艹Ⅱ 250259 ‖ 270-279 计 100 有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多, 而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个 相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也
13 (一)计数资料的整理 现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料 的整理。 表2-2 50枚受精种蛋孵化出雏鸡的天数 21 20 20 21 23 22 22 22 21 22 20 23 22 23 22 19 22 23 24 22 19 22 21 21 21 22 22 24 22 21 21 22 22 23 22 22 21 22 22 23 22 23 22 22 22 23 23 22 21 22 小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。用各个不同观察值进行分 组,共分为6组,可得表2-3形式的次数分布表。 表2-3 50枚受精种蛋出雏天数的次数分布表 孵化天数 划线计数 次数(f) 19 ║ 2 20 ║│ 3 21 ╫╫ ╫╫ 10 22 ╫╫ ╫╫ ╫╫ ╫╫║║ 24 23 ╫╫║║ 9 24 ║ 2 合计 50 从表2-3可以看出:种蛋孵化出雏天数大多集中在21⎯23天,以22 天的最多,孵化天 数较短(19⎯20天)和较长(24天)的都较少。 表2-4 100只蛋鸡每年产蛋数的次数分布表 产蛋数 划线计数 次数(f) 200⎯209 ║ 2 210⎯219 ╫╫ ║│ 8 220⎯229 ╫╫ ╫╫ ╫╫ 15 230⎯239 ╫╫ ╫╫ ╫╫ ╫╫ 20 240⎯249 ╫╫ ╫╫ ╫╫ ╫╫ ║│ 23 250⎯259 ╫╫ ╫╫ ╫╫ ║ 17 260⎯269 ╫╫ ║│ 8 270⎯279 ║║ 4 280⎯289 ║ 2 290⎯299 │ 1 合 计 100 有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多, 而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个 相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也
比较方便。例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为 200_299枚。这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组) 如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明 显,见表2-4。 从表2-4可以看到,大部分蛋鸡的年产蛋数在220259枚,但也有少数蛋鸡每年产蛋数 少到200209枚,多到290-299枚。 二)计量资料的整理计量资料不能按计数资料的分组方法进行整理,在分组前需 要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。下面以126头 基础母羊的体重资料为例,说明其整理的方法及步骤 【例2.1】将126头基础母羊的体重资料(见表2-5)整理成次数分布表 1、求全距全距是资料中最大值与最小值之差,又称为极差(umge),用R表示,即 R-Mar(x)-Min(x) 表2-5中,基础母羊的最大体重为65.0kg,最小体重为37.0kg,因此 R=65.0-37.0=28.0kg。 2、确定组数组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简 化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多 所求得的统计量越精确,但增大了运算量:若分组过少,资料的规律性就反映不出来,计算 出的统计量的精确性也较差。一般组数的确定,可参考表2-6 表2-5126头基础母羊的体重资料 单位:kg 53.050.051.057.056.051.048.046.062.051.061.056.062.058.046.5 48.046.050.054.556.040.053.051.057.054.059.052.047.057.059,0 54.050.052.054.062.550.050.053.051.054.056.050.052.050.052.0 43.053.048.050.060.058.052.064.050.047.037.052.046.045.042.0 53.058.047,050.050.0 55.062.051.050.043.053,042.056.054.5 45.056.054.065.061.0 52.049.049.051.045.052.054.048.057.0 45.053.054.057.054.054.045.044.052.050.052.052.055.050.054.0 43.057.056.054.049.055.050.048.046.056.045.045.051046.049.0 48.549.055.052.058.054.5 表2-6样本含量与组数 样本含量(n) 0-100 100-200 9-12 12-17 500以上 17—30 本例中,n=126,根据表2-6,初步确定组数为10组 3、确定组距每组最大值与最小值之差称为组距,记为i。分组时要求各组的组距
14 比较方便。例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为 200⎯299枚。这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组), 如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明 显,见表2-4。 从表2-4可以看到,大部分蛋鸡的年产蛋数在220⎯259枚,但也有少数蛋鸡每年产蛋数 少到200⎯209枚,多到290⎯299枚。 (二)计量资料的整理 计量资料不能按计数资料的分组方法进行整理,在分组前需 要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。下面以126头 基础母羊的体重资料为例, 说明其整理的方法及步骤。 【例2.1】 将126头基础母羊的体重资料(见表2-5)整理成次数分布表。 1、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即 R=Max(x)-Min(x) 表2-5中,基础母羊的最大体重为65.0kg,最小体重为37.0kg,因此 R=65.0-37.0=28.0kg。 2、确定组数 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简 化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多 所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算 出的统计量的精确性也较差。一般组数的确定,可参考表2-6。 表2-5 126头基础母羊的体重资料 单位:kg 53.0 50.0 51.0 57.0 56.0 51.0 48.0 46.0 62.0 51.0 61.0 56.0 62.0 58.0 46.5 48.0 46.0 50.0 54.5 56.0 40.0 53.0 51.0 57.0 54.0 59.0 52.0 47.0 57.0 59.0 54.0 50.0 52.0 54.0 62.5 50.0 50.0 53.0 51.0 54.0 56.0 50.0 52.0 50.0 52.0 43.0 53.0 48.0 50.0 60.0 58.0 52.0 64.0 50.0 47.0 37.0 52.0 46.0 45.0 42.0 53.0 58.0 47.0 50.0 50.0 45.0 55.0 62.0 51.0 50.0 43.0 53.0 42.0 56.0 54.5 45.0 56.0 54.0 65.0 61.0 47.0 52.0 49.0 49.0 51.0 45.0 52.0 54.0 48.0 57.0 45.0 53.0 54.0 57.0 54.0 54.0 45.0 44.0 52.0 50.0 52.0 52.0 55.0 50.0 54.0 43.0 57.0 56.0 54.0 49.0 55.0 50.0 48.0 46.0 56.0 45.0 45.0 51.0 46.0 49.0 48.5 49.0 55.0 52.0 58.0 54.5 表2-6 样本含量与组数 样本含量(n) 组 数 10—100 7—10 100—200 9—12 200—500 12—17 500以上 17—30 本例中,n=126,根据表2-6,初步确定组数为10组。 3、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距
相等。组距的大小由全距与组数确定,计算公式为: 组距()=全距/组数 本例=28.0/10≈3.0 4、确定组限及组中值各组的最大值与最小值称为组限。最小值称为下限,最大 值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系 如下 组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距 由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组 距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推 组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多, 一般第一组的组中值以接近于或等于资料中的最小值为好。第一组组中值确定后,该组组限 即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的 最大值。 表2-5中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以 第一组的下限=37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为36.0+3 0=390;第二组的上限也就是第三组的下限为39.0+3.0=42.0, 以此类推,一直到某 一组的上限大于资料中的最大值为止,于是可分组为:36.0—39.0,39.0-42.0,…… 为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将 上限略去不写。如第一组记为36.0一,第二组记为39.0 5、归组划线计数,作次数分布表分组结束后,将资料中的每一观测值逐一归组, 划线计数,然后制成次数分布表。如表2-5中,第一个观察值53.0,应归入表2-7中第六组 组限为51.0一54.0:第二个数50.0,应归入第五组,组限为48.0—51.0;依次将126个 观察值都进行归组划线计数,制成次数分布表,见表2-7。 表2-7126头基础母羊的体重的次数分布表 组别 组中值 划线计数 次数(O 36.0 375 39.0 40.5 42.0 43.5 45.0 46.5 48.0 49.5 51.0 52.5 54.0 55.5 57.0 58.5 60.0- 61.5 63.0 64.5 合计 722 次数分布表不仅便于观察资料的规律性,而且可根据它绘成次数分布图及计算平均数 标准差等统计量。从表2-7可以看出126头基础母羊体重资料分布的一般趋势:体重的变异范 围在37.0—650kg,大部分母羊的体重在45060.0kg之间 在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样
15 相等。组距的大小由全距与组数确定,计算公式为: 组距(i)=全距/组数 本例i=28.0/10≈3.0。 4、 确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限, 最大 值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系 如下: 组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限-1/2组距 由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组 距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。 组距确定后, 首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多, 一般第一组的组中值以接近于或等于资料中的最小值为好。第一组组中值确定后,该组组限 即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的 最大值。 表2-5中, 最小值为37.0, 第一组的组中值取37.5,因组距已确定为3.0,所以 第一组的下限=37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为 36.0+3. 0=39.0;第二组的上限也就是第三组的下限为39.0+3.0=42.0,……,以此类推,一直到某 一组的上限大于资料中的最大值为止,于是可分组为:36.0 ⎯ 39.0,39.0 ⎯ 42.0,……。 为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将 上限略去不写。如第一组记为36.0 ⎯ ,第二组记为39.0 ⎯ ,……。 5、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组, 划线计数,然后制成次数分布表。如表2-5中,第一个观察值53.0,应归入表2-7中第六组, 组限为51.0 ⎯ 54.0;第二个数50.0,应归入第五组,组限为48.0 ⎯ 51.0;依次将126个 观察值都进行归组划线计数,制成次数分布表,见表2-7。 表2-7 126头基础母羊的体重的次数分布表 组 别 组中值 划线计数 次数(f) 36.0 ⎯ 37.5 │ 1 39.0 ⎯ 40.5 │ 1 42.0 ⎯ 43.5 ╫╫ │ 6 45.0 ⎯ 46.5 ╫╫ ╫╫ ╫╫ ║│ 18 48.0 ⎯ 49.5 ╫╫ ╫╫ ╫╫ ╫╫ │ 26 51.0 ⎯ 52.5 ╫╫ ╫╫ ╫╫ ╫╫ ║ 27 54.0 ⎯ 55.5 ╫╫ ╫╫ ╫╫ ╫╫ │ 26 57.0 ⎯ 58.5 ╫╫ ╫╫ ║ 12 60.0 ⎯ 61.5 ╫╫ ║ 7 63.0 ⎯ 64.5 ║ 2 合 计 126 次数分布表不仅便于观察资料的规律性,而且可根据它绘成次数分布图及计算平均数、 标准差等统计量。从表2-7可以看出126头基础母羊体重资料分布的一般趋势:体重的变异范 围在37.0 ⎯ 65.0kg,大部分母羊的体重在45.0⎯60.0kg之间。 在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样