第七章次数资料分析——x检验 前面介绍了计量资料的统计分析方法检验法与方差分析法。在畜牧、水产等科学 研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实 际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正 态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。 第一节z2统计量与z2分布 x2统计量的意义 为了便于理解,现结合一实例说明x2(读作卡方)统计量的意义。根据遗传学理论 动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按 1:1的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T表示理论次数,可将 上述情况列成表7-1。 表7-1羔羊性别实际观察次数与理论次数 性别 实际观察次数A 理论次数T (A-T)2/T 公 428(A1) 438(71) 0.2283 母 448(A2) 438(7,) 876 0.4566 从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。这 个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔 羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际 观察次数与理论次数偏离的程度:然后判断这一偏离程度是否属于抽样误差,即进行显著性 检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与 理论次数的差数。从表7-1看出:A1-T1=-10,A2-T2=10,由于这两个差数之和为0,显然不 能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可 将两个差数A1-T1、A2T2平方后再相加,即计算∑(A-m)2,其值越大,实际观察次数与理论 次数相差亦越大,反之则越小。但利用∑(A-m)2表示实际观察次数与理论次数的偏离程度尚 有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数 为26、理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同 的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这 不足,可先将各差数平方除以相应的理论次数后再相加,并记之为x2,即 T 也就是说x2是度量实际观察次数与理论次数偏离程度的一个统计量,z越小,表明实
125 第七章 次数资料分析—— 2检验 前面介绍了计量资料的统计分析方法⎯⎯t 检验法与方差分析法。在畜牧、水产等科学 研究中,除了分析计量资料以外,还常常需要对次数资料、等级资料进行分析。等级资料实 际上也是一种次数资料。次数资料服从二项分布或多项分布,其统计分析方法不同于服从正 态分布的计量资料。本章将分别介绍对次数资料、等级资料进行统计分析的方法。 第一节 2 统计量与 2 分布 一、 2 统计量的意义 为了便于理解,现结合一实例说明 2 (读作卡方) 统计量的意义。根据遗传学理论, 动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中,有公羔428只,母羔448只。按 1:1的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T表示理论次数,可将 上述情况列成表7-1。 表7-1 羔羊性别实际观察次数与理论次数 性别 实际观察次数A 理论次数T A-T (A-T) 2 /T 公 428( A1 ) 438( T1 ) -10 0.2283 母 448( A2 ) 438( T2 ) 10 0.2283 合计 876 876 0 0.4566 从表7-1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。 这 个差异是属于抽样误差(把对该羊场一年所生羔羊的性别统计当作是一次抽样调查)、还是羔 羊性别比例发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际 观察次数与理论次数偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性 检验。为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与 理论次数的差数。从表7-1看出:A1-T1 =-10,A2-T2=10,由于这两个差数之和为0, 显然不 能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。为了避免正、负抵消,可 将两个差数A1-T1、A2-T2平方后再相加,即计算∑(A-T) 2,其值越大,实际观察次数与理论 次数相差亦越大,反之则越小。但利用∑(A-T) 2表示实际观察次数与理论次数的偏离程度尚 有不足。例如某一组实际观察次数为505、理论次数为500,相差5;而另一组实际观察次数 为26、 理论次数为21,相差亦为5。显然这两组实际观察次数与理论次数的偏离程度是不同 的。因为前者是相对于理论次数500相差5,后者是相对于理论次数21相差5。为了弥补这一 不足,可先将各差数平方除以相应的理论次数后再相加,并记之为 2 ,即 − = T A T 2 2 ( ) (7-1) 也就是说 2 是度量实际观察次数与理论次数偏离程度的一个统计量, 2越小,表明实
际观察次数与理论次数越接近;x2=0,表示两者完全吻合;x2越大,表示两者相差越 对于表7-1的资料,可计算得 =0456 表明实际观察次数与理论次数是比较接近的 、x2分布 上面在属于离散型随机变量的次数资料的基础上引入了统计量x2,它近似地服从统 计学中一种连续型随机变量的概率分布 2分布。下面对统计学中的x2分布作一简略介 设有一平均数为μ、方差为σ的正态总体。现从此总体中独立随机抽取n个随机变量 、x2、…、xn,并求出其标准正态离差 记这n个相互独立的标准正态离差的平方和为x2: (x1-p) x=+1+…+Ln= ∑=∑2 它服从自由度为m的x2分布,记为 若用样本平均数x代替总体平均数μ,则随机变量 (x1-x) 服从自由度为m1的x2分布,记为 因此,x2分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然,x2≥0, 即x2的取值范围是[0,+∞):x2分布密度曲线是随自由度不同而改变的一组曲线。随自由 度的增大,曲线由偏斜渐趋于对称:d≥30时,√2x2接近平均数为√24-1的正态分布
126 际观察次数与理论次数越接近; 2 =0,表示两者完全吻合; 2 越大,表示两者相差越大。 对于表7-1的资料,可计算得 2 = + = − = − 0.4566 438 10 438 ( ) ( 10) 2 2 2 T A T 表明实际观察次数与理论次数是比较接近的。 二、 2 分布 上面在属于离散型随机变量的次数资料的基础上引入了统计量 2 , 它近似地服从统 计学中一种连续型随机变量的概率分布⎯⎯ 2 分布。下面对统计学中的 2 分布作一简略介 绍。 设有一平均数为μ、方差为 2 的正态总体。现从此总体中独立随机抽取n个随机变量: x1、x2、…、xn,并求出其标准正态离差: − = 1 1 x u , − = 2 2 x u ,…, − = n n x u 记这n个相互独立的标准正态离差的平方和为 2 : 2 = 2 2 2 2 1 ... u + u + + un = 2 1 2 2 2 ( ) ( ) = − = − = n i i i i x x u (7-2) 它服从自由度为n的 2 分布,记为 2 n i 1 2 i (x ) − = ~ 2 (n); 若用样本平均数 x 代替总体平均数μ,则随机变量 2= 2 2 2 1 2 ( 1) ( ) n S x x n i i − = − = (7-3) 服从自由度为n-1的 2 分布,记为 2 2 ( 1) n − S ~ (n 1) 2 − 因此, 2 分布是由正态总体随机抽样得来的一种连续型随机变量的分布。显然, 2 ≥0, 即 2 的取值范围是[0,+∞); 2 分布密度曲线是随自由度不同而改变的一组曲线。随自由 度的增大,曲线由偏斜渐趋于对称;df≥30时, 2 2 接近平均数为 2df −1 的正态分布
图7-1给出了几个不同自由度的x2概率分布密度曲线 df-5 d/=6 图7-1几个自由度的x2概率分布密度曲 、x2)的连续性矫正 由(7-1)式计算的x2只是近似地服从连续型随机变量x2分布。在对次数资料进行x2 检验利用连续型随机变量x2分布计算概率时,常常偏低,特别是当自由度为1时偏差较大 Yates(1934)提出了一个矫正公式,矫正后的x2值记为x2 ∑ (4-n 当自由度大于时,(7-1)式的x2分布与连续型随机变量x2分布相近似,这时,可不作 连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相 邻的一组或几组合并,直到理论次数大于5为止。 第二节适合性检验 适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为 适合性检验。在适合性检验中,无效假设为H:实际观察的属性类别分配符合已知属性类别 分配的理论或学说:备择假设为H:实际观察的属性类别分配不符合已知属性类别分配的理 论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别 的理论次数。因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数 的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由 度等于属性类别分类数减1。若属性类别分类数为k,则适合性检验的自由度为k1。然后根 据(7-1)或(7-4)计算出x2或2c。将所计算得的2或2c值与根据自由度k-1查x2值表(附表8) 所得的临界x2值:x2a05、x2比较:若x2(或2)<x205,P>0.05,表明实际观察次数 127
127 图7-1给出了几个不同自由度的 2 概率分布密度曲线。 三、 2 的连续性矫正 由(7-1)式计算的 2 只是近似地服从连续型随机变量 2 分布。在对次数资料进行 2 检验利用连续型随机变量 2 分布计算概率时,常常偏低,特别是当自由度为1时偏差较大。 Yates(1934)提出了一个矫正公式,矫正后的 2 值记为 2 c : 2 c = − − T A T 2 ( 0.5) (7-4) 当自由度大于1时,(7-1)式的 2 分布与连续型随机变量 2 分布相近似,这时,可不作 连续性矫正,但要求各组内的理论次数不小于5。若某组的理论次数小于5,则应把它与其相 邻的一组或几组合并,直到理论次数大于5为止。 第二节 适合性检验 一、适合性检验的意义 判断实际观察的属性类别分配是否符合已知属性类别分配理论或学说的假设检验称为 适合性检验。在适合性检验中,无效假设为H0:实际观察的属性类别分配符合已知属性类别 分配的理论或学说;备择假设为HA:实际观察的属性类别分配不符合已知属性类别分配的理 论或学说。并在无效假设成立的条件下,按已知属性类别分配的理论或学说计算各属性类别 的理论次数。因所计算得的各个属性类别理论次数的总和应等于各个属性类别实际观察次数 的总和,即独立的理论次数的个数等于属性类别分类数减1。也就是说,适合性检验的自由 度等于属性类别分类数减1。若属性类别分类数为k,则适合性检验的自由度为k-1 。然后根 据(7-1)或(7-4)计算出 2或 2 c。将所计算得的 2或 2 c值与根据自由度k-1查 2值表(附表8) 所得的临界 2值: 2 0.05、 2 0.01比较:若 2 (或 2 c)< 2 0.05,P>0.05,表明实际观察次数 图 7-1 几个自由度的 2 概率分布密度曲 线
与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或 学说;若x20.05≤x2(或x2)<x20,0.01<P≤0.05,表明实际观察次数与理论次数差异 显著,实际观察的属性类别分配不符合已知属性类别分配的理论或学说;若x2(或2c) ≥x2,P≤0.01,表明实际观察次数与理论次数差异极显著,实际观察的属性类别分配极 显著不符合已知属性类别分配的理论或学说。 二、适合性检验的方法 下面结合实例说明适合性检验方法 【例7.1】在进行山羊群体遗传检测时,观察了260只白色羊与黑色羊杂交的子二代 毛色,其中181只为白色,79只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的3 1比例? 检验步骤如下: (一)提出无效假设与备择假设 H:子二代分离现象符合3:1的理论比例 HA:子二代分离现象不符合3:1的理论比例 (二)选择计算公式由于本例是涉及到两组毛色(白色与黑色),属性类别分类 数k=2,自由度=k1=2-1=1,须使用公式(7-4)来计算x2。 (三)计算理论次数根据理论比率3:1求理论次数 白色理论次数:71=260×34=195 黑色理论次数:T2=260×1/4=65 或T2=260-71=260-195=65 (四)计算x2 表7-2x2计算表 性状实际观察次数(A)理论次数(T) 黑色 +14 2.804 总和 260 260 0 (A-7|-0.5)2(181-1951-05)2(7-65-0.5)2 3.739 五)查临界x值,作出统计推断当自由度小=1时,查得xosa)=3.84,计算的 x2c<5d),故P>0.05,不能否定场,表明实际观察次数与理论次数差异不显著,可以认 为白色羊与黑色羊的比率符合孟德尔遗传分离定律3:1的理论比例。 【例7.2】在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红 色有角牛杂交,子二代出现黑色无角牛192头,黑色有角牛78头,红色无角牛72头,红色 有角牛18头,共360头。试问这两对性状是否符合孟德尔遗传规律中9:3:3:1的遗传比 例 检验步骤
128 与理论次数差异不显著,可以认为实际观察的属性类别分配符合已知属性类别分配的理论或 学说;若 2 0.05≤ 2 (或 2 c)< 2 0.01,0.01<P≤0.05,表明实际观察次数与理论次数差异 显著,实际观察的属性类别分配不符合已知属性类别分配的理论或学说; 若 2 ( 或 2 c) ≥ 2 0.01,P≤0.01,表明实际观察次数与理论次数差异极显著,实际观察的属性类别分配极 显著不符合已知属性类别分配的理论或学说。 二、适合性检验的方法 下面结合实例说明适合性检验方法。 【例 7.1】 在进行山羊群体遗传检测时,观察了 260 只白色羊与黑色羊杂交的子二代 毛色,其中 181 只为白色,79 只为黑色,问此毛色的比率是否符合孟德尔遗传分离定律的 3∶ 1 比例? 检验步骤如下: (一)提出无效假设与备择假设 H0:子二代分离现象符合 3∶1 的理论比例。 HA:子二代分离现象不符合 3∶1 的理论比例。 (二)选择计算公式 由于本例是涉及到两组毛色(白色与黑色),属性类别分类 数 k=2,自由度 df=k-1=2-1=1,须使用公式(7—4)来计算 2 c 。 (三)计算理论次数 根据理论比率 3∶1 求理论次数: 白色理论次数:T1=260×3/4=195 黑色理论次数:T2=260×1/4=65 或 T2=260-T1=260-195=65 (四)计算 2 c 表 7—2 2 c计算表 性 状 实际观察次数(A) 理论次数(T) A-T 2 c 白 色 181 195 -14 0.935 黑 色 79 65 +14 2.804 总 和 260 260 0 3.739 3.739 65 (| 79 65 | 0.5) 195 (| | 0.5) (|181 195 | 0.5) 2 2 2 2 = − − + − − = − − = T A T C (五)查临界 2 值,作出统计推断 当自由度 df=1 时,查得 2 0.05(1) =3.84,计算的 2 c< 2 0.05(1),故 P>0.05,不能否定 H0,表明实际观察次数与理论次数差异不显著,可以认 为白色羊与黑色羊的比率符合孟德尔遗传分离定律 3∶1 的理论比例。 【例 7.2】 在研究牛的毛色和角的有无两对相对性状分离现象时,用黑色无角牛和红 色有角牛杂交,子二代出现黑色无角牛 192 头,黑色有角牛 78 头,红色无角牛 72 头,红色 有角牛 18 头,共 360 头。试问这两对性状是否符合孟德尔遗传规律中 9∶3∶3∶1 的遗传比 例? 检验步骤:
(一)提出无效假设与备择假设 H:实际观察次数之比符合9:3:3:1的理论比例。 HA:实际观察次数之比不符合9:3:3:1的分离理论比例 (二)选择计算公式由于本例的属性类别分类数k=4:自由度k-1=4-1=3>1 故利用(7-1)式计算x (三)计算理论次数依据各理论比率9331计算理论次数 黑色无角牛的理论次数71:360×9/16=2025: 黑色有角牛的理论次数T2:360×3/16=675 红色无角牛的理论次数T3:360×3/16=67.5: 红色有角牛的理论次数T4:360×1/16=25。 或T4=360-202.5-67.5-675=225 (四)列表计算x 表7—3x2计算表 际观察次数A 理论次数T A -T' (A-T)T 色无角牛 192(A1) 202.5(T1) 5444 黑色有角牛 78(A2) 67.5(T2) 1.6333 红色无角牛 72(A3) 67.5(73) 1.6333 红色有角牛 18(A4) 22.5(74) 4.711 x2=∑ 0.5444+16333+1.6333+0.9=4.711 (五)查临界x2值,作出统计推断当=3时,x0=7:815,因x2<x20.05 (3),P>0.05,不能否定H,表明实际观察次数与理论次数差异不显著,可以认为毛色与角 的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中9:3:3:1的遗传比例。 、x2显著性检验的再分割法 当实际观察次数与理论次数经x2检验差异显著或极显著时,还应对其结果进行再分割 检验,下面举例说明 【例7.3】两对相对性状杂交子二代4种表现型A-B-、A-bb、aaB-、aabb的观察次数 依次为152、39、53、6,问这两对相对性状的遗传是否符合孟德尔遗传规律中9:3:3:1 的比例。 检验步骤同【例7.2】,计算结果见表7—4 表7-4x2计算表 表现型 实际观察次数A 理论次数T A -T (A-T) 152 140.625 11.375 0.920 A -bb 46.875 -7.875 1.323
129 (一)提出无效假设与备择假设 H0:实际观察次数之比符合 9∶3∶3∶1 的理论比例。 HA:实际观察次数之比不符合 9∶3∶3∶1 的分离理论比例。 (二)选择计算公式 由于本例的属性类别分类数 k=4:自由度 df=k-1=4-1=3>1, 故利用(7—1)式计算 2 。 (三)计算理论次数 依据各理论比率 9:3:3:1 计算理论次数: 黑色无角牛的理论次数 T1:360×9/16=202.5; 黑色有角牛的理论次数 T2:360×3/16=67.5; 红色无角牛的理论次数 T3:360×3/16=67.5; 红色有角牛的理论次数 T4:360×1/16=22.5。 或 T4=360-202.5-67.5-67.5=22.5 (四)列表计算 2 表 7—3 2 计算表 类 型 实际观察次数 A 理论次数 T A-T (A-T)2 /T 黑色无角牛 192(A1) 202.5(T1) -10.5 0.5444 黑色有角牛 78(A2) 67.5(T2) +10.5 1.6333 红色无角牛 72(A3) 67.5(T3) +4.5 1.6333 红色有角牛 18(A4) 22.5(T4) -4.5 0.9000 总 计 360 360 0 4.711 2 = − T A T 2 ( ) =0.5444+1.6333+1.6333+0.9=4.711 (五)查临界 2 值,作出统计推断 当 df=3 时, 2 0.05(3)=7.815,因 2 < 2 0。05 (3),P>0.05,不能否定 H0 ,表明实际观察次数与理论次数差异不显著,可以认为毛色与角 的有无两对性状杂交二代的分离现象符合孟德尔遗传规律中 9∶3∶3∶1 的遗传比例。 *三、 2 显著性检验的再分割法 当实际观察次数与理论次数经 2 检验差异显著或极显著时,还应对其结果进行再分割 检验,下面举例说明。 【例 7.3】 两对相对性状杂交子二代 4 种表现型 A-B-、A-bb、aaB-、aabb 的观察次数 依次为 152、39、53、6,问这两对相对性状的遗传是否符合孟德尔遗传规律中 9∶3∶3∶1 的比例。 检验步骤同【例 7.2】,计算结果见表 7—4。 表 7—4 2 计算表 表现型 实际观察次数 A 理论次数 T A-T (A-T)2 /T A-B- 152 140.625 11.375 0.920 A-bb 39 46.875 -7.875 1.323