表中,横的称为行,纵向称为列共r行c列。 ∑ O.i=1.2 称为第行的行和; ∑Oj=1,2,…,C称为第列的列和;行 和与列和统成为边际和。 n=∑O=∑O=∑∑O称为总和。 J=1 显然,在交叉分类资料中行和O与列和O在分类前均 为未知
表中,横的称为行,纵向称为列,共r行c列。 称为第i行的行和; 称为第j列的列和;行 和与列和统成为边际和。 称为总和。 显然,在交叉分类资料中行和 Oi•与列和O•j在分类前均 为未知。 O O i r c j i ij 1,2, , 1 = = = O O j c r i j i j 1,2, , 1 = = = = = = = = = = c j r i ij c j j r i n Oi O O 1 1 1 1
设列联表所给资料是交叉分类资料,则从总体中抽取的 个体属(xy)类的概率为P(X=x,Y= i=1,2,…,rj=1,2,…c 其边缘概率函数为P(X=x)=Pn+p2+,,+pn=pn。i=1,2,,r P(Y=y)=p1+p2+…+p=p;j=1,2,…c 因为,随机变量X与Y独立的充要条件是 P(XX,Y- y=P(X=X). P(Y=y 故两属性独立的假设检验为 H0:P1=P1×P;(i=1,2,,r;j=12…,c)2H1:H不成立 在H成立下,理论频数为Empp×P1F=1,2,…,r; j=1,2,其中p,与p,均未知,故需由样本估计: P.=O. / n p,=0, /n 从而近似有 0.O np. p (2) 即理论频数E近似等于(第行的行和)×(第j列的列 和)÷总和
设列联表所给资料是交叉分类资料,则从总体中抽取的 个体属(xi ,yi ) 类的概率为 P(X=xi , Y=yj )=pij i=1,2,…,r;j=1,2,…,c 其边缘概率函数为 P(X=xi )=pi1+pi2+…+pic=pi• i=1,2,…,r P(Y=yj )=p1j+p2j+…+prj=p•j j=1,2,…,c 因为,随机变量X与Y独立的充要条件是 P(X=x,Y=y)=P(X=x) ·P(Y=y) 故两属性独立的假设检验为 H0 : pij=pi•×p•j (i=1,2,…,r;j=1,2,…,c), H1 : H0不成立 在H0成立下,理论频数为 Eij=npij=npi•×p•j i=1,2,…,r ; j=1,2,…,c 其中pi•与p•j均未知,故需由样本估计: (1) 从而近似有 (2) 即理论频数Eij近似等于[(第i行的行和) ×(第j列的列 和)÷总和] p ˆ i = Oi / n p ˆ j = O j / n n O O E np p i j ij i j = ˆ ˆ =
因而可求得分类资料2统计量 x2=∑∑ (3) y-x(df) E 这里 。故用(1)式独立估计的 ∑p=1∑p J 参数个数为(r-1)+(c-1)=r+c2。因此,自由度为 df=rxc-(r+c-2)-1=(r-1)(c-1) 这样,按照(1)、(2)、(3)式的计算结果,根 据 分布定义的小概率事件 b(>X()}= 便可进行交叉分类资料两属性的独立性检验
因而可求得分类资料 统计量 (3) 这里 。故用(1)式独立估计的 参数个数为(r-1)+(c-1)=r+c-2。因此,自由度为 df=r ×c-(r+c-2)-1=(r-1)(c-1) 这样,按照(1)、(2)、(3)式的计算结果,根 据 分布定义的小概率事件 便可进行交叉分类资料两属性的独立性检验。 2 = = − = c j r i i j i j i j df E O E 1 1 2 2 2 ~ ( ) ( ) 1, 1 1 1 = = = = c j j r i pi p { ( )} = 2 2 P df 2
续解例3判断疗效与年龄是否有联系,可进行两者的独 立性检验,即检验假设为 H0D:=p2×p;,H1:H0不成立 按(2)式估计各类的理论频数E:,并将结果填入 相应的实测频数后的圆括号内(见表)。如 E1=OO1/n=128×109/300=4651 等等。再按(3)式计算x统计量的样本值 (58-4651)2(38-42.67) 14-16.68) 13.59 46.51 42.67 1668 给定a901,4(1(c1)2×2=4查附表xa(4)=1277 因为x2>0(4),故拒绝Hn,即认为该药疗效 与年龄有联系具有统计学意义
续解例3 判断疗效与年龄是否有联系,可进行两者的独 立性检验,即检验假设为 H0 : pij=pi•×p•j , H1 : H0不成立 按(2)式估计各类的理论频数Eij ,并将结果填入 相应的实测频数后的圆括号内(见表)。如 等等。再按(3)式计算 统计量的样本值 给定α=0.01 ,df=(r-1)(c-1)=2 ×2=4,查附表 因为 ,故拒绝H0,即认为该药疗效 与年龄有联系具有统计学意义。 2 E11 = O1 O1 / n =128109/300 = 46.51 13.59 16.68 (14 16.68) 42.67 (38 42.67) 46.51 (58 46.51) 2 2 2 2 = − + + − + − = (4) 12.277 2 0.01 = (4) 2 0.01 2
二、多组分类资料分布概率的相同性检验 列联表中的数据通常的第二种抽样方式是:从多个 总体(可视为属性X)分别抽样后,按另一属性Y的类确 定其个体的数目。这样所得的数据表称为多组分类资料。 例4为考察四个药厂生产的维生素C注射液的质量是 否完全一致,分别从甲、乙、丙、丁四个厂中抽取了60、 100、90、100支样品进行留样观察。从出厂日起,一年 后均按其色泽变化的程度分为-、+、++三类,其结果采 用如下形式的频数表表示 四药厂V色泽变化分类频数表 厂家 色泽变化 合计 甲 43(39.26)11(16.63)6(4.11) 60 乙厂 80(6543)15(27.71)5(686) 100 丙 72(58.89) 13(24.94 5(6.17 90 34(6543)58(2771)8(686) 100 合计O.:229 24 350 试判断四个药厂生产的V注射液的质量是否完全相同
二、多组分类资料分布概率的相同性检验 列联表中的数据通常的第二种抽样方式是:从多个 总体(可视为属性X)分别抽样后,按另一属性Y的类确 定其个体的数目。这样所得的数据表称为多组分类资料。 例4 为考察四个药厂生产的维生素C注射液的质量是 否完全一致,分别从甲、乙、丙、丁四个厂中抽取了60、 100、90、100支样品进行留样观察。从出厂日起,一年 后均按其色泽变化的程度分为-、+、++三类,其结果采 用如下形式的频数表表示 四药厂Vc色泽变化分类频数表 厂家 色泽变化 合计 - + ++ Oi• 甲厂 43(39.26) 11 (16.63) 6 (4.11) 60 乙厂 80(65.43) 15 (27.71) 5 (6.86) 100 丙厂 72 (58.89) 13 (24.94) 5 (6.17) 90 丁厂 34 (65.43) 58 (27.71) 8 (6.86) 100 合计O•j 229 97 24 350 试判断四个药厂生产的Vc注射液的质量是否完全相同