协方差分析 一个协变量的协方差分析 例:为研究三种饲料(Al(g=1),A2(g=2),A3(g=3)对猪催肥效果,用 每种饲料喂养8头猪,实验用猪的初始体重(x)未控制。喂养一段时 间后,观察小猪的增重y)。所得资料如表2-1,试分析三种饲料对 猪催肥效果是否相同。 资料结构:(文件名 covariance dta) 53122 91 111 16 95 22222 2982 94 89 91 233 27 102 105 110 对于不考虑初始体重影响而评价三种饲料的统计分析为单因素方差 分析One- way ANOVA),由于小猪的增重与初始体重有关,因此在分
协方差分析 一个协变量的协方差分析 例:为研究三种饲料(A1(g=1),A2(g=2),A3(g=3))对猪催肥效果,用 每种饲料喂养 8 头猪,实验用猪的初始体重(x)未控制。喂养一段时 间后,观察小猪的增重(y)。所得资料如表 2-1,试分析三种饲料对 猪催肥效果是否相同。 资料结构:(文件名 covariance1.dta) x y g 15 85 1 13 83 1 11 65 1 12 76 1 12 80 1 16 91 1 14 84 1 17 90 1 17 97 2 16 90 2 18 100 2 18 95 2 21 103 2 22 106 2 19 99 2 18 94 2 22 89 3 24 91 3 20 83 3 23 95 3 25 100 3 27 102 3 30 105 3 32 110 3 对于不考虑初始体重影响而评价三种饲料的统计分析为单因素方差 分析(One-way ANOVA),由于小猪的增重与初始体重有关,因此在分
析三种饲料对增重的关系时,应该考虑校正初始体重对增重的影响。 并假定初始体重与增重呈线性统计关系以及要求初始体重与饲料不 构成交互作用。称校正变量(初始体重)为协变量,分组变量为因子变 量。因此可用协方差分析上述统计问题,相应的角模型如下 Al(g=D) A2(g=2) A3(g=3) 不校正初始体重 +a1 +a2 校正初始体重 u +a,+yx u +a, +yx u tyr 用 STATA命令为: anovayg x g*x, class(g) Nu umber of obs 24 R-squared =0. Root mse 3. 15855 Adj R-squared= 0. Source Partial ss df MS Prob>f Model|2376.38195475.27638 4764 0.0000 g|24.4661579 12.233079 x|830.4154071830.415407 83.240.0000 g*x48.0381359224.019068 2.41 0.1184 Residua1|179.576433189.97646848 Totl|25595832311.128623 由g*x项的P值=0.1184005,说明初始体重与饲料不构成交互作用 anova yg x, class(g) Number of obs 24 R-squared = 0. 9109 Root mse 3. 37353 Adj R-squared=0. 8976 Source Partial Ss df MS F Prob>F Model|2328343763776.11458868.200.0000 g|7072187652353609382 31.07 0.0000 1010.76043 11010.76043 88.810.0000 Residual227.6145682011.3807284 Total|255958332311.128623
析三种饲料对增重的关系时,应该考虑校正初始体重对增重的影响。 并假定初始体重与增重呈线性统计关系以及要求初始体重与饲料不 构成交互作用。称校正变量(初始体重)为协变量,分组变量为因子变 量。因此可用协方差分析上述统计问题,相应的角模型如下: A1(g=1) A2(g=2) A3(g=3) 不校正初始体重 .. 1 + .. 2 + .. 校正初始体重 .. 1 + + x .. 2 + + x .. + x 用 STATA 命令为: anova y g x g*x,class(g) Number of obs = 24 R-squared = 0.9297 Root MSE = 3.15855 Adj R-squared = 0.9102 Source | Partial SS df MS F Prob > F Model | 2376.3819 5 475.27638 47.64 0.0000 | g | 24.4661579 2 12.233079 1.23 0.3168 x | 830.415407 1 830.415407 83.24 0.0000 g*x | 48.0381359 2 24.019068 2.41 0.1184 | Residual | 179.576433 18 9.97646848 Total | 2555.95833 23 111.128623 由g*x 项的P 值=0.1184>0.05,说明初始体重与饲料不构成交互作用。 anova y g x,class(g) Number of obs = 24 R-squared = 0.9109 Root MSE = 3.37353 Adj R-squared = 0.8976 Source | Partial SS df MS F Prob > F Model | 2328.34376 3 776.114588 68.20 0.0000 g | 707.218765 2 353.609382 31.07 0.0000 x | 1010.76043 1 1010.76043 88.81 0.0000 Residual | 227.614568 20 11.3807284 Total | 2555.95833 23 111.128623
regress Source I df MS Number of obs 24 Model|2328343763776.114588 Prob>F =0.0000 Residual227.6145682011.3807284 R-squared Adj R-squared 0 8976 Totl|255.958332311128623 Root mse 3.3735 y Coef. Std. err t P>t [95% Conf. Interval cons 35.935186.5754715.470.00022.2189949.6513 112.793243.4089893.750.0015.68221419.90427 217.335592.4091517.200.00012.3101922.36099 3 (dropped) 2.401569.25483329.420.0001.8699962.93314 =35.93518,a1=1279324,a2=1733559,y=2401569 Al VS A3: (u +a+yx)-(u +yx)=a,, Ho: al=o vS H1: a1+0 对应的P值为0001<005,因此认为两组总体均数不同,由α1的95% 可信区间可认为A1的均数大于A3的均数,差别有统计意义 A2 VS A3: (u+a,+yx)-(u +yx)=a,, Ho: a2=0 vS H1: 02*0 对应的P值为0001<005,因此认为两组总体均数不同,由2的95% 可信区间可认为A2的均数大于A3的均数,差别有统计意义。 A1VsA2:(+a1+yx)-(+a2+yx)=a1-a2,Ho:∝1-02=0vs H1:C1-(2≠0 test_b[g[1]]-b[g[2]]=0 1)g[1]-g[2]=0.0 F(1,20) Prob>F=0.0424 对应的P值为004244005,因此认为两组总体均数不同,由于点估
regress S ource | S S d f M S N umber o f o bs = 2 4 - - -----------+------------------------------ F ( 3 , 2 0) = 6 8.20 M o del | 2 328.34376 3 7 76.114588 P r ob > F = 0 .0000 R esidual | 2 2 7.614568 2 0 1 1.3807284 R -squared = 0 .9109 - - -----------+------------------------------ A dj R-squared = 0.8976 T o tal | 2 555.95833 2 3 1 11.128623 R o ot M SE = 3 .3735 y C oef. S td. E rr. t P > |t| [ 9 5% C onf. I nterval] _ c ons 3 5 .93518 6 .575471 5 .47 0 .000 2 2.21899 4 9 .65137 g 1 1 2 .79324 3 .408989 3 . 75 0 .001 5 .682214 1 9 .90427 2 1 7 .33559 2 .409151 7 . 20 0 .000 1 2.31019 2 2 .36099 3 ( dropped) x 2 .401569 . 2548332 9 . 42 0 .000 1 .869996 2 . 933142 .. = 35.93518,1=12.79324,2 =17.33559, = 2.401569 A1 vs A3: .. 1 .. 1 ( ) ( ) + + − + = x x ,H0:1=0 vs H1:10 对应的 P 值为 0.001<0.05,因此认为两组总体均数不同,由1的 95% 可信区间可认为 A1 的均数大于 A3 的均数,差别有统计意义。 A2 vs A3: .. 2 .. 2 ( ) ( ) + + − + = x x ,H0:2=0 vs H1:20 对应的 P 值为 0.001<0.05,因此认为两组总体均数不同,由2的 95% 可信区间可认为 A2 的均数大于 A3 的均数,差别有统计意义。 A1 vs A2: .. 1 .. 2 1 2 ( ) ( ) + + − + = − x x + ,H0:1-2=0 vs H1:1-20 test _b[g[1]]-_b[g[2]]=0 ( 1) g[1] - g[2] = 0.0 F( 1, 20) = 4.70 Prob > F = 0.0424 对应的 P 值为 0.0424<0.05,因此认为两组总体均数不同,由于点估
计为:a1=12.79324<a2=173359,P值小于005,因此可认为A2的均 数大于A1的均数,差别有统计意义。 结论 1)A2饲料喂养的小猪增重最高,A1饲料喂养的小猪增重也高于A3 饲料喂养的小猪的增重,差别均有统计意义,P值均小于0.05 2)小猪的增重与初始的呈正相关,P<005 两种干预的效果评价中校正混杂因素 有2种干预治疗高血压,现仅以收缩压为例,讨论评价疗效的方法。 分组治疗前治疗后 roup 131.4 140.2 133.5 3 138.8 132.7 139.5 140.8 133.9 124.5 7 139.8 133.4 8 128.7 122.9 10 144.7 137 134 127.3 136.8 130.5 16 144 136.1 133.1 126.2 138.9 131.2 19 134.2 127.1 147.7 139.3 134.4 127 130.8 123.5 24 141.5 134.5
计为: 1=12.79324 < 2 =17.33559,P 值小于 0.05,因此可认为 A2 的均 数大于 A1 的均数,差别有统计意义。 结论: 1)A2 饲料喂养的小猪增重最高,A1 饲料喂养的小猪增重也高于 A3 饲料喂养的小猪的增重,差别均有统计意义,P 值均小于 0.05。 2)小猪的增重与初始的呈正相关,P<0.05。 两种干预的效果评价中校正混杂因素 有 2 种干预治疗高血压,现仅以收缩压为例,讨论评价疗效的方法。 分组 治疗前 治疗后 group x1 x2 1 1 131.4 125.2 2 1 140.2 133.5 3 1 138.8 132.7 4 1 139.5 132.4 5 1 140.8 133.9 6 1 130.5 124.5 7 1 139.8 133.4 8 1 128.7 122.9 9 1 138.8 131.8 10 1 144.7 137 11 1 134 127.3 12 1 127.7 121.5 13 1 136.8 130.5 14 1 145.6 140.1 15 1 138.3 131.2 16 2 144 136.1 17 2 133.1 126.2 18 2 138.9 131.2 19 2 134.2 127.1 20 2 147.7 139.3 21 2 134.4 127 22 2 130.8 123.5 23 2 136.6 129.7 24 2 141.5 134.5
136.9 137.4 136.8 128.8 2 145.5 128.5 121.4 140.7 132.6 计算治疗前后的改变量:gend=x1-x2 二、计算两组的平均改变量: tab group,su(d) group Mean Std. Dev req 1|6.5133347.58415673 15 7.44653966211 15 Total6.9800006.72843602 第2组比第1组多下降0.933318mmHg(即:两组疗效的差异为 0.9333318) 校正治疗前的影响,则用协方差模型 anova d group xl, class(group) Nu of obs Root mse = 525257 Adj R-squared= 0. 4801 Source Partial ss df MS F Prob>F Model|7.9387872823.96939864 14.390.0001 group|5.7457868115.7457868120.830.0001 x1|1.4054753111.40547531 5.090.0323 Residua17.4491645727.275894984 Tota115.387951829.530619029 说明:疗效与基线情况有关,并且两组干预的疗效有差异。 regress ource df MS Number of obs F(2,27)=14.39 Model|7.9387872823.96989364 Prob>f
25 2 144.8 136.9 26 2 137.4 129.9 27 2 136.8 128.8 28 2 145.5 139 29 2 128.5 121.4 30 2 140.7 132.6 一、计算治疗前后的改变量:gen d=x1-x2 二、计算两组的平均改变量:tab group, su(d) | Summary of d group | Mean Std. Dev. Freq. ------------+------------------------------------ 1 | 6.5133347 .58415673 15 2 | 7.4466665 .53966211 15 ------------+------------------------------------ Total | 6.9800006 .72843602 30 第 2 组比第 1 组多下降 0.9333318mmHg(即:两组疗效的差异为 0.9333318) 校正治疗前的影响,则用协方差模型 anova d group x1,class(group) Number of obs = 30 R-squared = 0.5159 Root MSE = .525257 Adj R-squared = 0.4801 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | 7.93878728 2 3.96939364 14.39 0.0001 | group | 5.74578681 1 5.74578681 20.83 0.0001 x1 | 1.40547531 1 1.40547531 5.09 0.0323 | Residual | 7.44916457 27 .275894984 -----------+---------------------------------------------------- Total | 15.3879518 29 .530619029 说明:疗效与基线情况有关,并且两组干预的疗效有差异。 . regress Source | SS df MS Number of obs = 30 -------------+------------------------------ F( 2, 27) = 14.39 Model | 7.93878728 2 3.96939364 Prob > F = 0.0001