a a/2 H接受域 Hb否定域 x1-又2 Hb否定域 图5-2两类错误示意图 分布相叠加。有时我们从4-2≠0抽样总体抽取一个(x-x2)恰恰在H0成立时的接受 域内(如图中横线阴影部分),这样,实际是从-2≠0总体抽的样本,经显著性检验却 不能否定H0,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用B表示。误概率β值的大小较难 确切估计,它只有与特定的H4结合起来才有意义。一般与显著水平a、原总体的标准差 、样本含量n、以及相互比较的两样本所属总体平均数之差-42等因素有关。在其它 因素确定时,α值越小,β值越大;反之,α值越大,β值越小;样本含量n及μ-μ2越 大、σ越小,β值越小。 由于B值的大小与a值的大小有关,所以在选用检验的显著水平时应考虑到犯I、Ⅱ 型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。若一个 试验耗费大,可靠性要求高,不允许反复,那么a值应取小些:当一个试验结论的使用事 关重大,容易产生严重后果,如药物的毒性试验,a值亦应取小些。对于一些试验条件不 易控制,试验误差较大的试验,可将a值放宽到0.1,甚至放宽到0.25。 在提高显著水平,即减小α值时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量。 因为增大样本含量可使(x1-x2)分布的方差σ(1/n1+1/n2)变小,使图5-2左右两曲 线变得比较“高”、“瘦”,叠加部分减少,即β值变小。我们的愿望是α值不越过某个给定 值,比如α=0.05或0.01的前提下,B值越小越好。因为在具体问题中1-P2和0相对不 变,所以B值的大小主要取决于样本含量的大小。 图5-2中的1-β称为检验功效或检验力( power of test),也叫把握度。其意义是当两 总体确有差别(即HA成立)时,按a水平能发现它们有差别的能力。例如1-B=0.9,意 味着若两总体确有差别,则理论上平均100次抽样比较中有90次能得出有差别的结论ε 两类错误的关系可归纳如下:
59 分布相叠加。有时我们从 1 - 2 ≠0 抽样总体抽取一个( 1 x - 2 x )恰恰在 H0 成立时的接受 域内(如图中横线阴影部分),这样,实际是从 1 - 2 ≠0 总体抽的样本,经显著性检验却 不能否定 H0 ,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用 表示。 误概率 值的大小较难 确切估计,它只有与特定的 H A 结合起来才有意义。一般与显著水平 、原总体的标准差 σ、样本含量 n 、以及相互比较的两样本所属总体平均数之差 1 - 2 等因素有关。在其它 因素确定时, 值越小, 值越大;反之, 值越大, 值越小;样本含量 n 及 1 - 2 越 大、σ越小, 值越小。 由于 值的大小与 值的大小有关,所以在选用检验的显著水平时应考虑到犯Ⅰ、Ⅱ 型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。若一个 试验耗费大,可靠性要求高,不允许反复,那么 值应取小些;当一个试验结论的使用事 关重大,容易产生严重后果,如药物的毒性试验, 值亦应取小些。对于一些试验条件不 易控制,试验误差较大的试验,可将 值放宽到 0.1,甚至放宽到 0.25。 在提高显著水平,即减小 值时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量。 因为增大样本含量可使( 1 x - 2 x )分布的方差σ2(1/ 1 n +1/ 2 n )变小,使图 5-2 左右两曲 线变得比较“高”、“瘦”,叠加部分减少,即 值变小。我们的愿望是 值不越过某个给定 值,比如 =0.05 或 0.01 的前提下, 值越小越好。因为在具体问题中 1 -2 和σ相对不 变,所以 值的大小主要取决于样本含量的大小。 图 5-2 中的 1- 称为检验功效或检验力(power of test),也叫把握度。其意义是当两 总体确有差别(即 H A 成立)时,按 水平能发现它们有差别的能力。例如 1- =0.9,意 味着若两总体确有差别,则理论上平均 100 次抽样比较中有 90 次能得出有差别的结论。 两类错误的关系可归纳如下: 图 5-2 两类错误示意图
表5-1两类错误的关系 客观实际 否定H 接受H H0成立 Ⅰ型错误(a) 推断正确(1-a) 不成立 惟断正确(1-B) Ⅱ型错误(B) 四、双侧检验与单侧检验 在上述显著性检验中,无效假设H0:A1=2与备择假设H4:≠山2。此时,备择 假设中包括了A1>2或A1≤2两种可能。这个假设的目的在于判断与m2有无差异,而 不考虑谁大谁小。如比较长白猪与大白猪两品种猪经产母猪的产仔数,长白猪可能高于大 白猪,也可能低于大白猪 此时,在a水平上否定域为(-∞,ta]和[a+∞),对称地分配在t分布曲线的两侧尾部 每侧的概率为α/2,如图5-3所示。这种利用两尾概率进行的检验叫双侧检验( two-sided test),也叫双尾检验(two- tailed test),l为双侧检验的临界r值。但在有些情况下,双 侧检验不一定符合实际情况。如采用某种新的配套技术措施以期提高鸡的产蛋量,已知此 种配套技术的实施不会降低产蛋量。此时,若进行新技术与常规技术的比较试验,则无效 假设应为H0:A1=μ2,即假设新技术与常规技术产蛋量是相同的,备择假设应为HA >山2,即新配套技术的实施使产蛋量有所提高。检验的目的在于推断实施新技术是否提 高了产蛋量,这时H0的否定域在t分布曲线的右尾。在a水平上否定域为[n+∞),右侧的 概率为a,如图5-44所示。若无效假设H0为山1=2,备择假设HA为A1<2,此时H的 否定域在t分布曲线的左尾。在a水平上,H0的否定域为(-∞-l],左侧的概率为a。如 图5-4B所示。这种利用一尾概率进行的检验叫单侧检验(one- sided test)也叫单尾检验 ( one-tailed test)。此时t为单侧检验的临界t值。显然,单侧检验的l=双侧检验的l2 a/2 H否定域”H接受域H否定域 H接受域H否定域H接受域 (A)右侧检验H:p;=2(B)左侧检验H:= 图5-3双侧检验 H:μp>μ 图5-4单侧检验 由上可以看出,若对同一资料进行双侧检验也进行单侧检验,那么在∝水平上单侧检 验显著,只相当于双侧检验在2α水平上显著。所以,同一资料双侧检验与单侧检验所得 的结论不一定相同。双侧检验显著,单侧检验一定显著:但单侧检验显著,双侧检验未必
60 表 5-1 两类错误的关系 客观实际 否定 H0 接受 H0 H0 成立 Ⅰ型错误( ) 推断正确(1- ) H0 不成立 推断正确(1- ) Ⅱ型错误( ) 四、双侧检验与单侧检验 在上述显著性检验中,无效假设 H0 : 1 = 2 与备择假设 H A: 1 ≠ 2 。此时,备择 假设中包括了 1 > 2 或 1 < 2 两种可能。这个假设的目的在于判断 1 与 2 有无差异,而 不考虑谁大谁小。如比较长白猪与大白猪两品种猪经产母猪的产仔数,长白猪可能高于大 白猪,也可能低于大白猪。 此时,在 水平上否定域为 ( − ,t 和 ,+) t ,对称地分配在 t 分布曲线的两侧尾部, 每侧的概率为 /2,如图 5-3 所示。这种利用两尾概率进行的检验叫双侧检验(two-sided test),也叫双尾检验(two-tailed test), t 为双侧检验的临界 t 值。但在有些情况下,双 侧检验不一定符合实际情况。如采用某种新的配套技术措施以期提高鸡的产蛋量,已知此 种配套技术的实施不会降低产蛋量。此时,若进行新技术与常规技术的比较试验,则无效 假设应为 H0 : 1 = 2 ,即假设新技术与常规技术产蛋量是相同的,备择假设应为 H A : 1 > 2 ,即新配套技术的实施使产蛋量有所提高。检验的目的在于推断实施新技术是否提 高了产蛋量,这时 H0 的否定域在 t 分布曲线的右尾。在 水平上否定域为 ,+) t ,右侧的 概率为 ,如图 5-4A 所示。若无效假设 H0 为 1 = 2 ,备择假设 H A 为 1 < 2 ,此时 H0 的 否定域在 t 分布曲线的左尾。在 水平上, H0 的否定域为 ( − ,−t ,左侧的概率为 。如 图 5-4B 所示。这种利用一尾概率进行的检验叫单侧检验(one-sided test)也叫单尾检验 (one-tailed test)。此时 t 为单侧检验的临界 t 值。显然,单侧检验的 t =双侧检验的 2 t 。 由上可以看出,若对同一资料进行双侧检验也进行单侧检验,那么在 水平上单侧检 验显著,只相当于双侧检验在 2 水平上显著。所以,同一资料双侧检验与单侧检验所得 的结论不一定相同。双侧检验显著,单侧检验一定显著;但单侧检验显著,双侧检验未必 图 5-3 双侧检验 图 5-4 单侧检验
显著。 选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般 若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差 则选用双侧检验;若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果 差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般 情况下,如不作特殊说明均指双侧检验。 五、显著性检验中应注意的问题 上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个 问题: (一)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本 是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因 素应尽可能控制相同或基本相近。否则,任何显著性检验的方法都不能保证结果的正确。 (二)选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对 设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计 方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认 真考虑其适用条件,不能滥用。 三〕要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著 或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或 很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能 性小于0.05或001,已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然 差别大,但由于试验误差大,也许还不能得出“差异显著”的结论,而有些试验的结果间 的差异虽小,但由于试验误差小,反而可能推断为“差异显著” 显著水平的高低只表示下结论的可靠程度的高低,即在0.01水平下否定无效假设的 可靠程度为99%,而在0.05水平下否定无效假设的可靠程度为95%。 差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的 概率水平0.05,不能理解为试验结果间没有差异。下“差异不显著”的结论时,客观上存 在两种可能:一是本质上有差异,但被试验误差所掩盖,表现不出差异的显著性来。如果 减小试验误差或增大样本含量,则可能表现出差异显著性;二是可能确无本质上差异。显 著性检验只是用来确定无效假设能否被推翻,而不能证明无效假设是正确的。 (四)合理建立统计假设,正确计算检验统计量。就两个样本平均数差异显著性检验 来说,无效假设H0与备择假设H4的建立,一般如前所述,但也有时也例外。如经收益与 成本的综合经济分析知道,饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用 畜禽生产性能提高d个单位获得的收益来相抵,那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益 上是否有差异时,无效假设应为H0:1-2=d,备择假设为HA:p41-2≠d(双侧检 验);或H4:1-42>d(单侧检验):t检验计算公式为 (x1-x2)-d (5-1)
61 显著。 选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般 若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差 别,则选用双侧检验;若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果 差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般 情况下,如不作特殊说明均指双侧检验。 五、显著性检验中应注意的问题 上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个 问题: (一)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本 是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因 素应尽可能控制相同或基本相近。否则,任何显著性检验的方法都不能保证结果的正确。 (二)选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对 设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计 方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认 真考虑其适用条件,不能滥用。 (三)要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著” 或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或 很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能 性小于 0.05 或 0.01,已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然 差别大,但由于试验误差大,也许还不能得出“差异显著”的结论,而有些试验的结果间 的差异虽小,但由于试验误差小,反而可能推断为“差异显著”。 显著水平的高低只表示下结论的可靠程度的高低,即在 0.01 水平下否定无效假设的 可靠程度为 99%,而在 0.05 水平下否定无效假设的可靠程度为 95%。 “差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的 概率水平 0.05,不能理解为试验结果间没有差异。下“差异不显著”的结论时,客观上存 在两种可能:一是本质上有差异,但被试验误差所掩盖,表现不出差异的显著性来。如果 减小试验误差或增大样本含量,则可能表现出差异显著性;二是可能确无本质上差异。显 著性检验只是用来确定无效假设能否被推翻,而不能证明无效假设是正确的。 (四)合理建立统计假设,正确计算检验统计量。就两个样本平均数差异显著性检验 来说,无效假设 H0 与备择假设 H A 的建立,一般如前所述,但也有时也例外。如经收益与 成本的综合经济分析知道,饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用 畜禽生产性能提高 d 个单位获得的收益来相抵,那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益 上是否有差异时,无效假设应为 H0 : 1 - 2 = d ,备择假设为 H A: 1 - 2 ≠ d (双侧检 验);或 H A: 1 - 2 > d (单侧检验);t 检验计算公式为: 1 2 ( ) 1 2 Sx x x x d t − − − = (5-1)