∑(x1-4)2 8) (2)样本标准偏差 在实际测定中,测定次数有限,一般n<30,此时,统计学中,用样本的标准偏差S来衡量分析数 据的分散程度 ∑(x1-x)2 式中(n-1)为自由度,它说明在n次测定中,只有(n-1)个可变偏差,引入(n-1),主要是为了校正以 样本平均值代替总体平均值所引起的误差 ∑(x1-x)2∑(x-) (3)样本的相对标准偏差—变异系数 (3)样本的相对标准偏差—变异系数 RSD O- S (三)准确度与精密度的关系 D A.准确且精密 B.不准确但精密C.准确但不精密D.不准确且不精密 结论:准确度高精密度一定高:精密度是保证准确度的前提:精密度好,准确度不一定好,可能有系 统误差存在:精密度不好,衡量准确度无意义:在确定消除了系统误差的前提下,精密度可表达准确度 准确度及精密度都高说明结果可靠 二、误差的分类 1.系统误差:由某种固定原因造成,使测定结果系统地偏高或偏低。可用校正地方法加以消除。 特点:(1)单向性:要么偏高,要么偏低,即正负、大小有一定地规律性 (2)重复性:同一条件下,重复测定中,重复地出现 (3)可测性:误差大小基本不变。 来源:(1)方法误差一选择的方法不够完善:重量分析中沉淀的溶解损失、滴定分析中终点误差一用其 他方法校正 2)仪器误差一仪器本身的缺陷:天平两臂不等,滴定管,容量瓶刻度不准、砝码磨损一校准(绝 对、相对 3)操作误差:颜色观察(多实践 (4)试剂误差一所用试剂有杂质:去离子水不合格:试剂纯度不够(含待测组份或干扰离子) 空白实验 5)主观误差一个人误差,操作人员主观因素造成:对指示剂颜色辨别偏深或偏浅:滴定管读数
11 n x n i å i = - = 1 2 ( m) s (8) (2)样本标准偏差 在实际测定中,测定次数有限,一般 n<30 ,此时,统计学中,用样本的标准偏差 S 来衡量分析数 据的分散程度: 1 ( ) 1 2 - - = å = n x x S n i i (9) 式中(n-1)为自由度,它说明在 n 次测定中,只有(n-1)个可变偏差,引入(n-1),主要是为了校正以 样本平均值代替总体平均值所引起的误差 即 n x n x x i i n å å - » - - ®¥ 2 2 ( ) 1 ( ) lim m (10) 而 S ® s (3)样本的相对标准偏差——变异系数 (3)样本的相对标准偏差——变异系数 % = ´ % x S RSD (11) (三)准确度与精密度的关系 A B C D A. 准确且精密 B. 不准确但精密 C.准确但不精密 D.不准确且不精密 结论:准确度高精密度一定高;精密度是保证准确度的前提;精密度好,准确度不一定好,可能有系 统误差存在;精密度不好,衡量准确度无意义;在确定消除了系统误差的前提下,精密度可表达准确度; 准确度及精密度都高说明结果可靠。 二、误差的分类 1.系统误差:由某种固定原因造成,使测定结果系统地偏高或偏低。可用校正地方法加以消除。 特点:(1)单向性:要么偏高,要么偏低,即正负、大小有一定地规律性 (2)重复性:同一条件下,重复测定中,重复地出现; (3)可测性:误差大小基本不变。 来源:(1)方法误差—选择的方法不够完善:重量分析中沉淀的溶解损失、滴定分析中终点误差-用其 他方法校正 (2)仪器误差—仪器本身的缺陷: 天平两臂不等,滴定管,容量瓶刻度不准、砝码磨损-校准(绝 对、相对) (3)操作误差: 颜色观察(多实践) (4)试剂误差—所用试剂有杂质: 去离子水不合格;试剂纯度不够(含待测组份或干扰离子)- 空白实验 (5)主观误差—个人误差,操作人员主观因素造成: 对指示剂颜色辨别偏深或偏浅;滴定管读数 不准
2.随机误差:由某些不固定偶然原因造成,使测定结果在一定范围内波动,大小、正负不定,难以找到 原因,无法测量。不存在系统误差的情况下,测定次数越多其平均值越接近真值。一般平行测定4-6次 特点:(1)不确定性:(2)不可避免性。只能减小,不能消除。每次测定结果无规律性,多次测量符 合统计学正态分布规律,可用统计学方法来处理 3.过失:其实质是一种错误,由粗心大意引起,可以避免的,必须重做!如:加错指示剂、记录错误等。 图1系统误差与随机误差的比较 项目 系统误差 随机误差 产生原因 固定因素,有时不存在 不固定因素,总是存在 分类 方法误差、仪器与试剂误差 主观误差 环境的变化因素、主观的变化因素等 重现性、单向性(或周期性) 性质 服从概率统计规律、不可测性 可测性 准确度 消除或减小的方法校正 增加测定的次数 32随机误差的分布 问题思考 1.随机误差的正态分布规律?t分布规律? 2.uF=?t=? 3.平均值的置信区间? 正态分布:随机误差的规律服从正态分布规律,可用正态分布曲线(高斯分布的正态概率密度函数)表示 y=f(x) =-1(2 (13) 式中:y—概率密度:μ总体平均值:σ一总体标准偏差。 正态分布曲线依赖于μ和a两个基本参数,曲线随μ和a的不同而不同。为简便起见,使用一个新变数(a) 来表达误差分布函数式 (14) 的涵义是:偏差值(x-)以标准偏差为单位来表示, 变换后的函数式为 y=q(u= 由此绘制的曲线称为“标准正态分布曲线”。因为标准正态分布曲线横坐标是以σ为单位,所以对于不同 的测定值μ及σ,都是适用的
12 2. 随机误差:由某些不固定偶然原因造成,使测定结果在一定范围内波动,大小、正负不定,难以找到 原因,无法测量。不存在系统误差的情况下,测定次数越多其平均值越接近真值。一般平行测定 4-6 次 特点:(1)不确定性;(2)不可避免性。只能减小,不能消除。每次测定结果无规律性,多次测量符 合统计学正态分布规律,可用统计学方法来处理。 3.过失:其实质是一种错误,由粗心大意引起,可以避免的,必须重 做 !如:加错指示剂、记录错误等。 图 1 系统误差与随机误差的比较 项目 系统误差 随机误差 产生原因 固定因素,有时不存在 不固定因素,总是存在 分类 方法误差、仪器与试剂误差、 主观误差 环境的变化因素、主观的变化因素等 性质 重现性、单向性(或周期性)、 可测性 服从概率统计规律、不可测性 影响 准确度 精密度 消除或减小的方法 校正 增加测定的次数 3.2 随机误差的分布 问题思考: 1. 随机误差的正态分布规律?t 分布规律? 2. u=? t=? 3. 平均值的置信区间? 正态分布:随机误差的规律服从正态分布规律,可用正态分布曲线(高斯分布的正态概率密度函数)表示: 2 2 2 ( ) 2 1 ( ) s m s p - - = = x y f x e (13) 式中:y —概率密度; m—总体平均值;s —总体标准偏差。 正态分布曲线依赖于m 和s 两个基本参数,曲线随m 和s 的不同而不同。为简便起见,使用一个新变数(u) 来表达误差分布函数式: s - m = x u (14) u 的涵义是:偏差值(x-m)以标准偏差为单位来表示。 变换后的函数式为: 2 2 1 2 1 ( ) u y u e - = = p f (15) 由此绘制的曲线称为“标准正态分布曲线” 。因为标准正态分布曲线横坐标是以s 为单位,所以对于不同 的测定值 m 及s ,都是适用的
图1:两组精密度不同的测定值的正态分布曲线图2:标准正态分布曲线 “标准正态分布曲线”清楚地反映了随机误差的分布性质: (1)集中趋势当x=时(=0),y= =0.3989,y此时最大,说明测 定值x集中在μ附近,或者说,μ是最可信赖值。 (2)对称趋势曲线以x=μ这一直线为对称轴,表明: 正负误差出现的概率相等。大误差出现的概率小,小误差出现的概率大;很大误差出现的概率极小 在无限多次测定时,误差的算术平均值极限为0 (3)总概率曲线与横坐标从-到+∝在之间所包围的面积代表具有各种大小误差的测定值出现的概 率的总和,其值为1(100%) <+∞) ∫2e2dha=1 (16) 3.随机误差的区间概率 正态分布曲线与横坐标-∞到+∞之间所夹的面积,代表所有数据出现概率的总和,其值应为1,即 P+)=广品h=1,若要求变量在某区间出现的概*,则b)=品,由此 得到概率积分图(如下图) 态分布概率积分图 面积 面积 0.0000 0.3413 0.4773 0.0398 1.1 2.1 0.4821 0.0793 1.2 0.3849 2.2 0.4861 0.1179 1.3 0.4032 2.3 0.4893 0.1554 14 0.419 24 0.4918 0.1915 1.5 0.4332 2.5 0.4938 0.2258 2.6 0.2580 1.8 2.8 用数理统计方法可以证明并求出测定值x出现在不同u区间的概率(不同u值时所占的面积)即x 落在u区间的概率 E意:表中列出的是单侧概率,求±u间的概率,需乘以2
13 图 1:两组精密度不同的测定值的正态分布曲线 图 2:标准正态分布曲线 “标准正态分布曲线”清楚地反映了随机误差的分布性质: (1)集中趋势 当 x=m 时(u=0), 0.3989 2 1 2 1 2 2 1 = = = - p p u y e ,y 此时最大,说明测 定值 x 集中在 m 附近,或者说,m 是最可信赖值。 (2)对称趋势 曲线以 x=m 这一直线为对称轴,表明: 正负误差出现的概率相等。大误差出现的概率小,小误差出现的概率大;很大误差出现的概率极小。 在无限多次测定时,误差的算术平均值极限为 0 。 (3)总概率 曲线与横坐标从-µ 到 + µ 在之间所包围的面积代表具有各种大小误差的测定值出现的概 率的总和,其值为 1(100%) 1 2 1 2 ( ) 2 = ò = + ¥ -¥ - -¥ < < +¥ P e du u u p (16) 3. 随机误差的区间概率 正态分布曲线与横坐标-∞到+∞之间所夹的面积,代表所有数据出现概率的总和,其值应为 1,即 2 2 2 1 ( , ) 1 2 u P e s dx p +¥ - -¥ -¥ +¥ = = ò 。若要求变量在某区间出现的概率,则 2 2 2 1 ( , ) 2 u b a P a b e s dx p - = ò 。由此,可 得到概率积分图(如下图) 用数理统计方法可以证明并求出测定值 x 出现在不同 u 区间的概率(不同 u 值时所占的面积)即 x 落在 m± us 区间的概率: 注意:表中列出的是单侧概率,求 ± u 间的概率,需乘以 2。 图 2 正态分布概率积分图 |μ| 面积 |μ| 面积 |μ| 面积 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2258 0.2580 0.2881 0.3519 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 0.4773 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4987
随机误差出现的区间 测量值出现的区间 概率 u=±1 x=uto 0.3413×2=68.26% x=μ±1.960 95.0% 0.4773×2=95,46% u=±2.58 x=μ±2.580 0.4987×2=99.74% ∞-30-20-0uo2030 结论:随机误差超过3σ的测量值出现的概率仅占0.3%。当实际工作中,如果重复测量中,个别数据 误差的绝对值大于3σ,则这些测量值可舍去 例:已知某试样中Fe的标准值为378%,c=0.10,又已知测量时没有系统误差,求 (1)分析结果落在(3.78±0.20)%范围内的概率;(2)分析结果大于4.0%的概率。 解:(1)= x-0.20 0.0=20查表,求得概率为20.4773=0.9546=9546% (2)分析结果大于40%的概率,-上-叫-0=378-2,查表求得分析结果落在37840%以 内的概率为04861,那么分析结果大于400%的概率为0.5000-04861=1.39% 3.3有限测定数据的统计处理 在实际测定中,测定次数是有限的,只有x和S,此时则用能合理地处理少量实验数据的方法一1分布。 1.t分布曲线(实际测定中,用x、S代替μ、a) 正态分布是无限次测量数据的分布规律,而对有限冷数据田!分布曲线外田+伊1用S 代替σ,t定义为: 纵坐标仍为概率密度,但横坐标则为统计量t。如 1-}∵10 14 图7-6:分亦曲线/1;5,2
14 随机误差出现的区间 测量值出现的区间 概率 u=±1 x=m±1s 0.3413×2=68.26% u=±1.96 x=μ±1.96σ 95.0% u=±2 x=m±2s 0.4773×2=95.46% u=±2.58 x=μ±2.58σ 99.0% u=±3 x=m±3s 0.4987×2=99.74% 结论:随机误差超过 3s的测量值出现的概率仅占 0.3%。当实际工作中,如果重复测量中,个别数据 误差的绝对值大于 3s,则这些测量值可舍去。 例:已知某试样中 Fe 的标准值为 3.78%,s=0.10,又已知测量时没有系统误差,求 (1)分析结果落在(3.78±0.20)%范围内的概率;(2)分析结果大于 4.0%的概率。 解:(1) 0.20 2.0 0.10 x u u s - = = = 查表,求得概率为 2*0.4773=0.9546 =95.46% (2)分析结果大于 4.0%的概率, 4.00 3.78 2.2 0.10 x u u s - - = = = ,查表求得分析结果落在 3.78-4.00%以 内的概率为 0.4861,那么分析结果大于 4.00%的概率为 0.5000-0.4861=1.39% 3.3 有限测定数据的统计处理 在实际测定中,测定次数是有限的,只有 x 和 S,此时则用能合理地处理少量实验数据的方法—t 分布。 1. t 分布曲线 (实际测定中,用 x 、S 代替m、s) 正态分布是无限次测量数据的分布规律,而对有限次测量数据则用 t 分布曲线处理。用 t 代替 u,用 S 代替s,t 定义为: x x x t n s s - - m m = = 纵坐标仍为概率密度,但横坐标则为统计量 t。如图:
t分布曲线与标准正态分布曲线相似,纵坐标仍为概率密度,纵坐标则是新的统计量t x-μ (17) 无限次测定,一定→P就一定 有限次测定:t一定→P随n(自由度)不同而不同 不同的n值及概率所对应的t值,已有统计学家计算出来,可由有关表中查出 2.平均值的量信区间 应用t分布估计真值范围,考虑的符号时,则可得到如下关系式 u=x±tyS 同样,对于样本平均值也存在类似的关系式 =x土tpS=x±t.S (19) 此式表示的是在一定概率下,以样本平均值为中心的包括真值在内的取值范围,即平均值的置信区间。 t。S称为置信区间界限。此式表明:平均值x与真值的关系,即说明平均值的可靠性。平均值的置信 区间取决于测定的精密度、测定次数和置信水平(概率)(分析工作中常规定为95%)。测定精密度越高 (S小),测定次数越多(n大),置信区间则越小,即平均值x越准确。 例1:分析某固体废物中铁含量得如下结果:x=15.78%,s=0.03%,n=4,求:(1)置信度为95%时平均值 的置信区间:(2)置信度为99%时平均值的置信区间 解:置信度为95%,查表得10.0,3=3.18.那么p=人S1578±318×02=1578±005% 置信度为99%,查表得0.05,3=5.84,那么=x±=1578±584x=1578±009% 从该例可以看出,置信度越高,量信区间越大。 上例结果的理解 1.正确的理解:在15.78±0.05%的区间内,包括总体平均值的山的概率为95% 错误的理解:a.未来测定的实验平均值有95%落入15.78±0.05%区间内 b.真值落在15.78±0.05%区间内的概率为95% 问题思考: 1.可疑数据的取舍有几种方法?各有什么优缺点? 3.分析数据的显著性检验是为了检验什么? 什么是t检验?什么是F检验? 5.t=?:F=? 可疑数据的取會 1.Q检验法(3~10次测定适用,且只有一个可疑数据) (1)将各数据从小到大排列:x,x2,x3 (2)计算(xxx+),即(xn-x1) (3)计算(x可x), (4)计算舍弃商Q计=|x可x|/xnx1
15 t 分布曲线与标准正态分布曲线相似,纵坐标仍为概率密度,纵坐标则是新的统计量 t S x t - m = (17) 无限次测定,u 一定 ® P 就一定; 有限次测定:t 一定 ® P 随 n (自由度)不同而不同。 不同的 n 值及概率所对应的 t 值,已有统计学家计算出来,可由有关表中查出。 2. 平均值的置信区间 应用 t 分布估计真值范围,考虑的符号时,则可得到如下关系式: m = x ± tP,n S (18) 同样,对于样本平均值也存在类似的关系式: n S x t S x t m = ± P,n = ± P,n (19) 此式表示的是在一定概率下,以样本平均值为中心的包括真值在内的取值范围,即平均值的置信区间。 t S P,n 称为置信区间界限。此式表明:平均值 x 与真值的关系,即说明平均值的可靠性。平均值的置信 区间取决于测定的精密度、测定次数和置信水平(概率) (分析工作中常规定为 95%) 。测定精密度越高 (S 小),测定次数越多(n 大),置信区间则越小,即平均值 x 越准确。 例 1:分析某固体废物中铁含量得如下结果: x =15.78%,s=0.03%,n=4,求: (1) 置信度为 95%时平均值 的置信区间; (2) 置信度为 99%时平均值的置信区间 解:置信度为 95%,查表得 t0.05,3 =3.18,那么 0.03 15.78 3.18 15.78 0.05% 4 S x t n m = ± = ± ´ = ± 置信度为 99%,查表得 t0.05,3 =5.84,那么 0.03 15.78 5.84 15.78 0.09% 4 S x t n m = ± = ± ´ = ± 从该例可以看出,置信度越高,置信区间越大。 对上例结果的理解: 1.正确的理解:在 15.78±0.05%的区间内,包括总体平均值的m的概率为 95%。 2.错误的理解:a.未来测定的实验平均值有 95%落入 15.78±0.05%区间内 b.真值落在 15.78±0.05%区间内的概率为 95% 问题思考: 1. 可疑数据的取舍有几种方法?各有什么优缺点? 2. Q=? G=? 3. 分析数据的显著性检验是为了检验什么? 4. 什么是 t 检验?什么是 F 检验? 5. t=?; F=? 一. 可疑数据的取舍 1. Q-检验法 (3~10 次测定适用,且只有一个可疑数据) (1) 将各数据从小到大排列:x1, x2, x3……xn ; (2)计算 (x 大-x 小), 即 (xn -x1); (3)计算 ( x 可-x 邻), (4)计算舍弃商 Q 计 =ô x 可-x 邻ô/ xn -x1