第3章分析化学中的误差与数据处理 基本内容 1.分析化学中的误差 1.1误差和准确度 误差E表示测定值x与真实值x,之间的差异,即E=x-x,也叫绝对误差,绝对误 差在真实值中所占的百分率叫相对误差,即 E-=×100% XT 测定值与真实值相互接近的程度叫做准确度。准确度的高低是用误差来衡量的,误 差越小,准确度越高,误差越大,准确度越低。 1.2偏差和精密度 偏差d是测定值x与平均值xr之间的差值。即d=x,-x也叫绝对偏差,绝对偏差在 平均值中所占的百分率叫相对偏差,即 d,=2×100% d 各个偏差的绝对值的平均值叫平均偏差,即 a-+++- 2 d 相对平均偏差=×100% 用相同的方法对同一个试样平行测定几次,这几次平行测定值相互接近的程度叫精 密度。由于各单次测定值的偏差相加,其和为零,所以常用平均偏差或相对平均偏差来 衡量一组测定值的精密度。 1.3准确度和精密度的关系 16
16 第3 章 分析化学中的误差与数据处理 基本内容 1. 分析化学中的误差 1.1 误差和准确度 误差 E 表示测定值 x 与真实值 T x 之间的差异,即 T E = x − x 也叫绝对误差,绝对误 差在真实值中所占的百分率叫相对误差,即 = ×100% Tx E Er 测定值与真实值相互接近的程度叫做准确度。准确度的高低是用误差来衡量的,误 差越小,准确度越高,误差越大,准确度越低。 1.2 偏差和精密度 偏差 d 是测定值 x 与平均值 x 之间的差值。即 d x x = i − 也叫绝对偏差,绝对偏差在 平均值中所占的百分率叫相对偏差,即 = ×100% x d d r 各个偏差的绝对值的平均值叫平均偏差,即 = ∑ + + + = = n i i n d n n d d d d 1 1 2 ⋯ 1 = ×100% x d 相对平均偏差 用相同的方法对同一个试样平行测定几次,这几次平行测定值相互接近的程度叫精 密度。由于各单次测定值的偏差相加,其和为零,所以常用平均偏差或相对平均偏差来 衡量一组测定值的精密度。 1.3 准确度和精密度的关系
在实际工作中,精密度是保证准确度高的先决条件,但精密度高不一定准确度就高, 因为这时可能存在比较大的系统误差。如果一组测定值的精密度很差自然就失去了衡量 其准确度的前提。 1.4系统误差和偶然误差 系统误差是由于某种固定原因造成的,具有重复性,单向性。它的大小,正负,在 理论上说是可以测定的,所以又叫可测误差。系统误差按其性质和产生的原因可分为方 法误差,仪器和试剂误差、操作误差、主观误差等四种类型。 偶然误差是由一些随机的因素引起的,其大小,正负都不固定,所以又称不定误差 偶然误差在分析操作中是无法避免的。但如果进行很多次测定,便会发现数据的分布符 合统计规律。 2.有效数字及其运算规则 2.1有效数字 有效数字就是实际能测量到的数字,有效数字保留的位数,要根据分析方法和仪器 的准确度来决定,只有数值的最后一位是估计的。数值中数字“0”具有双重意义。如果 作为普通数字使用,就是有效数字:如果作为定位用,就不是有效数字。如在0.0040 此数据中,前面三个“0”是起定位作用的,后面一个零才是有效数字,因此,该数仅有 两位有效数字。倍数、分数关系并非测量所得,可视为无限多位有效数字。而pH、pM 等对数值,其有效数字的位数仅取决于尾数部分的位数,即数值中小数点后面的位数才 是有效数字。例如pH=4.30,即[H]=5.0×10molL1,其有效数字为两位而不是三位。 2.2有效数字的修改规则及数据运算规则 有效数字修约规则为“四舍六入五成双”。数据运算规则是先对各个数据进行修约, 然后进行计算。 在加、减法运算中,有效数字位数的保留,应以小数点后位数最少的数据为根据。 即以绝对误差最大的数据为根据: 在乘除法运算中,有效数字的位数应与相对误差最大的数据相对应,即以有效数字 位数最少的数据为根据。 3。分析化学中的数据处理 在统计学中,对于所考察的对象的全体,称为总体或母体。自总体中随机抽出的一 组测量值,称为样本或子样。样本中所含测量值的数目,称为样本的大小或容量。当样 本容量为,则其算术平均值为X,平均偏差为δ,当测定次数无限增多时,所得算术 平均值即为总体平均值μ,若没有系统误差存在,则总体平均值μ就是真值XT。 17
17 在实际工作中,精密度是保证准确度高的先决条件,但精密度高不一定准确度就高, 因为这时可能存在比较大的系统误差。如果一组测定值的精密度很差自然就失去了衡量 其准确度的前提。 1.4 系统误差和偶然误差 系统误差是由于某种固定原因造成的,具有重复性,单向性。它的大小,正负,在 理论上说是可以测定的,所以又叫可测误差。系统误差按其性质和产生的原因可分为方 法误差,仪器和试剂误差、操作误差、主观误差等四种类型。 偶然误差是由一些随机的因素引起的,其大小,正负都不固定,所以又称不定误差。 偶然误差在分析操作中是无法避免的。但如果进行很多次测定,便会发现数据的分布符 合统计规律。 2.有效数字及其运算规则 2.1 有效数字 有效数字就是实际能测量到的数字,有效数字保留的位数,要根据分析方法和仪器 的准确度来决定,只有数值的最后一位是估计的。数值中数字“0”具有双重意义。如果 作为普通数字使用,就是有效数字;如果作为定位用,就不是有效数字。如在 0.0040 此数据中,前面三个“0”是起定位作用的,后面一个零才是有效数字,因此,该数仅有 两位有效数字。倍数、分数关系并非测量所得,可视为无限多位有效数字。而 pH 、 pM 等对数值,其有效数字的位数仅取决于尾数部分的位数,即数值中小数点后面的位数才 是有效数字。例如 pH =4.30,即[H +]=5.0×10 -5mol·L-1,其有效数字为两位而不是三位。 2.2 有效数字的修改规则及数据运算规则 有效数字修约规则为“四舍六入五成双”。数据运算规则是先对各个数据进行修约, 然后进行计算。 在加、减法运算中,有效数字位数的保留,应以小数点后位数最少的数据为根据。 即以绝对误差最大的数据为根据; 在乘除法运算中,有效数字的位数应与相对误差最大的数据相对应,即以有效数字 位数最少的数据为根据。 3.分析化学中的数据处理 在统计学中,对于所考察的对象的全体,称为总体或母体。自总体中随机抽出的一 组测量值,称为样本或子样。样本中所含测量值的数目,称为样本的大小或容量。当样 本容量为 n,则其算术平均值为 x ,平均偏差为 δ ,当测定次数无限增多时,所得算术 平均值即为总体平均值μ ,若没有系统误差存在,则总体平均值μ 就是真值 T x
X-LEx, u=mx,6=- n n→on 3.1标准偏差: 3.1.1总体标准偏差:当测量次数为无限多次时,各测量值对总体平均值μ的偏离, 用总体标准偏差6表示:。=1 x-} n 3.1.2样本标准偏差:当测量值为有限多次,并总体平均值又不知道时,用标本的标 准偏差s来衡量该组数据的分散程度。S= ∑x-x n-1 式中的(-1)称为自由度,以f表示。自由度是指独立偏差的个数。当测量次数非常多时, n与(n-1)的区别就很小了,此时x→μ,s→δ lim (x-2-(r-m) -1 3.1.3相对标准偏差:单项测量结果的相对标准偏差又称变异系数为: RSD=Sx100%。 3.1.4标准偏差与平均偏差:用统计学的方法可以证明,当测定次数非常多时,标 准偏差与平均偏差的关系为δ≈0.80σ。当测定次数较少时,d与s之间的关系就可能与 此式相差频大了。在实际中,用标准偏差衡量数据的分散程度比平均偏差更为恰当。 3.1.5平均值的标准偏差:一组样本的平均值X的标准偏差6-与单次测量结果的标准 偏差的关系是:①:=。,对于有限次测量值表示为: S-=- √n n 平均偏差与单次测量的平均偏差之间也存在对应的关系:§ d =和d= Vn 3.2随机误差的正态分布 3.2.1正态分布:分析化学中测量结果的数据一般都符合正态分布的规律。正态分 布的概率密度表达式为:y=fK)=1。器 e2c2 0√2π 在正态分布曲线中,横坐标为测量值x时,表示测 量值的概率分布:横坐标为x-μ时,表示随机误差的 概率分布。由正态分布公式和图可以看出: 1.测量值的集中趋势是总体平均值μ: -00-30-2-010203009 18
18 x = Σx n 1 , Σx n 1 μ lim n→∞ = , Σ x μ n 1 δ = − 。 3.1 标准偏差: 3.1.1 总体标准偏差:当测量次数为无限多次时,各测量值对总体平均值μ 的偏离, 用总体标准偏差σ表示: ( ) n Σ x μ σ 2 − = 3.1.2 样本标准偏差:当测量值为有限多次,并总体平均值又不知道时,用标本的标 准偏差s 来衡量该组数据的分散程度。 n 1 (x x) s 2 − − = ∑ 式中的(n-1)称为自由度,以 f 表示。自由度是指独立偏差的个数。当测量次数非常多时, n 与(n-1)的区别就很小了,此时 x → μ,s → δ n x m n x x n 2 2 ( ) 1 ( ) lim Σ − = − Σ − → ∞ 3.1.3 相 对 标 准 偏 差 : 单 项 测 量 结 果 的 相 对 标 准 偏 差 又 称 变 异 系 数 为 : RSD= 100% x s × 。 3.1.4 标准偏差与平均偏差:用统计学的方法可以证明,当测定次数非常多时,标 准偏差与平均偏差的关系为 δ ≈ 0.80σ。当测定次数较少时, d 与s 之间的关系就可能与 此式相差颇大了。在实际中,用标准偏差衡量数据的分散程度比平均偏差更为恰当。 3.1.5 平均值的标准偏差:一组样本的平均值 x 的标准偏差 x σ 与单次测量结果的标准 偏差的关系是: n σ σ x = , 对于有限次测量值表示为: n s s x = 。 平均偏差与单次测量的平均偏差之间也存在对应的关系: n s sx = 和 n d dx = 。 3.2 随机误差的正态分布 3.2.1 正态分布:分析化学中测量结果的数据一般都符合正态分布的规律。正态分 布的概率密度表达式为: ( ) 2 2 2σ (x μ) e σ 2π 1 y f x − − = = 在正态分布曲线中,横坐标为测量值 x 时,表示测 量值的概率分布;横坐标为 x- μ 时,表示随机误差的 概率分布。由正态分布公式和图可以看出: 1.测量值的集中趋势是总体平均值μ ;
2.大误差出现的概率小,小误差出现的概率大: 3.正负误差出现的概率相等: 4.σ越大,正态分布曲线越平坦,测量值落在μ附近的概率越小:反之σ越小,正 态分布曲线越尖锐,测量值的分散程度越小。 3.2.2标准正态分布:在正态分布函数公式中有两个基本参数μ和σ,前者反映测 量值分布的集中趋势,后者反映测量值分布的分散程度。随着!和ō的不同则有不同的 分布曲线,以N山,σ)表示。如果以μ为原点,以σ为横坐标单位的正态分布曲线叫做 标准正态分布曲线,以N(0,1)表示,它对于不同μ和σ的任何测量值都是适用的。 dx 令u=X-上,则du= 6 代入正态分布函数公式中得标准正态分布曲线的函数表达式:y=(仙)=【。 e-un V2π 3.2.3随机误差的区间概率:正态分布曲线与横坐标-o到+o之间所夹的面积,代表 有数据出现概率的总和,即概率P,其值为1.Pp=7ed 标准正态分布在区间0~u上的概率,可查标准正态分布概率积分表。若要求士u区间的 概率,则必须将查得u值乘以2。 3.3少量数据的统计处理 3.3.1t分布曲线:在实际工作中,我们经常面对的是少量数据,故提出用t值代替u 值,以补偿s代替。而引起的误差。在t分布曲线中,横坐标为统计量t=X一上,纵坐标 仍为概率密度。t分布曲线与正态分布曲线相似,当f→0时,t分布即为正态分布。t 分布曲线下面一定范围内的面积,就是该范围内的测定值出现的概率。只是对正态分布 曲线,只要μ值一定,相应的概率密度也就一定:但对t分布曲线,当t一定时,由于 f值的不同,其概率也就不同。 3.3.2平均值的置信区间:在实际工作中,通常对试样进行多次分析,求样本的平 均值,故常用样本平均值来估计总体平均值的范围。μ=X士X后 表示在一定的置 信度时,以测定结果为中心包括总体平均值在内的可靠性范围,称为平均值的置信区间。 3.3.3显著性检验:在实际工作中,常发现测定平均值与标准值不一致,这种差异 是由偶然误差引起的,还是由系统误差引起的?这在统计学中属于“假设检验”问题。 如果分析结果之间存在“显著性差异”,就认为它们之间存在系统误差:否则就认为没有 系统误差存在,纯属偶然误差引起的。 19
19 2.大误差出现的概率小,小误差出现的概率大; 3.正负误差出现的概率相等; 4. σ越大,正态分布曲线越平坦,测量值落在μ 附近的概率越小;反之σ越小,正 态分布曲线越尖锐,测量值的分散程度越小。 3.2.2 标准正态分布:在正态分布函数公式中有两个基本参数 μ 和σ ,前者反映测 量值分布的集中趋势,后者反映测量值分布的分散程度。随着 μ 和 σ 的不同则有不同的 分布曲线,以 N ( ) 2 μ,σ 表示。如果以μ 为原点,以 σ为横坐标单位的正态分布曲线叫做 标准正态分布曲线,以 N(0, 1)表示,它对于不同μ 和σ的任何测量值都是适用的。 令 u= σ x − μ ,则 du= σ dx , 代入正态分布函数公式中得标准正态分布曲线的函数表达式: ( ) u /2 2 e 2π 1 y u − = ϕ = 。 3.2.3 随机误差的区间概率:正态分布曲线与横坐标 − ∞ 到 + ∞ 之间所夹的面积,代表 所有数据出现概率的总和,,即概率 P,其值为 1。P = ( ) e du 2π 1 u du u /2 2 − +∞ −∞ +∞ ∫ ∫−∞ ϕ = 标准正态分布在区间 0~u 上的概率,可查标准正态分布概率积分表。若要求 ± u 区间的 概率,则必须将查得 u 值乘以 2。 3.3 少量数据的统计处理 3.3.1t 分布曲线:在实际工作中,我们经常面对的是少量数据,故提出用 t 值代替 u 值,以补偿 s 代替 σ 而引起的误差。在 t 分布曲线中,横坐标为统计量 t= s x − μ ,纵坐标 仍为概率密度。t 分布曲线与正态分布曲线相似,当f → ∞ 时,t 分布即为正态分布。t 分布曲线下面一定范围内的面积,就是该范围内的测定值出现的概率。只是对正态分布 曲线,只要μ 值一定,相应的概率密度也就一定;但对 t 分布曲线,当 t 一定时,由于 f 值的不同,其概率也就不同。 3.3.2 平均值的置信区间:在实际工作中,通常对试样进行多次分析,求样本的平 均值,故常用样本平均值来估计总体平均值的范围。 n s μ x t = ± α,f × 表示在一定的置 信度时,以测定结果为中心包括总体平均值在内的可靠性范围,称为平均值的置信区间。 3.3.3 显著性检验:在实际工作中,常发现测定平均值与标准值不一致,这种差异 是由偶然误差引起的,还是由系统误差引起的?这在统计学中属于“假设检验”问题。 如果分析结果之间存在“显著性差异”,就认为它们之间存在系统误差;否则就认为没有 系统误差存在,纯属偶然误差引起的
1.t检验法: ①平均值与标准值的比较:为了检查分析数据是否存在较大的系统误差,可对标准 试样进行若干次分析,再利用t检验法比较分析结果的平均值与标准之间是否存显著性 x-4 差异。由t= √求出t值:如果t值大于表中t:值,则认为存在显著性差异, 否则认为不存在显著性差异。 ②两组平均值的比较:首先确定这两组数据的精密度之间没有显著性差异,因为只 有在此条件下,才能把两组数据合在一起求得共同的标准偏差s, (x1-x1)2+x2-X2) n n2i 进行t检验,方法同①法。 (n1-1)+(n2-1) n1+n2 2.F检验法:此法是通过比较两组数据的方差s,以确定它们的精密度之间是否存在 显著性差异的方法。统计量F= 子,由计算的F值与表中查得F值进行比较,就可以确 立它们的精密度之间是否存显著性差异。 3.异常值的取舍:在实验中得到一组数据后,仅仅有个别数据与其他数据相差甚远, 这一数据称为可疑值或离群值。对于可疑值是保留还是舍去,应按一定的统计学方法进 行处理。 ①.4d法:首先求出除异常值以外其余数据的平均值x和平均偏差d,然后将异常 值与平均值进行比较,如果绝对差值大于4d,则将可疑值舍弃,否则应保留。此法简 单,不必查表:但结果不够准确。当此法与其他检验方法矛盾时,应以其他检验方法为 准。 ②.Q检验法:先将一组数据进行了排序,x,X2,…,X1,X,然后求出可疑值与 相邻值之差,以及该组数据的极差,再按下式求出统计量Q与Q进行比较,若Q≥ Q时应舍去,否则保留。当X为可疑值时:Q=X,一X1: X。-X 当n,为可疑值时:Q=X2-X。 Xn-XI ③.格鲁布斯法:先将一组数据进行排序,X,x,…,X1,X,然后计算该组数据 的平均值和标准偏差,再按下式求出统计量T与T进行比较,若T≥T时应舍去, 否则应保留。当X,为可疑值时:T=X一X;当X,为可疑值时:T=X一X 20
20 1.t 检验法: ①平均值与标准值的比较:为了检查分析数据是否存在较大的系统误差,可对标准 试样进行若干次分析,再利用 t 检验法比较分析结果的平均值与标准之间是否存显著性 差异。由 t= n s x − μ 求出 t 值;如果 t 值大于表中 α,f t 值,则认为存在显著性差异, 否则认为不存在显著性差异。 ②两组平均值的比较:首先确定这两组数据的精密度之间没有显著性差异,因为只 有在此条件下,才能把两组数据合在一起求得共同的标准偏差 s, s= (n 1) (n 1) Σ(x x ) Σ(x x ) 1 2 2 2 2 1 1 i i − + − − + − , 1 2 1 2 1 2 n n n n s x x t + × − = 进行 t 检验,方法同①法。 2.F 检验法:此法是通过比较两组数据的方差 s 2,以确定它们的精密度之间是否存在 显著性差异的方法。统计量 F= 2 2 s s ,由计算的 F 值与表中查得 F 值进行比较,就可以确 立它们的精密度之间是否存显著性差异。 3.异常值的取舍:在实验中得到一组数据后,仅仅有个别数据与其他数据相差甚远, 这一数据称为可疑值或离群值。对于可疑值是保留还是舍去,应按一定的统计学方法进 行处理。 ①.4 d 法:首先求出除异常值以外其余数据的平均值 x 和平均偏差 d ,然后将异常 值与平均值进行比较,如果绝对差值大于 4 d ,则将可疑值舍弃,否则应保留。此法简 单,不必查表;但结果不够准确。当此法与其他检验方法矛盾时,应以其他检验方法为 准。 ②.Q 检验法:先将一组数据进行了排序,x1,x2,……,xn-1,xn,然后求出可疑值与 相邻值之差,以及该组数据的极差,再按下式求出统计量 Q 与Q 进行比较,若Q ≥ Q 时应舍去,否则保留。当 n x 为可疑值时: n 1 n n 1 x x x x Q − − = − ; 当 1 n 为可疑值时: n 1 2 1 x x x x Q − − = 。 ③.格鲁布斯法:先将一组数据进行排序,x1,x2,……,xn-1,xn,然后计算该组数据 的平均值和标准偏差,再按下式求出统计量T 与 T 进行比较,若T ≥T 时应舍去, 否则应保留。当 1 x 为可疑值时: s x x T − 1 = ;当 n x 为可疑值时: s x x T n − =