总体单位数N来说,n是个很小的数,它可以是N的几十分之一,几百分 之一,几千分之一,几万分之 般说来,样本单位数达到或超过30 个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取 大样本。而自然实验观察则多取小样本。以很小的样本来推断很大的总体 这是抽样调查的一个特点 如果说全及总体是唯一确定的,那么,抽样样本就完全不是这样, 个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的 容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样 本的可能数目也有很大的差别,抽样本身是一种手段,目的在于对总体做 出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少, 它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以 认真的研究。 622.全及指标和抽样指标 1.全及指标 根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属 性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总 体计算的全及指标也是唯一确定的。 不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各 单位的标志可以用数量来表示,所以可以计算总体平均数。 X 对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定 的文字加以描述,所以,就应该计算结构相对指标,称为总体成数。用大 写英文字母P表示,它说明总体中具有某种标志的单位数在总体中所占的 比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上 或以下的比重,视同具有或不具有某种属性的单位数比重。 设总体N个单位中,有N1个单位具有某种属性,N0个单位不具有某 种属性,N1+N0=N,P为总体中具有某种属性的单位数所占的比重,Q 为不具有某种属性的单位数所占的比重,则总体成数为 N
总体单位数 N 来说,n 是个很小的数,它可以是 N 的几十分之一,几百分 之一,几千分之一,几万分之一。一般说来,样本单位数达到或超过 30 个称为大样本,而在 30 个以下称为小样本。社会经济现象的抽样调查多取 大样本。而自然实验观察则多取小样本。以很小的样本来推断很大的总体, 这是抽样调查的一个特点。 如果说全及总体是唯一确定的,那么,抽样样本就完全不是这样,一 个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的 容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样 本的可能数目也有很大的差别,抽样本身是一种手段,目的在于对总体做 出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少, 它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以 认真的研究。 6.2.2. 全及指标和抽样指标 1. 全及指标 根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属 性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总 体计算的全及指标也是唯一确定的。 不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各 单位的标志可以用数量来表示,所以可以计算总体平均数。 N X X = 对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定 的文字加以描述,所以,就应该计算结构相对指标,称为总体成数。用大 写英文字母 P 表示,它说明总体中具有某种标志的单位数在总体中所占的 比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上 或以下的比重,视同具有或不具有某种属性的单位数比重。 设总体 N 个单位中,有 N1 个单位具有某种属性,N0 个单位不具有某 种属性, N1 + N0 =N,P 为总体中具有某种属性的单位数所占的比重,Q 为不具有某种属性的单位数所占的比重,则总体成数为 P= N N1
Q-NO-N-N 1=1-P N 此外,全及指标还有总体方差σ2和总体标准差σ,它们都是测量总 体标志值分散程度的指标。 ∑(X-X) N (X-X) 抽样指标 由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标。和 全及指标相对应还有抽样平均数x、抽样成数p、样本标准差S和样本方 差S2等等。x和p用小写英文字母表示,以示区别 n 设样本n个单位中有n个单位具有某种属性,no个单位不具有某种属 性,n1+n=n,p为样本中具有某种属性的单位数所占的比重,q为不具有 某种属性的单位数所占的比重,则抽样成数为 P= P 样本的方差和样本标准差分别为 ∑ S 由于一个全及总体可以抽取许多个样本,样本不同,抽样指标的数值 也就不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本 变量的函数,它本身也是随机变量 623.重置抽样与不重置抽样
Q= P N N N N N = − − = 1 0 1 此外,全及指标还有总体方差 2 和总体标准差 ,它们都是测量总 体标志值分散程度的指标。 N X X 2 2 ( − ) = N X X 2 ( − ) = 2. 抽样指标 由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标。和 全及指标相对应还有抽样平均数 x 、抽样成数 p、样本标准差 S 和样本方 差 S 2 等等。 x 和 p 用小写英文字母表示,以示区别。 n x x = 设样本 n 个单位中有 n1 个单位具有某种属性,n0 个单位不具有某种属 性,n1+ n0 =n,p 为样本中具有某种属性的单位数所占的比重,q 为不具有 某种属性的单位数所占的比重,则抽样 成数为 p n n n n n q n n P = − − = , = = 1 1 0 1 样本的方差和样本标准差分别为 n x x S − = 2 2 ( ) n x x S − = 2 ( ) 由于一个全及总体可以抽取许多个样本,样本不同,抽样指标的数值 也就不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本 变量的函数,它本身也是随机变量。 6.2.3. 重置抽样与不重置抽样
重置抽样 重置抽样,又称有放回的抽样,是指从全及总体N个单位中随机抽取 一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总 体中重新参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次 试验,连续进行n次试验就构成了一个样本。因此,重置抽样的样本是经 n次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照 随机原则进行的 2.不重置抽样 不重置抽样,又称无放回的抽样,是指从全及总体N个单位中随机抽 取一个容量为n的样本,每次抽中的单位登录其有关标志表现后不再放回 总体中参加下一次的抽选。经过连续n次不重置抽选单位构成样本,实质 上相当于一次性同时从总体中抽中n个单位构成样本。上一次的抽选结果 会直接影响到下一次抽选,因此,不重置抽样的样本是经n次相互联系的 连续试验形成的 624抽样框与样本数 1.抽样框 抽样框,又称抽样结构,是指对可以选择作为样本的总体单位列出名 册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可 采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则 不能计算样本单位的概率,从而也就无法进行概率选样 2.样本数 样本数,又称样本的可能数目,是指从总体N个单位中随机抽选n个 单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是n个总体 单位的一种排列组合,一种排列组合便构成一个可能的样本,n个总体单 位的排列组合总数,称为样本的可能数目 63抽样推断的理论基础一大数定律与中心极限定理 抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极 限定理。 63.1大数定律 大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试 验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大
1. 重置抽样 重置抽样,又称有放回的抽样,是指从全及总体 N 个单位中随机抽取 一个容量为 n 的样本,每次抽中的单位经登录其有关标志表现后又放回总 体中重新参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次 试验,连续进行 n 次试验就构成了一个样本。因此,重置抽样的样本是经 n 次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照 随机原则进行的。 2. 不重置抽样 不重置抽样,又称无放回的抽样,是指从全及总体 N 个单位中随机抽 取一个容量为 n 的样本,每次抽中的单位登录其有关标志表现后不再放回 总体中参加下一次的抽选。经过连续 n 次不重置抽选单位构成样本,实质 上相当于一次性同时从总体中抽中 n 个单位构成样本。上一次的抽选结果 会直接影响到下一次抽选,因此,不重置抽样的样本是经 n 次相互联系的 连续试验形成的。 6.2.4. 抽样框与样本数 1. 抽样框 抽样框,又称抽样结构,是指对可以选择作为样本的总体单位列出名 册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可 采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则 不能计算样本单位的概率,从而也就无法进行概率选样。 2. 样本数 样本数,又称样本的可能数目,是指从总体 N 个单位中随机抽选 n 个 单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是 n 个总体 单位的一种排列组合,一种排列组合便构成一个可能的样本,n 个总体单 位的排列组合总数,称为样本的可能数目。 6.3 抽样推断的理论基础—大数定律与中心极限定理 抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极 限定理。 6.3.1 大数定律 大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试 验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大
量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消 从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出 生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的 观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50% 大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律: 1.切贝雪夫大数定理 设x1,x2…是一列两两相互独立的随机变量,服从同一分布,且存在 有限的数学期望a和方差02,则对任意小的正数ε,有 lim n→on 该定律的含义是:当n很大,服从同一分布的随机变量x,x2…,xn 的算术平均数—将依概率接近于这些随机变量的数学期望 将该定律应用于抽样调査,就会有如下结论:随着样本容量n的增加, 样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计 总体平均数提供了理论依据 2贝努里大数定律 设Hn是n次独立试验中事件A发生的次数,且事件A在每次试验中 发生的概率为P,则对任意正数ε,有: lim n→0 力"b 该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件 A出现的频率将几乎接近于其发生的概率,即频率的稳定性。 在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。 63.2.中心极限定理 大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的 分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量 的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这 里仅介绍其中四个常用定理。 1.辛钦中心极限定理
量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消, 从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出 生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的 观察就会发现,男婴和女婴占婴儿总数的比重均会趋于 50%。 大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律: 1. 切贝雪夫大数定理 设 x1,x2 …是一列两两相互独立的随机变量,服从同一分布,且存在 有限的数学期望 a 和方差σ2,则对任意小的正数ε,有: 1 lim = − → a n x P n i 该定律的含义是:当 n 很大,服从同一分布的随机变量 x1,x2 …,xn 的算术平均数 n x i 将依概率接近于这些随机变量的数学期望。 将该定律应用于抽样调查,就会有如下结论:随着样本容量 n 的增加, 样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计 总体平均数提供了理论依据。 2 贝努里大数定律 设 n 是 n 次独立试验中事件 A 发生的次数,且事件 A 在每次试验中 发生的概率为 P,则对任意正数ε,有: 1 lim = − → p n u P n n 该定律是切贝雪夫大数定律的特例,其含义是,当 n 足够大时,事件 A 出现的频率将几乎接近于其发生的概率,即频率的稳定性。 在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。 6.3.2. 中心极限定理 大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的 分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量 的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这 里仅介绍其中四个常用定理。 1. 辛钦中心极限定理
设随机变量x1,x2…,x相互独立,服从同一分布且有有限的数学 期望a和方差2,则随机变量x∑x1,在n无限增大时,服从参数为a 和的正态分布即n→∞时 x -N(a 将该定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学 期望a和方差o2是有限的,无论总体服从什么分布,从中抽取容量为n 的样本时,只要n足够大,其样本平均数的分布就趋于数学期望为a,方 差为2/n的正态分布 2.德莫佛——拉普拉斯中心极限定理 设pn是n次独立试验中事件A发生的次数,事件A在每次试验中发 生的概率为P则当n无限大时,频率设n/n趋于服从参数为p,P=pP) 的正态分布。即 p(1-P un-N(p, n 该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什 么分布,只要n充分大,那么频率就近似服从正态分布 3.李亚普洛夫中心极限定理 设x1,x2,…,xn,…是一个相互独立的随机变量序列,它们具有有 限的数学期望和方差:ak=E(Xkbk2=D(Xk)(k=1,2,…n,…) 记B2=∑b,如果能选择这一个正数8>0,使当 ∑Ex-a0→0 则对任意的ⅹ有: B 2+8ka
设随机变量 x1,x2 …,xn 相互独立,服从同一分布且有有限的数学 期望 a 和方差σ2,则随机变量 n x x i = ,在 n 无限增大时,服从参数为 a 和 n 2 的正态分布即 n→∞时, ~ ( , ) 2 n x N a 将该定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学 期望 a 和方差σ2 是有限的,无论总体服从什么分布,从中抽取容量为 n 的样本时,只要 n 足够大,其样本平均数的分布就趋于数学期望为 a,方 差为σ2 /n 的正态分布。 2. 德莫佛——拉普拉斯中心极限定理 设 n 是 n 次独立试验中事件 A 发生的次数,事件 A 在每次试验中发 生的概率为 P,则当 n 无限大时,频率设 n / n 趋于服从参数为 n p p p (1 ) , − 的正态分布。即: ) (1 ) ~ ( , n p p N p n n − 该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什 么分布,只要 n 充分大,那么频率就近似服从正态分布。 3. 李亚普洛夫中心极限定理 设 x1,x2,…,xn,…是一个相互独立的随机变量序列,它们具有有 限的数学期望和方差: ( ), ( ) ( 1,2, , ) ak = E Xk bk 2 = D X K k = n 。 记 = = n k Bn bk 1 2 2 ,如果能选择这一个正数δ>0,使当 n→∞时, 0 2 1 (2 ) 1 − → + + = k k n n k E x a B , 则 对 任 意 的 x 有 :