§4百分数的估针及其误差 在介绍盒子模型时已经指出,对于总体中具有某种特性 的单元所占比例的抽样调耷,可建立Q-1盒子模型。即个 具有某种特性的单元相应的票上全标上1,其余全标上0 N个 N-N个 N1是未知数。盒子中所占的比例是待估参数P N 由于该参数恰为0—1盒子的平均数,在简单随机抽样理论中 自然地采用y这个无偏估计。为与参数记号相配,记: P q=1 ,Q=1-P 由第二章第七节的讨论可知,盒子的方差为: S N-1N N-N NNN-N
§4 百分数的估计及其误差 在介绍盒子模型时已经指出,对于总体中具有某种特性 的单元所占比例的抽样调查,可建立0-1盒子模型。即 个 具有某种特性的单元相应的票上全标上 1,其余全标上 0。 N1 N1 个 1 0 N − N1 个 N1 是未知数。盒子中1所占的比例是待估参数: 。 N N P 1 = 由于该参数恰为0-1盒子的平均数,在简单随机抽样理论中 自然地采用 y 这个无偏估计。为与参数记号相配,记: p ˆ = y , q ˆ =1− p ˆ , Q =1− P 由第二章第七节的讨论可知,盒子的方差为: PQ N N N N N N N N N S 1 1 2 1 1 − = − − =
N-n PO 因此: Var(p) N-1 n 其中PQ为未知参数的乘积,只有对m()进行估计才有可能 获得P的置信区间。尽管P,Q各有它们的无偏估计,q=1-p 但它们的乘积并非PQ的无偏估计。这里需要借助于2的无偏 估计s2并且容易计算得: ∑(0n-y3 n pq n i=1 n 这样可得Vm(p)的无偏估计为: N-n N-n n py= N-n v(P) p(1-p) nN nN n-1(n-IN (或写为= pg n-1
因此: n PQ N N n Var p − − = 1 ( ˆ) 其中PQ为未知参数的乘积,只有对 进行估计才有可能 获得P 的置信区间。尽管P,Q各有它们的无偏估计 但它们的乘积并非PQ的无偏估计。这里需要借助于 的无偏 估计 ,并且容易计算得: Var( p ˆ) p ˆ ,q ˆ = 1− p ˆ 2 S 2 s pq n n y y n s n i i ˆ ˆ 1 ( ) 1 1 1 2 2 − − = − = = 这样可得 Var( p ˆ) 的无偏估计为: 2 ( ˆ) s nN N n v p − = pq n n nN N n ˆ ˆ −1 − = ˆ(1 ˆ) ( 1) p p n N N n − − = - (或写为 pq ) n f ˆ ˆ 1 1 − − =
现在可以构造百分数或比例p的置信度为1-a)的置信区间 当N,n,N-n都比较大时,置信区间为: (d_\n-1 f pg, p+u 12Vn-10)8320 其实当N比较大时,样本中1的个数服从二项分布,因此当 n不是很大时,近似置信区间(326)会发生一定差错,应当考 虑必要的修正。p的修正置信区间为: 1-f ((“=Vn1+2),b+4g21n1+2m (3.27)
其实当 N 比较大时,样本中1 的个数服从二项分布,因此当 n 不是很大时,近似置信区间(3.26)会发生一定差错,应当考 虑必要的修正。p 的修正置信区间为: 现在可以构造百分数或比例p 的置信度为 (1−) 的置信区间 当N,n,N-n 都比较大时,置信区间为: ˆ ˆ ) 1 1 ˆ ˆ , ˆ 1 1 ( ˆ 2 1 2 1 pq n f pq p u n f p u − − + − − − − − (3.26) ) 2 1 ˆ ˆ 1 1 , ˆ 2 1 ˆ ˆ 1 1 ( ˆ 2 1 2 1 + − − + + − − − − − n pq n f p u n pq n f p u (3.27)
例34某地区有30587人,为调查其中吸烟者所占比例而从中 随机无放回抽取2000人进行访问,得知其中烟民785人。试估 计该地区吸烟者比例,并给出吸烟比例的置信水平为90%的 近似置信区间。 解:N=30587,n=2000 785 p=≈0.39254=1-p≈0.6075 2000 置信水平为90%,则a=0.10,查表得l1g=1.4 2000 又∫ ≈0.0654故置近似信区间为 30587 (p-u f f pg, p+u pg) n-1 n-1 =(0.3752,0.4098)=(37.52%,40.98%
例3.4 某地区有30587人,为调查其中吸烟者所占比例而从中 随机无放回抽取2000人进行访问,得知其中烟民785人。试估 计该地区吸烟者比例,并给出吸烟比例的置信水平为90%的 近似置信区间。 解: N=30587,n=2000 0.3925 2000 785 p ˆ = q ˆ =1− p ˆ 0.6075 置信水平为90%,则 = 0.10 ,查表得 1.64 2 1 = − u 又 0.0654 30587 2000 f = ˆ ˆ ) 1 1 ˆ ˆ , ˆ 1 1 ( ˆ 2 1 2 1 pq n f pq p u n f p u − − + − − − − − 故置近似信区间为 = (0.3752 , 0.4098) =(37.52%,40.98%)
§5样本容量n的确定 抽样调查理论中,样本容量n的确定具有实实在在的意 义。n过天,违背抽样调查的宗旨,n过小,则抽样误差偏 大,无法作出精确的估计。 般情况,总费用是固定的,在固定的费用下尽量提高 精度或在必需的精度下使费用尽可能减少,是我们确定n的 基本原则。下面主要研究简单随机抽样下如何确定n。 设选取n个样本,访问每个单元所需的平均费用为C1 另外除了样本调查所需的费用以外,还需要一笔基本费用 例如办公费、设计问卷的费用等,用c表示。这样总费用为 CI C=co+n. 我们主要考虑n与精度的关系:
§5 样本容量n 的确定 抽样调查理论中,样本容量n 的确定具有实实在在的意 义。 n 过大,违背抽样调查的宗旨,n 过小,则抽样误差偏 大,无法作出精确的估计。 一般情况,总费用是固定的,在固定的费用下尽量提高 精度或在必需的精度下使费用尽可能减少,是我们确定n 的 基本原则。下面主要研究简单随机抽样下如何确定 n 。 设选取 n 个样本,访问每个单元所需的平均费用为 , 另外除了样本调查所需的费用以外,还需要一笔基本费用, 例如办公费、设计问卷的费用等,用 表示。这样总费用为 1 c 0 c t 0 1 c c n c = + 我们 主要考虑 n 与精度的关系: