当前位置：和泉文库 > 统计 > 中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第七讲 Boostrap方法和Jackknife方法（自助和刀切）

中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第七讲 Boostrap方法和Jackknife方法（自助和刀切）

1 Bootstrap and Jackknife 1.1 The Bootstrap 1.1.1 Bootstrap Estimation of Standard Error 1.1.2 Bootstrap Estimation of Bias 1.2 Jackknife 1.3 Jackknife-after-Bootstrap 1.4 Bootstrap Confidence Intervals 1.4.1 The Standard Normal Bootstrap Confidence Interval 1.4.2 The Percentile Bootstrap Confidence Interval 1.4.3 The Basic Bootstrap Confidence Interval 1.4.4 The Bootstrap t interval 1.5 Better Bootstrap Confidence Intervals 1.6 Application: Cross Validation

文件格式：PDF，文件大小：709.98KB，售价：11.68元

共49页，可试读17页，点击往前阅读 ↑↑

文档详细内容（约49页）

1.对Bootstrap重复的第b次(b=1,·,B), (a)通过有放回的从x1,·,xn中抽样得到再抽样样本x*(6)=xi,,x壳 (b)根据x*(b)计算(6). 2.Fa)的Bootstrap估计为1)，.，B)的经验分布函数. 例1Fn与Bootstrap抽样假设我们观察到样本 x={2,2,1,1.5,4,4,3.1,2} 从x中再抽样依照选择1,2,3.4,5的概率分别为0.3,0.3,0.1,0.2,0.1进行.从而 Previous Next First Last Back Forward 4

1. ÈBootstrapE1bg(b = 1, . . . , B), (a) œLkò£lx1, · · · , xn•ƒ2ƒ x ∗(b) = x ∗ 1 , . . . , x∗ n. (b) ä‚x ∗(b)Oéθˆ(b) . 2. Fθˆ(·)BootstrapOèθˆ(1) , . . . , θˆ(B)²©ŸºÍ. ~1 FnÜBootstrapƒ b·Ç* x = {2, 2, 1, 1, 5, 4, 4, 3, 1, 2} lx•2ƒùÏ¿J1, 2, 3, 4, 5V«©Oè0.3, 0.3, 0.1, 0.2, 0.1?1. l Previous Next First Last Back Forward 4

从x中随机选择的一个样本X*,其分布函数就是经验分布函数，即 0, x<1: 0.3 1≤x<2: 0.6 Fx+(x)=Fn(Z)= 2≤x<3: 0.7,3≤x<4: 0.9,4≤x<5: 1, x25. 注意如果F没有靠近Fx,则重复抽样下的分布也不会靠近Fx.上例中的样本x实际上是从Poisson(2)中随机产生的，从x中大量重复抽样可以很好的估计F,但是不能很好的估计Fx,因为无论重复多少次再抽样，得到的 Bootstrap样本都没有O. 1.1.1 Bootstrap Estimation of Standard Error 估计量的标准差的Bootstrap估计，是Bootstrap重复1)，..，B)的样本标准差： B 驼B(*)=1 B-1 Previous Next First Last Back Forward 5

lx•ëÅ¿J òáX∗, Ÿ©ŸºÍ“¥²©ŸºÍ, = FX∗ (x) = Fn(x) =    0, x < 1; 0.3, 1 ≤ x < 2; 0.6, 2 ≤ x < 3; 0.7, 3 ≤ x < 4; 0.9, 4 ≤ x < 5; 1, x ≥ 5. 5øXJFnvkÇCFX, KEƒe©Ÿèÿ¨ÇCFX. ˛~• x¢S˛¥lP oisson(2)•ëÅ), lx•å˛Eƒå±È– OFn, ¥ÿUÈ–OFX, œèÃÿEıg2ƒ, Bootstrap—vk0. 1.1.1 Bootstrap Estimation of Standard Error O˛θˆIOBootstrapO, ¥BootstrapEθˆ(1) , . . . , θˆ(B) I O: seˆ B(θˆ∗ ) = vuut 1 B − 1 XB b=1 (θˆ(b) − θˆ∗) 2. Previous Next First Last Back Forward 5

其中0=言∑B1b). 根据Eron和Tibshirini(1993),要得到标准差一个好的估计，重复的次数B并非需要非常大.B=50常常已经足够了，B>200是很少见的（置信区间除外) 例2（标准差的Bootstrap估计）bootstrap包里的法律院校数据集law,记录了15所法律院校入学考试的平均成绩(LSAT)和GPA(乘了100) 123456789101112131415 LSAT576635558578666580555661651605653575545572594 GPA339330281303344307300343336313312274276288296 估计LSAT和GPA之间的相关系数，并求样本相关系数的标准差的Bootstrap估计在本例中 1.数据是成对的(x,h),i=1,,15. Previous Next First Last Back Forward 6

Ÿ•θˆ∗ = 1 B PB b=1 θˆ(b) . ä‚Efron⁄Tibshirini(1993), áIOòá–O, Eg ÍBøöIáö~å. B = 50~~Æ²v , B > 200¥ÈÑ(ò&´m ÿ ). ~2 (IOBootstrapO) bootstrapùp{ÆÍ‚8law, P ¹ 15§{Æ\Æ£²˛§1(LSAT)⁄GPA(¶ 100). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 LSAT 576 635 558 578 666 580 555 661 651 605 653 575 545 572 594 GPA 339 330 281 303 344 307 300 343 336 313 312 274 276 288 296 OLSAT⁄GPAÉmÉ'XÍ, ø¶É'XÍIOBootstrap O. 3~• 1. Í‚¥§È(xi, yi), i = 1, . . . , 15. Previous Next First Last Back Forward 6

2.可以通过样本相关系数估计相关系数 n∑ix-∑：c:∑i班 Vn∑x-(∑：x)2√n∑i-(∑：)2 3.Bootstrap对这些数据对再抽样」因此，算法如下 1.对Bootstrap重复的第b次(b=1,.·,B), (a)通过有放回的从x1,·,xn中抽样得到再抽样样本 x*(⑥）=xi,,x元.这里x:或者x为一个向量. (b)根据x*()计算(b) 2.F()的Bootstrap即估计为(1)，，(B)的经验分布函数样本相关系数为cor(LSAT,GPA)=0.7763745,使用Bootstrap估计标准差的程序如下： Previous Next First Last Back Forward 7

2. å±œLÉ'XÍOÉ'XÍ τˆ = n P i xiyi − P i xi P i yi q n P i x 2 i − ( P i xi) 2 q n P i y 2 i − ( P i yi) 2 . 3. BootstrapÈ˘ Í‚È2ƒ. œd, é{Xe 1. ÈBootstrapE1bg(b = 1, . . . , B), (a) œLkò£lx1, · · · , xn•ƒ2ƒ x ∗(b) = x ∗ 1 , . . . , x∗ n. ˘pxi½ˆx ∗ i èòáï˛. (b) ä‚x ∗(b)Oéτˆ (b) . 2. Fτˆ(·)BootstrapOèτˆ (1) , . . . , τˆ (B)²©Ÿº Í. É'XÍècor(LSAT, GP A) = 0.7763745, ¶^BootstrapOIO ßSXe: Previous Next First Last Back Forward 7

library(bootstrap) #for the law data print (cor(law$LSAT,law$GPA)) #set up the bootstrap B<-200 #number of replicates n <-nrow(law) #sample size R <-numeric(B) #storage for replicates #bootstrap estimate of standard error of R for (b in 1:B){ #randomly select the indices i <-sample(1:n,size n,replace TRUE) LSAT <law$LSAT[i] #i is a vector of indices GPA <law$GPA[i] R[b]<cor(LSAT,GPA) } #output print(se.R <sd(R)) hist(R,prob TRUE) Code se()的Bootstrap估计为0.1371913，样本相关系数的标准差的理论值 Previous Next First Last Back Forward 8

↑Code library(bootstrap) #for the law data print(cor(law$LSAT, law$GPA)) #set up the bootstrap B <- 200 #number of replicates n <- nrow(law) #sample size R <- numeric(B) #storage for replicates #bootstrap estimate of standard error of R for (b in 1:B) { #randomly select the indices i <- sample(1:n, size = n, replace = TRUE) LSAT <- law$LSAT[i] #i is a vector of indices GPA <- law$GPA[i] R[b] <- cor(LSAT, GPA) } #output print(se.R <- sd(R)) hist(R, prob = TRUE) ↓Code se(ˆτ)BootstrapOè0.1371913, É'XÍIOnÿä Previous Next First Last Back Forward 8

点击进入文档下载页（PDF格式）

共49页，可试读17页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第六讲 Monte Carlo方法在统计推断中的应用
《实用统计软件》课程教学资源（阅读材料）图像合成方面应用的一个介绍 Monte Carlo Integration
《实用统计软件》课程教学资源（阅读材料）多元分类问题中的应用 Variance Reduction with Monte Carlo Estimates of Error Rates in Multivariate Classication
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第五讲 Monte Carlo积分和方差减少技术
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第四讲随机数产生方法
《实用统计软件》课程教学资源（阅读材料）一份不太简短的LATEX 2ε介绍
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第三讲 LaTeX科技论文排版系统
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第二讲 R语言基础（二）
《实用统计软件》课程教学资源（阅读材料）R for beginner（中文第二版，共七章）
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第一讲 R语言基础（一）
中国科学技术大学：《数理统计》课程教学资源（课件讲义）第十四讲回归分析（线性回归模型）
《数理统计》课程教学资源（参考资料）Bayes Factor - What They Are and What They Are Not
《实用统计软件》课程教学资源（阅读材料）T. DiCiccio and B.Efron（1996）, Bootstrap Confidence Intervals, Statistical Science, 3,189-228
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第八讲 Markov Chain Monte Carlo（一）马尔科夫蒙特卡罗方法
《实用统计软件》课程教学资源（阅读材料）A History of Markov Chain Monte Carlo——Subjective Recollections from Incomplete Data
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第九讲 Markov Chain Monte Carlo（二）马尔科夫蒙特卡罗方法
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第十讲 Expectation-Maximization（EM算法）方法
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第十一讲 R中的数值优化方法
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第十二讲 MatLab介绍（一）
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第十三讲 MatLab介绍（二）
中国科学技术大学：《实用统计软件》课程课件讲义（统计计算与软件）第十四讲 SAS介绍
《实用统计软件》课程教学资源（阅读材料）Dan Bruns, Chattanooga, TN, An Introduction to the Simplicity and Power of SAS/Graph
中国科学技术大学：《多元统计分析》课程教学资源（课件讲义）第一讲简介及描述性统计（主讲：张伟平）
中国科学技术大学：《多元统计分析》课程教学资源（课件讲义）第二讲多元数据的可视化技术

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录