Chap8非参数密度估计技术 参考:王星2009《非参数统计》 清华大学出版社 主讲:王星 助教:范超 中国人民大学统计学院 办公地点:明德主楼1019 办公电话:82500167 课程网站:https:/dm.ruc.edu.cn 2014年12月24日
Chap8 非参数密度估计技术 参考:王星2009《 非参数统计》 清华大学出版社 主讲:王 星 助教:范 超 中国人民大学统计学院 办公地点:明德主楼1019 办公电话:82500167 课程网站:https://dm.ruc.edu.cn 2014年12月24日
基本概念 ·想一想:什么是分布密度?分布密度有什么用? 色泽不均衡可能是催 熟西瓜 Zipf济普夫定律:在自然语言的 语料库里,一个单词出现的频率 与它在频率表里的排名成反比 分布密度和一个随机变量取值分布的均衡性有关系,不均衡 常常是世界的常态,语言学中重要的词一定被使用的频次高、 食品安全监测中的分布异常可能是风险的一个标志? 通过数据估计分布密度通常都有什么方法?
基本概念 • 想一想:什么是分布密度?分布密度有什么用? Zipf齐普夫定律:在自然语言的 语料库里,一个单词出现的频率 与它在频率表里的排名成反比 色泽不均衡可能是催 熟西瓜 分布密度和一个随机变量取值分布的均衡性有关系,不均衡 常常是世界的常态,语言学中重要的词一定被使用的频次高、 食品安全监测中的分布异常可能是风险的一个标志? 通过数据估计分布密度通常都有什么方法?
非参数密度估计 a直方图 Parzen Windows窗 Kernel density estimator 多元密度估计 判别分析
非参数密度估计 直方图 Parzen Windows窗 Kernel density estimator 多元密度估计 判别分析
Introduction ·大部分的参数密度都是单峰的(have a single local maximum),很多实际问题会涉及多峰问题 ·非参数统计过程将涉及假定宽松的数据结构. ·有两种常见的非参数密度估计问题: -估计似然函数P(回j) -直接估计后验概率 density.default(x iris[n.s =1,1]) N=50 Bandwidth =0.1229
Introduction • 大部分的参数密度都是单峰的 (have a single local maximum), 很多实际问题会涉及多峰问题 • 非参数统计过程将涉及假定宽松的数据结构. • 有两种常见的非参数密度估计问题: – 估计似然函数 P(x|j ) – 直接估计后验概率
密度估计 -Basic idea: Probability that a vector x will fall in region R is: P=p(x')dx (1) Therefore,the ratio k/n is a good estimate for the probability P and hence for the density function p. p(x)dx'=p(x)v (4) p(x)is continuous and that the region is so small that p does not vary significantly within it,we can write: k/n Pn(x)≡ where x is a point within and V the volume enclosed by E. equation(1)and (4)yields histogram:
Therefore, the ratio k/n is a good estimate for the probability P and hence for the density function p. p(x) is continuous and that the region R is so small that p does not vary significantly within it, we can write: where x is a point within R and V the volume enclosed by R. equation (1) and (4) yields histogram: – Basic idea: Probability that a vector x will fall in region R is: 密度估计 ( ') ' ( ) (4) p x d x p x V P = p(x')d x' (1) V k n p x n / ˆ ( )