第4章 非参数估计
时间:2026-04-29
时间:2026-04-29
非参数估计
刘芳,戚玉涛 qi_yutao@http://
引言
参数化估计:ML方法和Bayesian估计。假设概率 密度形式已知。 实际中概率密度形式往往未知。 实际中概率密度往往是多模的,即有多个局部极大 值。 实际中样本维数较高,且关于高维密度函数可以表 示成一些低维密度函数乘积的假设通常也不成立。 本章介绍非参数密度估计方法:能处理任意的概率 分布,而不必假设密度函数的形式已知。
主要内容
概率密度估计 Parzen窗估计
k-NN估计
最近邻分类器(NN) k-近邻分类器(k-NN)
概率密度估计
概率密度估计问题:
给定i.i.d.样本集: X x1 , x2 , , x N
估计概率分布:
p x
概率密度估计
直方图方法:非参数概率密度估计的最简单
方法
1. 把x的每个分量分成k 个等间隔小窗,
( x∈Ed ,则形成kd 个小舱) 2. 统计落入各个小舱内的样本数qi 3. 相应小舱的概率密度为: qi /(NV ) ( N :样本 总数,V :小舱体积)
概率密度估计
直方图的例子
概率密度估计
非参数概率密度估计的核心思路:
一个向量x落在区域R中的概率P为: P p x dx
R
因此,可以通过统计概率P来估计概率密度函数p(x)
概率密度估计
假设N个样本的集合
是根据概率密度
函数为p(x)的分布独立抽取得到的 那么,有k个样本落在区域R中的概率服从二项分 布,满足: N N k
Pk P k 1 P k
k 的期望值为: E k NP 对P的估计:
k P N
当 N 时, 估计是非 常精确的
概率密度估计
假设p(x)是连续的,且R足够小使得p(x)在R内几乎 没有变化。
令R是包含样本点x的一个区域,其体积为V,设有 N个训练样本,其中有k落在区域R中,则可对概率 密度作出一个估计:
P p x dx p x V
R
k P N
k/N p x V
对p(x) 在小区域内的平均值的估计
概率密度估计
当样本数量N固定时,体积V的大小对估计的
效果影响很大。
过大则平滑过多,不够精确; 过小则可能导致在此区域内无样本点,k=0。
此方法的有效性取决于样本数量的多少,以
及区域体积选择的合适。
概率密度估计
收敛性问题:样本数量N无穷大是,估计的概率函 数是否收敛到真实值? lim pN x p x
N
实际中,p x 越精确,要求: R 0
实际中,N是有限的:
当 R 0 时,绝大部分区间没有样本: p x 0 如果侥幸存在一个样本,则: p x
概率密度估计
理论结果:
设有一系列包含x 的区域R1,R2,…,Rn,…,对 R1采用1个样本进行估计
上一篇:19秋《金融英语》作业3答卷
下一篇:经济危机对民众生活的影响