第4章 非参数估计

时间:2026-04-29

非参数估计

刘芳,戚玉涛 qi_yutao@http://

引言

参数化估计:ML方法和Bayesian估计。假设概率 密度形式已知。 实际中概率密度形式往往未知。 实际中概率密度往往是多模的,即有多个局部极大 值。 实际中样本维数较高,且关于高维密度函数可以表 示成一些低维密度函数乘积的假设通常也不成立。 本章介绍非参数密度估计方法:能处理任意的概率 分布,而不必假设密度函数的形式已知。

主要内容

概率密度估计 Parzen窗估计

k-NN估计

最近邻分类器(NN) k-近邻分类器(k-NN)

概率密度估计

概率密度估计问题:

给定i.i.d.样本集: X x1 , x2 , , x N

估计概率分布:

p x

概率密度估计

直方图方法:非参数概率密度估计的最简单

方法

1. 把x的每个分量分成k 个等间隔小窗,

( x∈Ed ,则形成kd 个小舱) 2. 统计落入各个小舱内的样本数qi 3. 相应小舱的概率密度为: qi /(NV ) ( N :样本 总数,V :小舱体积)

概率密度估计

直方图的例子

概率密度估计

非参数概率密度估计的核心思路:

一个向量x落在区域R中的概率P为: P p x dx

R

因此,可以通过统计概率P来估计概率密度函数p(x)

概率密度估计

假设N个样本的集合

是根据概率密度

函数为p(x)的分布独立抽取得到的 那么,有k个样本落在区域R中的概率服从二项分 布,满足: N N k

Pk P k 1 P k

k 的期望值为: E k NP 对P的估计:

k P N

当 N 时, 估计是非 常精确的

概率密度估计

假设p(x)是连续的,且R足够小使得p(x)在R内几乎 没有变化。

令R是包含样本点x的一个区域,其体积为V,设有 N个训练样本,其中有k落在区域R中,则可对概率 密度作出一个估计:

P p x dx p x V

R

k P N

k/N p x V

对p(x) 在小区域内的平均值的估计

概率密度估计

当样本数量N固定时,体积V的大小对估计的

效果影响很大。

过大则平滑过多,不够精确; 过小则可能导致在此区域内无样本点,k=0。

此方法的有效性取决于样本数量的多少,以

及区域体积选择的合适。

概率密度估计

收敛性问题:样本数量N无穷大是,估计的概率函 数是否收敛到真实值? lim pN x p x

N

实际中,p x 越精确,要求: R 0

实际中,N是有限的:

当 R 0 时,绝大部分区间没有样本: p x 0 如果侥幸存在一个样本,则: p x

概率密度估计

理论结果:

设有一系列包含x 的区域R1,R2,…,Rn,…,对 R1采用1个样本进行估计

第4章 非参数估计.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:4.9 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:19元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219