一种基于加权KNN的大数据集下离群检测算法_王茜

发布时间:2021-06-07

大数据,数据挖掘

第38卷 第10期2011年10月计算机科学

ComutercienceSVol.38No.10

Oct2011一种基于加权KNN的大数据集下离群检测算法

王 茜 杨正宽

()重庆大学计算机学院 重庆400044

 

摘 要 传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,然而KNN算法只以最近的第k个邻居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。关键词 离群点,数据挖掘,权重,划分中图法分类号 TP391   文献标识码 A 

AlorithmforOutlierDetectioninLareDatasetBasedonWeihtedKNN          ggg

WANG QianZhenkuan YANG -g

(,,)ColleeofComuterScienceChoninUniversitChonin400044,China   gpgqgygqg  

 

AbstractraditionalKNNisanadvancedalorithmbasedonthedistanceofoutlierdetectionalorithmonlaredata T                -ggg

th 

set.Howeverthisalorithmonlusestheknearestneihborasthecriterionforoutlierwhichisinaccurateundercer                -gyg 

taincondition.ThisaweihtedKNNoutlierdetectionalorithmforlaredatasets.Inthisalorithm,aaerresented              ggggpppfactorisresented.Itreresentstheaveraedistanceofitsknearestneihbors.Theoutliersarethosehavintheweiht               ppgggg 

th 

’larestdistancewithitskneihborandhavinthebiestweihtunderthesamecondition.Thealorithmimroves              gggggggp 

theaccuracoftheoutlierdetectionalorithm.Exerimentresultshowsthatthealorithmisfeasiblecomaredwiththe               ygpgp traditionalKNN. 

,,,KewordsutlierDatamininWeihtPartition O ggy 

时间复杂度,后者对数据的维数具有指数的时间复杂O(N2)度,尤其在超过4维以后效率明显降低,所以它们在高维大数据集下都不具效率。针对其不足,Ramaswamuseok等y与ky

6]

。他们对离人提出了一种在大数据集下挖掘离群点的方法[

1 引言

离群点检测作为知识发现的重要部分,被广泛地应用于入侵检测、故障诊断及恶劣天气预报等领域。近年欺诈识别、

来,随着人们对离群数据挖掘重要性认识的不断加深,以及其越来越广泛的应用,离群点挖掘成为了数据挖掘领域的热点之一。离群点检测算法大致可分为:基于分布的方法、基于深度的方法、基于距离的方法、基于密度的方法和基于聚类的方法。基于分布的方法采用标准统计分布模型,那些偏离模型

1]

;的点被认为是离群点[基于深度的方法主要采用几何学的

群点的定义为前n个与其最近第k个邻居的距离最大的点被避免了基于距离的离群点检测算法需要用户认为是离群点,

设定距离参数值d的局限,它使用基于划分的方法并对数据且数据的维数对算法的执集中的点N有线性的时间复杂度,

行时间影响不大,但它只以与最近第k个邻居的距离作为判断离群点的标准有时也不够准确,即无法判断在与最近的第

方法,把数据对象组织到数据空间的不同层面中,那些在较浅

2]

;层面的数据更有可能是离群点[基于密度的方法为数据集k个邻居的距离相同时哪个点更可能是离群点。Auiulli与g

[]

他们定Pizauti对基于距离的离群点给出了一个新的定义7,义前n个离群点是权重最大的前n个点,权重是数据点与其但其在权重相同的情况下无法判最近k个邻居的距离之和,

断哪些点更可能是离群点。近年来基于KNN的离群点检测

[]

的应用层出不穷,如FuzzKNN8在处理时流数据上有较高y []

//的效率;AGAKNN9能有效处理生物学上的基因数据;OC[0]

针对数据集产生最优聚类结果。其它高效的基于距KNN1

[1]

,离的离群点检测算法有R其en等人的Beihbors方法1-Nyg

,中的点定义局部离群因素(且用LLOF)OF来计算数据对象的离群程度,离群点被认为是离群程度比较大及与周围的邻

3]

;基于聚类的方法认为离群点是那居点关系比较疏离的点[

4]

。些数据集聚类后的副产品[

[5]

基于距离的离群方法最早由K其主norr与Ng提出,要思想是将数据看作空间中的点,而离群点被定义为与数据

集中大多数点之间的距离都大于某个阈值的那些点,它使用,算法n前者对数据集中的点N具有estedlooellbased--p和c

使用了一种新颖的垂直数据结构来检测离群点。

)到稿日期:资助。201011052011050261073058-- 返修日期:--  本文受国家自然科学基金项目(

,,王 茜(女,博士,副教授,硕士生导师,主要研究方向为信息安全、电子商务、远程教育课件工具;杨正宽(男,硕士生,主要研1964-)1986-)究方向为数据挖掘。

·177·

一种基于加权KNN的大数据集下离群检测算法_王茜.doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219