一种基于加权KNN的大数据集下离群检测算法_王茜
时间:2025-02-22
时间:2025-02-22
大数据,数据挖掘
第38卷 第10期2011年10月计算机科学
ComutercienceSVol.38No.10
Oct2011一种基于加权KNN的大数据集下离群检测算法
王 茜 杨正宽
()重庆大学计算机学院 重庆400044
摘 要 传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法,然而KNN算法只以最近的第k个邻居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个邻居的平均距离,离群点为那些与第k个邻居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。关键词 离群点,数据挖掘,权重,划分中图法分类号 TP391 文献标识码 A
AlorithmforOutlierDetectioninLareDatasetBasedonWeihtedKNN ggg
WANG QianZhenkuan YANG -g
(,,)ColleeofComuterScienceChoninUniversitChonin400044,China gpgqgygqg
AbstractraditionalKNNisanadvancedalorithmbasedonthedistanceofoutlierdetectionalorithmonlaredata T -ggg
th
set.Howeverthisalorithmonlusestheknearestneihborasthecriterionforoutlierwhichisinaccurateundercer -gyg
taincondition.ThisaweihtedKNNoutlierdetectionalorithmforlaredatasets.Inthisalorithm,aaerresented ggggpppfactorisresented.Itreresentstheaveraedistanceofitsknearestneihbors.Theoutliersarethosehavintheweiht ppgggg
th
’larestdistancewithitskneihborandhavinthebiestweihtunderthesamecondition.Thealorithmimroves gggggggp
theaccuracoftheoutlierdetectionalorithm.Exerimentresultshowsthatthealorithmisfeasiblecomaredwiththe ygpgp traditionalKNN.
,,,KewordsutlierDatamininWeihtPartition O ggy
时间复杂度,后者对数据的维数具有指数的时间复杂O(N2)度,尤其在超过4维以后效率明显降低,所以它们在高维大数据集下都不具效率。针对其不足,Ramaswamuseok等y与ky
6]
。他们对离人提出了一种在大数据集下挖掘离群点的方法[
1 引言
离群点检测作为知识发现的重要部分,被广泛地应用于入侵检测、故障诊断及恶劣天气预报等领域。近年欺诈识别、
来,随着人们对离群数据挖掘重要性认识的不断加深,以及其越来越广泛的应用,离群点挖掘成为了数据挖掘领域的热点之一。离群点检测算法大致可分为:基于分布的方法、基于深度的方法、基于距离的方法、基于密度的方法和基于聚类的方法。基于分布的方法采用标准统计分布模型,那些偏离模型
1]
;的点被认为是离群点[基于深度的方法主要采用几何学的
群点的定义为前n个与其最近第k个邻居的距离最大的点被避免了基于距离的离群点检测算法需要用户认为是离群点,
设定距离参数值d的局限,它使用基于划分的方法并对数据且数据的维数对算法的执集中的点N有线性的时间复杂度,
行时间影响不大,但它只以与最近第k个邻居的距离作为判断离群点的标准有时也不够准确,即无法判断在与最近的第
方法,把数据对象组织到数据空间的不同层面中,那些在较浅
2]
;层面的数据更有可能是离群点[基于密度的方法为数据集k个邻居的距离相同时哪个点更可能是离群点。Auiulli与g
[]
他们定Pizauti …… 此处隐藏:467字,全部文档内容请下载后查看。喜欢就下载吧 ……