一种基于加权KNN的大数据集下离群检测算法_王茜(4)
时间:2025-02-22
时间:2025-02-22
大数据,数据挖掘
是离群点的数据点。运用本算法,文献[和传统KNN算法寻找数据集中离群7]点。实验结果显示与传统的KNN方法及只用权重来判断离离群检测的准确度为9而传统的群点的标准相比较,8%,且只用权重做判断标准时离群检测的KNN方法只有95%,精度为96%。实验证明我们的方法更具精确度。
结束语 本文给出了一种基于加权KNN的离群点挖掘通过优化候选划分单元提高算法的效率,并通过实验证算法,
明了算法的有效性。由于KNN找到的是前n个与第k个邻居距离最大的点,而一些局部离群点却难以找到,以后的研究方向是使用一种聚类算法把整个数据集聚集成密度分布均匀的不同块,在每块上应用本文离群点挖掘的方法来找到离群点,这样就能有效地找到局部离群点。
4 实验与结果
在这部分,使用实验来比较我们的算法与传统的KNN,算法。所有的实验采用平台为C内存为ore2Duo2.00GHz 操作系统为W2GB的PC,indowsXP。
(实验1算法的有效性)实验数据集为二 如图1所示,维模拟数据,包含1分布于1200条记录,00*100的区域中。实验中最近邻居参数k=1离群点参数n=10,2。与传统的实验结果如图1所示,算法能找到前1KNN算法相比,2个离群点
。
参考文献
[]B[:1aranettV,LewisT.OutlierinStatisticalDataM].New York
,John Wile1994ressyp
[]J,2ohnsonT,KwokINR.FastComutationof2imensional -Dgp
图1 包含12个离群点的二维数据集
Contours[C]∥Procof4th.Int.Conf.onKDD.NewDeth pYork,1998:224228-
[]B3reuinM M,KrieelH P,NRT.LOF:Identifindensit gggygy
[basedlocaloutliersC]rocofACM Conference.1996:93104 ∥P -[]B4irantD,KutA.Satiotemoraloutlierdetectioninlaredata - -ppg
[basesC]InformationTechnoloInterfaces.2003:179184∥ -gy []K5norrE,NR.Alorithmsforminindistancebasedoutliersin ggg
th [,laredatasetsC]rocofthe24ConfonVLDB.New York ∥P g
(实验2算法的执行时间)此 实验采用一组模拟数据,数据集上数据产生的概率都相同,且范围都一致。数据量N的大小从1数据的维数确定为2,实00000到500000,4和8,需要找到的离群点数n=1算验设定的邻居参数k=100,00,法执行时间与数据量的关系如图2所示。算法对数据量的大小和数据维数的大小具有线性的时间复杂度。通过计算候选划分,使用一些剪枝方法避免了计算数据集中大量的非离群点,从而节省了时间
。
1998:392403-
[]R6amaswamS,RastoiR,KuseokS.EfficientAlorithmsfor ygyg
[outliersfromlaredatasetsC]rocoftheACM SIG-minin ∥P gg MODInternationalConferenceonManaementofData.New g,York:ACM Press2000:93104-
[]A7niulliF,PizzutiC.OutlierMinininLareHihimensional -Dgggg
Sets[C]rocoftheIEEETransactionOnKnowledeData ∥P gDataEnineer.VOL.17,2005:10414374And -g
[]O8stermarkR.AfuzzvectorvaluedKNNalorithmforauto - -yg
[maticoutlierdictionC]rocintheAliedSoftComutin. ∥P pppg2009:12631272-
[]L,9eeCP,Lin W-SChenY-M,etal.GeneSelectionandsamle - p
onmicroarrdatabasedonadativealoclassificationenetic …… 此处隐藏:1005字,全部文档内容请下载后查看。喜欢就下载吧 ……