一种基于加权KNN的大数据集下离群检测算法_王茜(4)
发布时间:2021-06-07
发布时间:2021-06-07
大数据,数据挖掘
是离群点的数据点。运用本算法,文献[和传统KNN算法寻找数据集中离群7]点。实验结果显示与传统的KNN方法及只用权重来判断离离群检测的准确度为9而传统的群点的标准相比较,8%,且只用权重做判断标准时离群检测的KNN方法只有95%,精度为96%。实验证明我们的方法更具精确度。
结束语 本文给出了一种基于加权KNN的离群点挖掘通过优化候选划分单元提高算法的效率,并通过实验证算法,
明了算法的有效性。由于KNN找到的是前n个与第k个邻居距离最大的点,而一些局部离群点却难以找到,以后的研究方向是使用一种聚类算法把整个数据集聚集成密度分布均匀的不同块,在每块上应用本文离群点挖掘的方法来找到离群点,这样就能有效地找到局部离群点。
4 实验与结果
在这部分,使用实验来比较我们的算法与传统的KNN,算法。所有的实验采用平台为C内存为ore2Duo2.00GHz 操作系统为W2GB的PC,indowsXP。
(实验1算法的有效性)实验数据集为二 如图1所示,维模拟数据,包含1分布于1200条记录,00*100的区域中。实验中最近邻居参数k=1离群点参数n=10,2。与传统的实验结果如图1所示,算法能找到前1KNN算法相比,2个离群点
。
参考文献
[]B[:1aranettV,LewisT.OutlierinStatisticalDataM].New York
,John Wile1994ressyp
[]J,2ohnsonT,KwokINR.FastComutationof2imensional -Dgp
图1 包含12个离群点的二维数据集
Contours[C]∥Procof4th.Int.Conf.onKDD.NewDeth pYork,1998:224228-
[]B3reuinM M,KrieelH P,NRT.LOF:Identifindensit gggygy
[basedlocaloutliersC]rocofACM Conference.1996:93104 ∥P -[]B4irantD,KutA.Satiotemoraloutlierdetectioninlaredata - -ppg
[basesC]InformationTechnoloInterfaces.2003:179184∥ -gy []K5norrE,NR.Alorithmsforminindistancebasedoutliersin ggg
th [,laredatasetsC]rocofthe24ConfonVLDB.New York ∥P g
(实验2算法的执行时间)此 实验采用一组模拟数据,数据集上数据产生的概率都相同,且范围都一致。数据量N的大小从1数据的维数确定为2,实00000到500000,4和8,需要找到的离群点数n=1算验设定的邻居参数k=100,00,法执行时间与数据量的关系如图2所示。算法对数据量的大小和数据维数的大小具有线性的时间复杂度。通过计算候选划分,使用一些剪枝方法避免了计算数据集中大量的非离群点,从而节省了时间
。
1998:392403-
[]R6amaswamS,RastoiR,KuseokS.EfficientAlorithmsfor ygyg
[outliersfromlaredatasetsC]rocoftheACM SIG-minin ∥P gg MODInternationalConferenceonManaementofData.New g,York:ACM Press2000:93104-
[]A7niulliF,PizzutiC.OutlierMinininLareHihimensional -Dgggg
Sets[C]rocoftheIEEETransactionOnKnowledeData ∥P gDataEnineer.VOL.17,2005:10414374And -g
[]O8stermarkR.AfuzzvectorvaluedKNNalorithmforauto - -yg
[maticoutlierdictionC]rocintheAliedSoftComutin. ∥P pppg2009:12631272-
[]L,9eeCP,Lin W-SChenY-M,etal.GeneSelectionandsamle - p
onmicroarrdatabasedonadativealoclassificationenetic -ypgg /[rithmknearestneihbormethodC]rocintheExertSs- ∥P -gpytemswithAlicatications.2010:07 pp
[]M10aierM,HeinM,vonLuxburU.Otimalconstructionofk -gp
[nearestneihborrahsforidentifinnoisclusterC]roc- ∥Pgygygp theTheoreticalComuterScience.2009:17491764in -p
[]R,,11enDoneiRahaiIPerrizoW.Averticaldistancebasedout -m - -g
lierdetectionmethodwithlocalruninC]rocofCIKM’ ∥P pg[,04.Washinton,DC,USA:ACM Press2004:279284-g
[]Z12hanTian,RamakrishnanR,LivnM.Anefficientdatacluste -gy
rinmethodforverlaredatabases[C]roceedinsofthe ∥P gygg ACM SIGMODConferenceonManaementofData.1996:103 -g114
[]h://///13ttarchive.ics.uci.edumldatasetsBreast+Cancer+Wis-p
consin+%28Oriinal%29g
[]王越,刘亚辉,徐传运.基于距离和的孤立点用户意义分析算法14
]():及应用[重庆理工大学学报:自然科学版,J.2010,2415559-
图2 算法扩展性测试
(实验3与传统KNN算法在执行时间上的比较) 实验用一组模拟数据,数据集上数据产生的概率都相同,且范围都数据的维数为一致。数据量N的大小从100000到500000,实验设定的参数n和k都为1虽2,00。实验结果如图3所示,然我们的基于划分算法W-KNN与传统KNN的基于划分的
算法都具有与数据量的大小N线性的时间复杂度,但我们通过性质1进一步约减候选划分中不可能包含离群点的划分,缩短了算法的执行时间
。
图3 同原算法执行时间比较
(实验4与传统KNN算法在精确性上的比较) 实验数
[3]
),据集为B此数reastCancerWisconsin(OriinalDataSet1 g
据集包含6每个实例包含199个实例,0个属性。数据集中良性数据有4恶性数据有2为了使恶性数据成为离61条,38条,群数据,随机去除其中的两百条恶性数据。设置参数n=45,
·180·