模糊c均值聚类算法
发布时间:2021-06-07
发布时间:2021-06-07
聚类
第2 2卷第 2期Vo . 2 No. 12 2
重庆工学院学报(自然科学)Ju a o hn q gIstt o eh o g ( a r c ne orl f og i tue f cnl y N t a Si c ) n C n ni T o ul e
20 0 8年 2月F b.2 0 e 08
模糊 c均值聚类算法刘蕊洁,金波,张刘锐(州交通大学数理与软件工程学院,兰兰州、
707 ) 30 0‘ : ^: 0 d^
●
‘ 0=
‘:
^
:
‘‘:
‘ 0
‘
摘要:模糊聚类是一种重要数据分析和建模的无监督方法 .对模糊聚类进行了概述,理论和实从验 2个方面研究了模糊 C均值聚类算法,对该算法的优点及存在的问题进行了分析 .并结果表
明,该算法设计简单,应用范围广,仍存在容易陷入局部极值点等问题,但还需进一步研究 .关键词:模糊 C均值算法;模糊聚类;聚类分析文献标识码: A文章编号:6 1 17一 ̄2 ( 0 )2 19 3 42 8 o一o3—0 0中图分类号:P 8 T 11
Fu z M e n u trng Al o ih z y c- a s Clse i g rt m
LU R i i, H N nb,LU R i I u—e Z A G J—o I u j i(col f a e ac,Pyi n ow r E g er g ̄l o atn n e i, a zo 300 h a Sho o M t m ts hs s dSf a na en,[ z uJ o gU i rt I nhu 0 7,C i ) h i ca t e n i h i o v sy 7 nAb ta t sr c:Fu z l se n s a p wef lu s p r ie t o o h n lss o aa a d c n t cin o z y cu tr g i o ru n u e vs d meh d frt e a ay i fd t o sr to f i n u mo es d l .Th sp p rp e e t v riw ff zy cu trn n os me su yo u z me n lse n i a e rs n sa o e e o u z l se g a d d o t d ff zy C n v i a s cu tr g i l o h i e m ft oy a x i n,a l zs i a v n a e n xsi g p o lms ag rt m
n tr so e r d e p rme t n ay e t d a tg sa d e itn rb e .Re u t h w i h n e s sl s o s h tt s ao i h i i l n d sg ta i g rtm ssmpe i e in,C e wi ey u e h l n a b d l s d,b tte r tl s me p be n i,a d u r a si h e e lo r lm i t n o s h ro te fr,i i e e s r o b td e ut e . e e t sn c s ay t su id frh r e Ke r s:fz y c Me g rtm;fz y cu trn y wo d u z— a a o h n l i u z l se g;cu trn n lss i lse g a ay i i
聚类分析是多元统计分析的一种,是非监也督模式识别的一个重要分支 .把一个没有类别它标记的样本集按某种准则划分为若干个子集
1模糊聚类算法1 1模糊聚类算法概述 .
( )使相似的样本尽可能的归为一类,类,而将不相似的样本尽量划分到不同的类中 .聚类把每个硬
模糊聚类算法是一种基于函数最优方法的聚类算法,用微积分计算技术求最优代价函数 .使在基于概率算法的聚类方法中将使用概率密度函
待辨识的对象严格地划分到某类中,有非此即具彼的性质,而模糊聚类建立了样本对类别的不确定性描述,能客观地反映现实世界,而成为聚更从类分析研究的主流【 J 1 .
数,为此要假定合适的模型 .模糊聚类算法中向量可以同时属于多个聚类,而摆脱上述问题 .从在模
收稿日期:O7 2— 0 2O—1 2 作者简介:刘蕊洁 (93 )女,北人, 18一,河硕士,主要从事模糊聚类研究
聚类
10 4
重庆工学院学报F r1≤ k≤ N o
糊聚类算法中,定义了向量与聚类之间的近邻函
数,并且聚类中向量的隶属度由隶属函数集合提供.对模糊方法而言,在不同聚类中的向量隶属函 数值是相互关联的.聚类可以看成是模糊聚类硬方法的一个特例 .12模糊聚类算法的分类 .
I( i>0f l=12…, f dk ) r l o a,, c1
d/ k)‘’∑ (蝴 j/ d A
2 .
Ote w s h r ieM
’
=
0 i d A>0 n ’∈ E,]wt i f k,ad M o 1 i h
模糊聚类分析方法大致可以分为 3类【: 3 3 1 )分类数不定,据不同要求对事物进行动根态聚类 .类方法是基于模糊等价矩阵聚类的,此称为模糊等价矩阵动态聚类分析法 . 2类数给定,找出对事物的最佳分类方 )分寻
∑ M:1 Ut l ( ( l nl ¨一 l<e i 2 2实验 .
对 5条曲线。条抽取 1个点,条曲线随机每 O每
案.此类方法是基于目标函数聚类的,称为模糊 c均值 (C聚类算法或模糊 IO A A聚类分析 F M) SD T法.
抽取 1次, 0 0得到随机抽取数据,图 1如所示 .
3 )在摄动有意义的情况下,据模糊相似矩根阵聚类 .类方法称为基于摄动的模糊聚类分析此法.
2模糊 C均值 (C聚类算法 F M)
设被分类的对象的集合为:X={,,, l… 2X},中每一个对象有 r个特性指标,为 N其 t设=
( 2,,n), 1,… XkT如果要把 X分成 c类,则
图 1随机抽样数据
它的每一个分类结果都对应一个 c× N阶的 Bo a矩阵 U=[]Ⅳ对应的模糊 c划分空 ol n e M ,间为:=
运用 F M算法,到聚类后的 5曲线,原 C得条与
始采样曲线几乎吻合,如图 2所示 .
{ c I ∈[,] Vi Vk U c RN M 0 1,,;
∑M=1v;<∑ M,在, 0 k v}此空间模 i上,糊 c均值算法如下:Re e tf r1= 1. p a o 2……O
Se:o pt tec s r r o psm a s: t 1cm u l t o t e( en) p e h u e p ty一
2
Se tp 2:c mp t h itn e: o ue t e dsa c
( =(一P‘ T 一P ) d) l )A( i,i≤ i≤ c,
图 2聚类后的 5条曲线
2 3优缺点 .Se tp 3:U d t e p r t n mar: p ae t a t i t x h io i
2 3 1 F M聚类算法的优点[ 6 .. C 4] -
聚类
刘蕊洁,:糊 c均值聚类算法等模
11 4
首
先,糊 c均值泛函仍是传统的硬 c均模值泛函 .自然推广 .一个应用很广泛的聚,的 .是,类准则,对其在理论上的研究已经相当的完善,这就为的研究提供了良好的条件 . 其次,从数学上看,与的希尔伯特空间 结构 (交投影和均方逼近理论 )密切的关联,正有
1给定的样本集,管数据中有无聚类结构,组不也不问分类结果是否有效,把数据划分到 c个子总
类中.言之,有的聚类分析与聚类趋势,换现以及有效性分析是隔离的、离的 .分 5 C类型的聚类算法是针对特征空间中 )F M的点集设计的,对于特殊类型的数据,比如在样本
因此比其他泛函有更深厚的数学基础 . 最后,C聚类算法不仅在许多邻域获得了 FM非常成功的应用,而且以该算法为基础,又提出基于其他原型的模糊聚类算法,成了一大批 F M形 C类型的算法,如模糊 c线 ( C )模糊 c面比 FL, (C )模糊 c (C ) FP,壳 F s等聚类算法,别实现了对分呈线状、平面状和“超薄壳”状结构模式子集 (聚或类)的检测 . 2 3 2 F M算法存在的问题 . . C
每维特征的赋值不是一个数,而是一个区间、合集或模糊数时,C F M类型的算法还无法直接处理 .
4结束语模糊 c均值算法因设计简单,决问题范围解广,易于应用计算机实现等特点受到了越来越多人的关注,应用于各个领域 .是,并但自身仍存在的诸多问题,如强烈依赖初始化数据的好坏和例容易陷入局部鞍点等,然需要进一步的研究 .仍
1 )在模糊聚类目标函数中, edk引入了加 Bze权指数 m, D n使 un的聚类准则变成 m=2时的特例.从数学上看,数 m的出现不自然也没有必参要 .如果不给一个隶属度乘以权重,么从硬聚但那类准则函数到软聚类目标函数的推广准则是无效
参考文献:[] Sr i . emi i ot ahrJ . E r sc 1 pa n J La n wt u at ce[] I E Ta a. gs g h e E ntn fn r ao ho,052 ( )23— 3 . i s f m tnT er 20,36:2 2
0 o o Io i y
的 .数 m又称为平滑因子,制着模式在模糊类参控间的分享程度,因此,实现模糊聚类就必须选定要一
[] Bbs . U Z N E R LC N R L M] N te 2 aukR F Z YA DN U A O T O[ . e . hra d: l iest f, c n lg . 0 1 ln s Def Unv r y o T h oo y 2 0 . t i e
个合适的 m【 J然而最佳的 m的选取目前尚 .
缺乏理论指导 .管存在一些经验值或经验范围,尽 但没有面向问题的优选方法,缺少参数 m的有也效性评价准则 . 2尽管模糊聚类是 1无监督的分类,目 )种但 前的 F M类型的算法却需要应用聚类原型的先验 C知识 (型的数目及类型 )否则算法会产生误导,原, 从而破坏了算法的无监督性和自动化 . 3 )由于模糊聚类目标是非凸的, F M类型而 C的算法又是迭代爬山,因此很容易陷入局部极值点或鞍点,得不到最优解甚至满意解 .时,而同大数据量下算法耗时较多也是困扰人们的一大难题 . 2个问题目前还不能得到全面解决 .这
[] T edl i S Ptr eogio[ .eod E i n 3 hoo d .aenR cnn i M] Scn di . is t tn t oUS Ele irS ie e, 0 3. A: s ve cn c 2 0
[]高新波 . C 4 F M聚类算法中模糊加权指数 i n的优选方法[]模糊系统与数学, 05 1( )13 4 . J. 20,9 1:—18 4[] B ze .R cn cnegner ut f ef z— 5 edkJC eet ovr c sl rt z C e e so h u y
m as lsr g l nh J . l s ctn 98 52: en ut n g t c e a o m[] Ca i a o,19,() i sf i i2 7— 2 7. 3 4
[]朱剑英 .用模糊数学方法的若干关键问题及处理 6应方法[]模糊系统与数学,19,12:7— 3 J. 92 1()5 6 . [] C a , hugYS Cut i ut[] Ptr 7 hnKP C en . l en o c s r J . ae sr f l e g s tnR cgio,92 2 ()2 1 1 . eon n 19,5 2:1—2
7 i t
[]高新波 .糊 C均值聚类算法中加权指数 m的研究 8模[]电子学报, 0,8 4 l0— 3 J. 2 0 2( )8 8 . 0
4 C类型的聚类算法属于划分方法,于 )F M对
(任编辑责
刘
舸)
上一篇:养老护理员的实习小结