运用硬c均值改进kmeans算法的聚类分析
时间:2025-07-11
时间:2025-07-11
运用硬c均值改进kmeans算法的聚类分析
运用硬c均值改进kmeans算法的聚类分析
蔡龙飞
(广东工程职业技术学院 广东广州 510520)
摘 要:在Matlab平台上运用硬c均值改进kmeans算法对文献数据进行模糊聚类分析,通过运算可提高分类过程的效率,为模糊聚类分析的应用提供了一种简便运算的方法。关键词:聚类分析 改进kmeans算法 硬c均值中图分类号:TP311
文献标识码
:A
文章编号
:1673-0534(2007)08(c)-0144-02
1 引言
模糊聚类是数理统计中研究多元统计分析方法,它可根据样本的属性或特征,用数学方法定量确定样本间的类同关系,从而客观的分型划类。目前由J.B.MacQueen在1967年提出的kmeans算法则是广泛应用于科学和工业诸多聚类算法中有效的算法之一。kmeans算法工作机理就是首先随机从数据集中选取k个点作为初始聚类中心,然后计算各个样本到聚类中心的距离,把样本归到离它最近的那个聚类中心所在的类[6]。kmean算法的问题在于,事先的k是给定的,或者需要根据初始聚类中心来确定一个初始划分。因此从不同的初始聚类中心出发会得到不同的聚类结果且准确率也不一样。[5]目前初始聚类中心的选择方法主要有:任意随机选取k个样本,选择代表性的点,用“密度法”选择样本点为聚类中心以及最大最小距离聚类法寻求
[3]
距离中心点。
而传统的聚类方法硬c均值聚类(HCM)等,可直接利用样本进行聚类,能较好划分初始聚类中心。因此为避免类似Kmean算法聚类结果对初始聚类中心的依赖,针对这个问题,本文利用硬c均值能初始划分中心的优点来改进kmean算法,能较好地实现数据模糊聚类分析的效果[2]
2.2 硬
c均值处理初始分类中心设计
由公式(2)得标准化的待分类的特征向量
集
,令特征向量
(3)
则
且:
(4)
(5)
根据划分聚类的目标c
,可得:
(6)
结果处理;则把
划分至
,若最接近整数j,
中,而后对所有样本
都作如上处理,实现初始分类,在对
的作算术平均,与j组成初始聚类中心:
(7)
调用kmean算法进行最终聚类。2.3 改进kmean算法设计
根据硬c均值划分初始k为基数分组,而后根据每组之间同中心最小的距离分类。如果数据的数值小于聚类的数值,则将这些数
表1 南宁华侨投资区农业经验类型区划
2 硬c均值kmeans模糊聚类分析一般步骤
2.1 数据标准化
数据标准化有两个目的:一,是为了使有不同量纲(此例中如万元、公顷吨等)的数据也能进行比较;二,是根据模糊矩阵的要求,
将数据压缩到区间
[0,1]上。通常根据问题需要
[1]
选做如下两种变换。
(1)平移、标准差变换:
(1)
其中
且:
(2)平移极差变换:
(2)
其中;
由于原始数据量纲不同,数据差距明显,
因此对原始指标数据data矩阵作如上(1),(2)变换,得初始向量集
。;
表2
144
科技咨询导报 Science and Technology Consulting Herald
运用硬c均值改进kmeans算法的聚类分析
学 术 论 坛
据作为聚类的中心,每个中心都有一个聚类数值,如果数据的数值大于聚类的数值,针对这些数据,则通过计算与中心点的最小距离来分类。
则硬c均值改进kmeans聚类分类算法过程大致如下:
SETP1:初始化n个数据对象集合及由硬c均值计算设定初始聚类个数k;
STEP2:根据k个初始聚类中心,调用
[6]
kmean函数输出集合。
得初始中心k=7,如表4。
表4
希望可以根据权重的比值来改进。
参考文献
[1] 杨海岳.模糊聚类分析在农业经济中的应
用及编程处理方法,河北建筑工程学院学报,2004,9,22(3).
[2] 李峰,刘顺利,熊平,黄福卷.基于改进C一
均值聚类算法的空中目标分类,现代防御技术,2004,12,32(6).
[3] 袁方,孟增辉,于戈.对k—means聚类算
法的改进,数据库与信息处理.
[4] 郭珉.模糊聚类分析析算法的matlab语言
实现[J].农业网络信息,2004(5).
[5] 高新波.模糊聚类分析及其应用[M].西安
电子科技大学出版社,2004,1.
[6] 毛嘉莉.聚类K_means算法及并行化研究,
中国优秀硕士、博士论文选 …… 此处隐藏:1539字,全部文档内容请下载后查看。喜欢就下载吧 ……
上一篇:机械工程材料及成型工艺第六章
下一篇:教师专业标准试题