聚类分析在数据挖掘中的应用.txt
时间:2025-04-30
时间:2025-04-30
聚类分析在数据挖掘中的应用
山西财经大学
硕士学位论文
聚类分析在数据挖掘中的应用
姓名:许存兴
申请学位级别:硕士
专业:统计学
指导教师:雷钦礼
20040510
聚类分析在数据挖掘中的应用
摘要
聚类分析是数据挖掘方法中的一个重要的方法。本文首先对数据挖掘进行
了简要的描述;其次、着重对数据挖掘中的聚类分析法进行讨论;最后、以一
个超市的商品销售为例,用数据挖掘中的聚类分析法进行了挖掘。因此,本文
从研究数据挖掘的算法角度出发,从三个方面对数据挖掘进行了论述:
一、数据挖掘的概述
通过对数据挖掘的概念、方法、过程、特点、作用及其与统计学关系的描
述,使我们对数据挖掘有一个整体的了解。
二、聚类分析在数据挖掘中的应用
在这部分首先介绍了统计学中的聚类分析基础知识,即距离与相似系数和
聚类的特征与聚类问的距离。其次,介绍了具体的聚类分析方法,包括分层聚
类法(最短距离法、最长距离法和中间距离法)、分割聚类算法(PAM算法、
CLARA算法)、基于密度的方法、基于网格的方法和基于模型的方法。
三、数据挖掘在超市中的应用
在这部分以某一超市为例,以数据挖掘的过程为线索,对这个超市的销售
数据用聚类分析法中的层次法进行了数据挖掘;其次,对数据挖掘的结果进行
了描述;最后,分析了数据挖掘的结果。
关键词:数据挖掘聚类分析数据仓库分层聚类法分割聚类法数
据
聚类分析在数据挖掘中的应用
Abstract
Clusteranalysisis
includesafundamentalmethodofdatamining.Theissuemining,adiscussionthreeparts,abriefdescriptionofdata
acaseaboutclusteranalysisindatamining,and
1.Introductionofdatamining
Inordertogetastudyofit.gestaltviewofdatamining,itsconception,methods,
therelationwithstatisticsareprocession,character,roles,and
introduced.
2.Theapplicationofclusteranalysisindatamining
Inthissection,thebasicknowledgeofclusteranalysisisintroduced,
namelydistanceandrelativecoefficient,characterofclusteringanalysis
anddistancebetweenclusters.Furthermore,thespecificmethodsof
clusteringanalysisispresented,consistsofhierarchicalagglomerative
neighbor,furthestneighborandmethods(nearest
partitionclustermedianclustering),approach(PAMmethod,CLARAmethod),methods
concernedofdensity,netsandmodels.
3.Applicationofdatamininginsupermarkets
Inthissection,throughtheprocessofdataminingofthesaledatain
thesupermarket,theclusteranalysismethods
resultsarearepresented.Second,theshowed,thelast,theresultsareanalyzed.
Keywords:datamining,clusteringanalysis,datastorage,
hierarchicalagglomerativemethods,partitionmethods,data
聚类分析在数据挖掘中的应用
刖舌
数据挖掘技术是一门交叉性、边缘性学科,它涉及到数据库、统计学、人工智
能与机器学习等多个领域。计算机的应用普及产生了大量的数据,数据挖掘就是利用
这些学科的技术进行大数据量的处理。从数据挖掘的应用领域来看,其应用非常广泛,
从农业生产的预测到基因分类,从化学分子结构的识别到医疗疾病的分析,从信用卡
欺诈到税务稽查,从产品的销售到顾客特征的分析。因此,数据挖掘技术对未来社会