第10讲_聚类分析

时间:2025-02-24

SPSS统计分析从基础到实践

10.1 聚类分析简介

SPSS统计分析从基础到实践

引例:讨论如何将一副普通纸牌中四种花色的A ,K,Q,J共16张牌进行分类。 (1)给出一些分组情况。 如:单张套;同花套;黑红套;同字套等。(2)有意义的分组依赖于“相似”的定义。

SPSS统计分析从基础到实践

(3)在聚类分析的大多数实际应用中,研究者 清楚了解如何区分“好”的分组与“坏”的 分组。可否列出所有可能的分组,然后从中 选择“最优”分组,以供未来研究? 分组情况: 16张牌分为一组有一种方法; 16张牌分为两组有32767种方法; 16张牌分为三组有7141686种方法 由于时间的限制,要从所有可能的分组中 找出最优分组是不可能的。 可行的方案:建立算法,利用它们找到好的 ,但未必是最好的分组。

SPSS统计分析从基础到实践

聚类分析是对纪录(或变量)进行分类的方法 实质: 按照距离的远近将数据分成若干个类别,以 使得类别内数据的差异尽可能的小,类别间 差异尽可能的大。

两个要点: (1)建立定量指标,描述对象之间的差异。 通过距离或相似性的方式来描述。 (2)建立将对象分类的算法。

一、相似性量度

SPSS统计分析从基础到实践

1、根据聚类的对象选择相似性量度 对记录(cases)聚类时,记录之间的接近 程度常用某种距离表示; 对变量(variables)聚类时,根据变量间 的相关系数或类似的联系量度来分组。2、根据变量的特点选择相似性量度 根据变量的性质(离散型、连续型、二值 型),测量值的尺度(名义尺度、顺序尺度、 标度尺度),以及研究课题的知识来选择相 似性量度。

3、常用的距离量度

SPSS统计分析从基础到实践

I、连续变量的距离量度

SPSS统计分析从基础到实践

II、频数表资料的距离量度

SPSS统计分析从基础到实践

III、二值型变量的距离量度

SPSS统计分析从基础到实践

其中a,b,c,d的含义如下

SPSS统计分析从基础到实践

例1:假定五个人具有以下特征:个人 身高(英寸) 体重(磅) 眼球颜色 头发颜色 优势手 性别

1 2 3 4 5

68 73 67 64 76

140 185 165 120 210

绿 棕 蓝 棕 棕

金 黑 金 黑 黑

右 右 右 右 左

女 男 男 女 男

SPSS统计分析从基础到实践

定义6个二值变量来表示6 个特征:xheight 1 0 1 0 1 0 身高 72 英寸 身高 72 英寸 棕色眼睛 其他 右手优势 左手优势 xhaircol 1 xsex 0 xweight 1 0 1 0 女性 男性 体重 150 磅 身高 150 磅 金色头发 其他

xeyecol

xhand

数据录入见文件:p527li1.sav。 试求出5个人之间的相似系数和距离。

SPSS

统计分析从基础到实践

SPSS操作命令:执行【Analyze】/【Correlate】/【Distances】命令 Compute Distances: Between Cases ——计算记录间的距离或相似系数 (1)Measure: Similarities ——计算相似系数矩阵 Measures 复选框:Binary ——二值变量 选 Simple matching ——相似系数的计算方法 Simple matching法计算公式为: 某两人之间的相似系数=(a+d)/(a+b+c+d) 其中a,b,c,d含义如下:

SPSS统计分析从基础到实践

(2)Measure: Dissimilarities——计算距离矩阵 Measures 复选框:Binary ——二值变量 选 Euclidean distance ——距离的计算方法 Euclidean distance法计算公式为: 某两人之间的距离= b c (b,c含义见上表)

SPSS统计分析从基础到实践

SPSS输出结果为: (1)相似系数矩阵Proximity Matrix Simple matching Measure 1 1 2 3 4 5 1.000 .167 .667 .667 .000 2 .167 1.000 .500 .500 .833 3 .667 .500 1.000 .333 .333 4 .667 .500 .333 1.000 .333 5 .000 .833 .333 .333 1.000

This is a sim ilarity matrix

根据相似系数的大小,可以断言第二人与第 五人最相似,而第一人与第五人最不相似。 根据相似性数字将这五人分成相对接近的两 组,则可得出(1,3,4)和(2,5)。

SPSS统计分析从基础到实践

(2)距离矩阵:Proximity Matrix Euclidean D istance 1 1 2 3 4 5 .000 2.236 1.414 1.414 2.449 2 2.236 .000 1.732 1.732 1.000 3 1.414 1.732 .000 2.000 2.000 4 1.414 1.732 2.000 .000 2.000 5 2.449 1.000 2.000 2.000 .000

This is a dissim ilarity matrix

SPSS统计分析从基础到实践

二、聚类算法 I、分层聚类法 SPSS: Hierarchical Cluster AnalysisII、重新定位聚类法(非分层聚类法) 流行的非分层聚类法——K均值法 SPSS: K-Means Cluster Analysis

III、智能聚类法 SPSS: TwoStep Cluster Analysis

10.2 分层(系统)聚类法

SPSS统计分析从基础到实践

一、分层聚类法的类别及其原理 1、聚集分层法: 从单个元素开始,即在开始时有多少个元 素就有多少个类别;将那些最相似的元素首先 分类,然后将类与类根据它们之间的相似性进 行合并;最后随着相似性不断下降,所有的类 融合为一个大类。

SPSS统计分析从基础到实践

2、分割分层法: 由所有元素组成的一个类开始,将它分割 成两个子类,使一个子类的元素“远离”另 一个子类的元素;然后将这两个类进一步分 割成不相似的类;这一过程一直进行到每个 元素单独成为一类时为止。 这两类方法的运算原理实际上是相同的,仅 仅是方向相反而已。SPSS中提供的是聚集分 层法。

SPSS统计分析从基础到实践

二、聚集分层算法的步骤 1、从N个类(每类只含一个元素)和N*N对称 距离(或相似性)矩阵D开始;2、将距离最近 …… 此处隐藏:1282字,全部文档内容请下载后查看。喜欢就下载吧 ……

第10讲_聚类分析.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219