第7讲 SPSS的聚类分析

时间:2025-07-08

第7讲 SPSS的聚类分析§7.1 基本概念 将n个个体看成k维空间上的点,根据这些点间距离大 小将n个个体分类。 点间距离的计算公式与数据类型有关。 1、定距变量个体间距离的计算 欧式距离(Euclidean distance)EUCLID( x, y ) =

(xi yi )2 ∑i =1

k

2、计数变量个体间距离的计算 如果k个变量都是计数的非连续变量,则用卡方 (Chi-Square measure)距离定义个体间距离。

CHISQ( x, y ) =

(xi E (xi ))2 + k ( yi E ( yi ))2 ∑ E (x ) ∑ E ( y ) i =1 i =1 i ik

其中,E(.)是期望频数。例如:表7-1 两名学生的选修课数据姓名 张三 李四 合计 选修课门数 (期望频 数) 9(8.5) 8(8.5) 17 专业课门数 (期望频 数) 6(6) 6(6) 12 得优课门数 (期望频 数) 4(4.5) 5(4.5) 9 合计 19 19 382

3、二值(Binary)变量个体间距离的计算 简单匹配系数(Simple Matching) 原理:对应表7-2的简单匹配系数为:S ( x, y ) = b+c a+b+c+d

表7-2 简单匹配系数的频数表 个体y 1 0 a b 1 x 个体 c d 0

例题:表7-3是三名病人的临床数据,其中1表 示呈阳性,0表示呈阴性。利用该表可得 A与B的简单匹配系数为(0+1)/(2+0+1+3)=1/6; A与C的简单匹配系数为(1+1)/(1+1+1+3)=2/6; B与C的简单匹配系数为(2+1)/(1+2+1+2)=3/6。 由于A与B的简单匹配系数最小,因此他们两者的差 异最小,有可能是同一种病。表7-3 三名病人的临床表现数据 姓名 发烧 咳嗽 检查1 A 1 0 1 B 1 0 1 C 1 1 0 检查2 0 0 0 检查3 0 1 0 检查4 0 0 04

§7.2 聚类分析方法一、层次聚类 原理:首先,n个个体自成一类;然后,度量所有 个体间的亲疏程度,将其中最亲密的个体聚成一 小类,形成n-1个类;接下来,再次度量剩余个体 和小类间的亲疏程度,将当前最亲密的个体或小 类各聚成一类;重复上述过程,可将n个个体通过 n-1步聚成一大类。 类型:对样本聚类称为Q型聚类;对变量聚类称 为R型聚类。 操作:Analyze-Classify-Hierarchical Cluster。5

例7.1 利用t7-1的数据,五商厦进行层次聚 类分析。表7-4 五座商厦两两个体间欧氏距离矩阵Proximity Matrix Euclidean Distance Case 1:A商厦 2:B商厦 3:C商厦 4:D商厦 1:A商厦 0.000 8.062 17.804 26.907 2:B商厦 8.062 0.000 25.456 34.655 3:C商厦 17.804 25.456 0.000 9.220 4:D商厦 26.907 34.655 9.220 0.000 5:E商厦 30.414 38.210 12.806 3.606 This is a dissimilarity matrix

5:E商厦 30.414 38.210 12.806 3.606 0.000

由表7-4可知,D商厦和E商厦间距离最小(为3.606), 首先聚成一小类。6

表7-5 五商厦层次聚类分析凝聚状态表Cluster Combined Cluster 1 Cluster 2 4 5 1 2 3 4 1 3 Agglomeration Schedule Stage Cluster First Appears Coefficients Cluster 1 Cluster 2 3.606 0 8.062 0 11.013 0 28.908 2 Next Stage 0 0 1 3 3 4 4 0

Stage 1 2 3 4

表7-5中,第一列表示聚类分

析的第几步;第二、三 7-5 列表示本步聚类中哪两个样本或小类聚成一类; 第四列是个体距离或小类距离;第五、六列表示 本步聚类中参与聚类的是个体还是小类,0表示样 本,非0表示由第n步聚类生成的小类参与本步聚 类;第七列表示本步聚类的结果将在以下第几步 中用到。7

表7-6 五商厦层次聚类分析中的类成员Case 1:A商厦 2:B商厦 3:C商厦 4:D商厦 5:E商厦 Cluster Membership 4 Clusters 3 Clusters 1 1 2 1 3 2 4 3 4 3 2 Clusters 1 1 2 2 2

由表7-6可知,当聚成三类时,A、B为一类,C自成 一类,D、E为一类。

表7-7 五商厦层次聚类分析的冰挂图Vertical Icicle Case 5:E商厦 X X X X X X X X 4:D商厦 3:C商厦 2:B商厦 1:A商厦 Number of clusters 1 2 3 4

X X X X

X X

X X X X

X

X X X X

X X X

X X X X

由表7-7可知,当聚成4类时,D、E为一类,其他自 成一类。

例7.2 利用表7-2的数据,对31个省市自治区小康 和现代化指数进行Q型层次聚类分析。表7-8 小康指数分类表 黑 内 北 上 天 浙 广 江 辽 福 山 龙 吉 湖 陕 河 山 海 重 蒙 湖 青 四 宁 新 安 云 甘 广 江 河 贵 西 京 海 津 江 东 苏 宁 建 东 江 林 北 西 北 西 南 庆 古 南 海 川 夏 疆 徽 南 肃 西 西 南 州 藏 3 类 4 类 5 类 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 2 2 3 2 2 2 2 2 3 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 4 5 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4

由表7-8可知,当分成3类时,北京、上海、天津为 一类;浙江、广东、江苏、辽宁、福建、山东为一 类;其余为一类。

表7-8 小康指数分类表 黑 内 北 上 天 浙 广 江 辽 福 山 龙 吉 湖 陕 河 山 海 重 蒙 湖 青 四 宁 新 安 云 甘 广 江 河 贵 西 京 海 津 江 东 苏 宁 建 东 江 林 北 西 北 西 南 庆 古 南 海 川 夏 疆 徽 南 肃 西 西 南 州 藏 3 类 4 类 5 类 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 2 2 3 2 2 2 2 2 3 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 4 5 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4

由图7-1,可以考虑聚成3类或4类。

由表7-9可知,第1类的所有6个指标均最好;第2类居中;第 3类最差。表7-9 小康指数聚类分析描述统计Descriptive Statistics Average Linkage N Minimum Maximum 1 3 87.90 93.20 综合指数 3 93.40 100.00 社会结构 3 88.70 94.70 经济与技术发展 3 98.00 112.00 人口素质 3 90.00 97.40 生活质量 3 55.50 62.70 法制与治安 2 6 71.70 80.90 综合指数 6 70.80 90.40 社会结构 6 65.70 86.90 经济与技术发展 6 65.90 93.10 人口素质 6 68.10 86.60 生活质量 6 58.00 77.20 法制与治安 3 22 50.90 70.10 综合指数 22 51.60 81.10 社会结构 22 31.50 57.20 经济与技术发展 22 56.00 85.80 人口 …… 此处隐藏:2620字,全部文档内容请下载后查看。喜欢就下载吧 ……

第7讲 SPSS的聚类分析.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219