第7讲 SPSS的聚类分析
时间:2025-07-08
时间:2025-07-08
第7讲 SPSS的聚类分析§7.1 基本概念 将n个个体看成k维空间上的点,根据这些点间距离大 小将n个个体分类。 点间距离的计算公式与数据类型有关。 1、定距变量个体间距离的计算 欧式距离(Euclidean distance)EUCLID( x, y ) =
(xi yi )2 ∑i =1
k
2、计数变量个体间距离的计算 如果k个变量都是计数的非连续变量,则用卡方 (Chi-Square measure)距离定义个体间距离。
CHISQ( x, y ) =
(xi E (xi ))2 + k ( yi E ( yi ))2 ∑ E (x ) ∑ E ( y ) i =1 i =1 i ik
其中,E(.)是期望频数。例如:表7-1 两名学生的选修课数据姓名 张三 李四 合计 选修课门数 (期望频 数) 9(8.5) 8(8.5) 17 专业课门数 (期望频 数) 6(6) 6(6) 12 得优课门数 (期望频 数) 4(4.5) 5(4.5) 9 合计 19 19 382
3、二值(Binary)变量个体间距离的计算 简单匹配系数(Simple Matching) 原理:对应表7-2的简单匹配系数为:S ( x, y ) = b+c a+b+c+d
表7-2 简单匹配系数的频数表 个体y 1 0 a b 1 x 个体 c d 0
例题:表7-3是三名病人的临床数据,其中1表 示呈阳性,0表示呈阴性。利用该表可得 A与B的简单匹配系数为(0+1)/(2+0+1+3)=1/6; A与C的简单匹配系数为(1+1)/(1+1+1+3)=2/6; B与C的简单匹配系数为(2+1)/(1+2+1+2)=3/6。 由于A与B的简单匹配系数最小,因此他们两者的差 异最小,有可能是同一种病。表7-3 三名病人的临床表现数据 姓名 发烧 咳嗽 检查1 A 1 0 1 B 1 0 1 C 1 1 0 检查2 0 0 0 检查3 0 1 0 检查4 0 0 04
§7.2 聚类分析方法一、层次聚类 原理:首先,n个个体自成一类;然后,度量所有 个体间的亲疏程度,将其中最亲密的个体聚成一 小类,形成n-1个类;接下来,再次度量剩余个体 和小类间的亲疏程度,将当前最亲密的个体或小 类各聚成一类;重复上述过程,可将n个个体通过 n-1步聚成一大类。 类型:对样本聚类称为Q型聚类;对变量聚类称 为R型聚类。 操作:Analyze-Classify-Hierarchical Cluster。5
例7.1 利用t7-1的数据,五商厦进行层次聚 类分析。表7-4 五座商厦两两个体间欧氏距离矩阵Proximity Matrix Euclidean Distance Case 1:A商厦 2:B商厦 3:C商厦 4:D商厦 1:A商厦 0.000 8.062 17.804 26.907 2:B商厦 8.062 0.000 25.456 34.655 3:C商厦 17.804 25.456 0.000 9.220 4:D商厦 26.907 34.655 9.220 0.000 5:E商厦 30.414 38.210 12.806 3.606 This is a dissimilarity matrix
5:E商厦 30.414 38.210 12.806 3.606 0.000
由表7-4可知,D商厦和E商厦间距离最小(为3.606), 首先聚成一小类。6
表7-5 五商厦层次聚类分析凝聚状态表Cluster Combined Cluster 1 Cluster 2 4 5 1 2 3 4 1 3 Agglomeration Schedule Stage Cluster First Appears Coefficients Cluster 1 Cluster 2 3.606 0 8.062 0 11.013 0 28.908 2 Next Stage 0 0 1 3 3 4 4 0
Stage 1 2 3 4
表7-5中,第一列表示聚类分
析的第几步;第二、三 7-5 列表示本步聚类中哪两个样本或小类聚成一类; 第四列是个体距离或小类距离;第五、六列表示 本步聚类中参与聚类的是个体还是小类,0表示样 本,非0表示由第n步聚类生成的小类参与本步聚 类;第七列表示本步聚类的结果将在以下第几步 中用到。7
表7-6 五商厦层次聚类分析中的类成员Case 1:A商厦 2:B商厦 3:C商厦 4:D商厦 5:E商厦 Cluster Membership 4 Clusters 3 Clusters 1 1 2 1 3 2 4 3 4 3 2 Clusters 1 1 2 2 2
由表7-6可知,当聚成三类时,A、B为一类,C自成 一类,D、E为一类。
表7-7 五商厦层次聚类分析的冰挂图Vertical Icicle Case 5:E商厦 X X X X X X X X 4:D商厦 3:C商厦 2:B商厦 1:A商厦 Number of clusters 1 2 3 4
X X X X
X X
X X X X
X
X X X X
X X X
X X X X
由表7-7可知,当聚成4类时,D、E为一类,其他自 成一类。
例7.2 利用表7-2的数据,对31个省市自治区小康 和现代化指数进行Q型层次聚类分析。表7-8 小康指数分类表 黑 内 北 上 天 浙 广 江 辽 福 山 龙 吉 湖 陕 河 山 海 重 蒙 湖 青 四 宁 新 安 云 甘 广 江 河 贵 西 京 海 津 江 东 苏 宁 建 东 江 林 北 西 北 西 南 庆 古 南 海 川 夏 疆 徽 南 肃 西 西 南 州 藏 3 类 4 类 5 类 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 2 2 3 2 2 2 2 2 3 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 4 5 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4
由表7-8可知,当分成3类时,北京、上海、天津为 一类;浙江、广东、江苏、辽宁、福建、山东为一 类;其余为一类。
表7-8 小康指数分类表 黑 内 北 上 天 浙 广 江 辽 福 山 龙 吉 湖 陕 河 山 海 重 蒙 湖 青 四 宁 新 安 云 甘 广 江 河 贵 西 京 海 津 江 东 苏 宁 建 东 江 林 北 西 北 西 南 庆 古 南 海 川 夏 疆 徽 南 肃 西 西 南 州 藏 3 类 4 类 5 类 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 2 2 3 2 2 2 2 2 3 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 4 5 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4 3 3 4
由图7-1,可以考虑聚成3类或4类。
由表7-9可知,第1类的所有6个指标均最好;第2类居中;第 3类最差。表7-9 小康指数聚类分析描述统计Descriptive Statistics Average Linkage N Minimum Maximum 1 3 87.90 93.20 综合指数 3 93.40 100.00 社会结构 3 88.70 94.70 经济与技术发展 3 98.00 112.00 人口素质 3 90.00 97.40 生活质量 3 55.50 62.70 法制与治安 2 6 71.70 80.90 综合指数 6 70.80 90.40 社会结构 6 65.70 86.90 经济与技术发展 6 65.90 93.10 人口素质 6 68.10 86.60 生活质量 6 58.00 77.20 法制与治安 3 22 50.90 70.10 综合指数 22 51.60 81.10 社会结构 22 31.50 57.20 经济与技术发展 22 56.00 85.80 人口 …… 此处隐藏:2620字,全部文档内容请下载后查看。喜欢就下载吧 ……
上一篇:2010全国高考英语试卷及答案
下一篇:4BIOS设置与硬盘分区格式化