《数据仓库》课程设计报告

时间：2026-05-01

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

GDOU-B-11-112

广东海洋大学学生实验报告书（学生用表）

实验名称关于福布斯排行榜的数据挖掘课程名称数据仓库设计与应用课程号学院(系)

学生姓名

信息学院刘霆钧赵小缘专业信息管理与信息系统班级信管1124 2015年11实验日期月28日 201211671416 学号实验地点科技楼

关于福布斯排行榜的数据挖掘

一、实验目的

（1）了解数据挖掘中的聚类分析；

（2）充分了解IBM SPSS Modeler的数据挖掘能力；

二、实验目标

（1）理解聚类分析的概念；

（2）对福布斯排行榜的数据（源数据来源：福布斯中文网，经过加工整理）进行聚类

分析，掌握SPSS软件进行数据挖掘的常用步骤；

（3）了解聚类分析中各个数据模型的内涵和意义。

三、实验内容及结果

1. 用自己的话概括数据挖掘中的聚类分析概念。

答：聚类分析是将一组对象分成若干类，想同类中的对象具有相似性，不同类中的对象相异性较大。聚类与分类不同的是后者不依赖给定的标准给对象进行分类。

2. 使用“福布斯排行榜”数据进行数据挖掘分析。

根据2010年至2015年福布斯企业排行榜50强在Excel

表格中计算5年各自的平均销售额、平均利润、平均资产和平均市值，并在IBM SPSS Modeler中用“Excel”节点导入数据。

图 1 “2010-2015总汇”节点预览

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

图 2 “多重散点图”编辑窗口

在进行完X轴及Y轴的设置后，运行得到如图3显示的多重散点图。这一结果反映了从2010年到2015年能进入福布斯排行榜前列对其规模、盈利能力和在资本市场影响力的要求不断提高。

图 3 2010-2015年福布斯排行榜50强（平均）金额变化趋势

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

此“Excel”节点的数据来自2015年福布斯排行榜100强，在图4编辑窗口中，选择过滤“排行”和“企业（名）”，以方便后面的聚类分析。

图 4 原始数据过滤

在“Excel”节点之后建立“类型”节点，如图5所示，六个字段的角色均设置为“输入”，其它参数为默认。

图 5 “类型”节点编辑窗口

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

图 6 “类型”节点预览

建立“K-Means”节点。如图7所示，编辑窗口中，在“使用分区数据”一栏中打钩，其他选择默认。点击运行即生成“K-Means”聚类分析。

图 7 “K-Means”模型编辑窗口

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

分析K-Means聚类分析。从图8中可以看到，聚类分析将源数据分成了五个聚类，每个类占总数的比例分别为45%，19%，14%，11%和11%。其中，对分类字段的依赖性依次由行业、国家、资产、销售额、市值、利润逐渐递减。

图 8 “K-Means”模型聚类分析结果

查看K-Means模型。利用“输出”选项卡中的“表”节点对模型的数据进行查看，如图9。在表中，可以看到每个企业所属的聚类，表中最后一列“$KND-K-Means”是指每一个元素距离类中心的距离，距离越小，表示效果越好。

图 9 表节点查看“K-Means”模型

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

图 10 “分析分布图”编辑窗口

分析分布图。如图11所示，从分布图中可以看到每个聚类所占的比例和个数，以及该类所拥有的国家。如果想查看“行业的聚类情况，可以在图10的编辑窗口中，交叠字段的“颜色”下拉栏中选择“行业”。

图 11 “分析分布图”查看聚类结果

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

图 12 “集合”节点编辑窗口

除了对聚类分析模型进行分析外，还可以对源数据直接分析。在这里，使用“图形”选项卡下的“集合”节点对原始数据进行分析。

运行该节点流，既可获得如图13的分布图。图中横轴表示“利润”的数额，纵轴表示在横轴上所有该“利润”数额对应的企业所具有的“市值”金额之和。

图 13 “集合”节点流分布图查看原始数据

运用数据仓库的知识,通过SPSS Modeler对福布斯排行榜进行数据挖掘并分析结果。

图 14 数据挖掘“工作流”展示

四、实验总结

这次数据仓库课程的小组实验对我们组来说非常难忘，从最初的讨论实验选题，再到开始实验的通力合作，以及遇到问题后默契地寻找解决方法，最后顺利完成答辩，过程充满着挑战，但我们都感到很满意整个过程和最后的结果。

回顾这个课程实验的细节，我们小组能充分体会到数据挖掘的不易。比如实验题目其实很多方向和备选项，但是数据源却是一个不小的问题，很多数据在网上难以搜索或者不能满足实验的格式，几经思索和讨论，决定才用“福布斯排

《数据仓库》课程设计报告.doc 将本文的Word文档下载到电脑

下载这篇word文档

上一篇：商务英语函电基本格式

下一篇：第二章切削过程及控制1

精彩图片

大家正在看

201年高三第一轮复习课件《政治生新桥镇学校卫生大扫除安排通知 2015中考压轴题系列46_动态几何之浅谈《中国有个河南》的艺术表现 lesson26 Looking at Pictures 七年级地理上册《大洲和大洋》坏账准备的计提方法温州市九校联盟2017-2018学年高一下

《数据仓库》课程设计报告

精彩图片

猜你喜欢

热门精选

经典双语美文：加油为了心中的梦想

美文赏析：花开向暖，素锦留香

经典美文：花开向暖，素锦留香

经典美文：青春如歌，携一份懂得同行

在雨中静听自己的心跳美文

浅谈当今大学教育的含金量双语美文

大家正在看