数据挖掘实验报告 Weka的数据聚类分析

时间:2025-04-22

甘肃政法学院

本科生实验报告

(2)

姓名:

学院:计算机科学学院 专业:信息管理与信息系统 班级:

实验课程名称:数据挖掘 实验日期: 指导教师及职称: 实验成绩:

开课时间:2013—2014 学年

一 学期

甘肃政法学院实验管理中心印制

2、选择算法类型点击Cluster中的Choose,选择本次实验所要使用的算法类型 “SimpleKMeans”

3、得出实验结果选中“Cluster Mode”的“Use training set” ,点击“Start”按钮,观察右边 “Clusterer output”给出的聚类结果如下: === Run information === Scheme: Relation: Instances: Attributes: weka.clusterers.SimpleKMeans -N 2 -S 10 http://www.77cn.com.cns 93 23 Manufacturer Type City_MPG Highway_MPG Air_Bags_standard Drive_train_type Number_of_cylinders Engine_size Horsepower RPM Engine_revolutions_per_mile Manual_transmission_available Fuel_tank_capacity Passenger_capacity Length Wheelbase Width U-turn_space Rear_seat_room Luggage_capacity Weight Domestic class evaluate on training data

Test mode:

=== Model and evaluation on training set ===

kMeans ======

Number of iterations: 5 Within cluster sum of squared errors: 282.17934341063733 Cluster centroids: Cluster 0 Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512 Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372 Cluster 1 Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019 Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863 Clustered Instances 0 41 ( 44%) 52 ( 56%)

4、修改Seed值

5、得出修改Seed值后的实验结果 === Run information === Scheme: -S 8 Relation: Instances: Attributes: weka.clusterers.SimpleKMeans -N 2 http://www.77cn.com.cns 93 23 Manufacturer Type City_MPG Highway_MPG Air_Bags_standard Drive_train_type Number_of_cylinders Engine_size Horsepower RPM Engine_revolutions_per_mile Manual_transmission_available Fuel_tank_c

apacity

Test mode:

Passenger_capacity Length Wheelbase Width U-turn_space Rear_seat_room Luggage_capacity Weight Domestic class evaluate on training data

=== Model and evaluation on training set === kMeans ====== Number of iterations: 6 Within cluster sum of 282.17934341063733 Cluster centroids: Cluster 0 Mean/Mode: Chevrolet Midsize 19.0732 26.3171 1 1 5.9024 3.522 173.8537 4965.8537 1964.2683 0 18.6049 5.561 193.7805 108.6098 72.3415 41.6341 29.0202 15.5178 3517.561 1 23.4512 Std Devs: N/A N/A 2.3916 3.0368 N/A N/A 1.261 0.9015 50.3232 581.2098 370.73 N/A 2.4903 1.0735 11.1232 5.2435 2.9632 1.9462 2.772 2.4527 358.6609 N/A 10.2372 Cluster 1 Mean/Mode: Ford Small 24.9615 31.2692 0 1 4.2301 1.9942 120.1538 5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019 squared errors:

Std Devs: N/A N/A 5.7467 N/A N/A 0.7301 40.8149 484.7019 377.1753 N/A 0.848 11.2599 5.5735 2.4968 2.7753 2.3975 492.4971 N/A Clustered Instances 0 41 ( 44%) 1 52 ( 56%) 6、对上述实验结果进行分析 7、显示散点图

6.0746 0.5047 3.0204 2.338 7.9863

我 们 在 左 下 方 “ Result list ” 列 出 的 结 果 上 右 击 , 点 “Visualize cluster assignments”。弹出的窗口给出了各实例 的散点 图。 最 上方的 两个 框 是选择 横坐 标 和纵坐 标, 第 二行 的”color”是散点图着色的依据, 默认是根据不同的簇 “Cluster” 给实例标上不同的颜色。

二、实验分析本次实验采用的数据文件是“1993 New Car Data ”。通过 观察本次实验的实验结果观察,我们可以知道: 1、Number of iterations: 5,意味着本次实验把这93条 实例聚成了5类,即K=5 2 、 Within cluster sum of squared errors: 282.17934341063733 这是评价聚类好坏的标准,数值越小说明同一簇实例之间的 距离越小。如果把“seed”参数改一下,得到的这个数值就可能 会不一样。我们应该多尝试几个“seed”,并采纳这个数值最小 的那个结果。 3、Cluster centroids:”之后列出了各个簇中心的位置。 对于数值型的属性,簇中心就是它的均值(Mean),如cluster0 的数值型变量Manufacturer的均值19.0732;分类型的就是它的 众数(Mode),如cluster0的分类型变量Drive_train_type的 众数为1,也就是说这个属性上取值为众数值1(有1个孩子)的 实例最多。对于数值型的属性,还给出了它在各个簇里的标准 差(Std Devs)。 最后的“Clustered Instances”是各个簇 中实例的数目及百分比。五、实验总结

通过本次试验,使我对如何在 Weka 中进行聚类分析有了更深 刻的了解, Weka 中进行聚类分析的 simpleKmeans 算法也有了进 对 一步的理解,但是实验中所遇到的,有关如何以最快的速度找出最 好的聚类方案的相关问题, 我还理解和运用的不是非常熟悉。在今 后的学习中我将通过查阅文

献和咨询老师、 同学,对此加以熟悉和 改进。

…… 此处隐藏:1945字,全部文档内容请下载后查看。喜欢就下载吧 ……
数据挖掘实验报告 Weka的数据聚类分析.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219