数据分析方法与技术作业及答案(7)

发布时间:2021-06-05

2) 其余 n-k 个点逐个进入, 每个点进入时归入与相应凝聚点距离最近的类中,每个点进入之后重新计算每一类的重心作为该类新的凝聚点;

3) 重复2)直至所有类的凝聚点均不再变化为止

12. 写出在决策树算法中熵和增益的计算定义式,并说明式中各变量的含义。

S 的熵(entropy)或者期望信息为:entropy(S) pilog2pi,式中,pi表示类Ci的概率。

i 1n

根据A划分的子集的熵或期望信息由下式给出:entropy(S,A)

|Si|

entropy(Si), |S|i 1

m

式中,Si 表示

根据属性 A 划分的 S 的第i个子集,|S|和|Si|分别表示S和Si中的样本数目。信息增益用来衡量熵的

期望减少值,因此,使用属性 A对S进行划分获得的信息增益为:gain(S,A) entropy(S) entropy(S,A)。gain(S,A)是指因为知道属性A的值后导致的熵的期望压缩。

四、分析题(抄题干及分析,不用画图)

1. 下图是Excel中得到的某市衣着类消费指数与消费总指数的回归分析结果图,请对此图所反映的回归

模型、拟合优度等信息进行分析。

2. 已知数据库D中有9个事务(如下表示),设最小支持度为2,求出所有的频繁项集。另,设置信度

为70%,列出三个强规则。

数据分析方法与技术作业及答案(7).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219