数据分析方法与技术作业及答案(8)

发布时间:2021-06-05

由频繁项集产生强关联规则 confidence(A B)=P(B|A)=

Support_count(A B)

Support_count(A)

基于找出的频繁项集I={I1,I2,I5}可以产生的强关联规则: {I2,I1} I5, confidence=2/4=50% {I1,I5} I2, confidence=2/2=100% {I2,I5} I1, confidence=2/2=100% I1 {I2,I5}, confidence=2/6=100% I2 {I1,I5}, confidence=2/7=29% I5 {I1,I2}, confidence=2/2=100%

最小置信度阈值为70%,则只有2,3和最后一个规则可以输出,这些就是产生的强规则。

3. 已知如下数据集,目标分类属性为 buys_computer,运用ID3算法求出该训练集在根节点的最佳分类。

首先计算该训练集的熵, 根据熵公式,需知道各分类的概率, buys_computer= yes 的记录有9条,其概率为9/14, 记该集合为C1

buys_computer= no 的记录有5条,其概率为5/14, 记该集合为C2

entropy(S)

9955

log2() log2()

0.940位 14141414

首先考察age这一分类属性,需要知道按age 分类后的各子集的目标属性集的概率,

age的youth 类有5个样本,其中有2 个属于C1类,即buys_computer= yes,3个属于C2类,即buys_computer= no age的middle_aged 类有4个样本,4 个属于C1类,0个属于C2类 age的senior 类有5个样本,3 个属于C1类,2个属于C2类 于是,有:

entropy(S,age)

522334440053322

( log2 log2) ( log2 log2) ( log2 log2) 0.694位145555144444145555

因此,属性age 的增益为:gain(S, age) = entropy(S)-entropy(S, age) = 0.940-0.694=0.246位 同理,可计算得:gain(S, income) = 0.029位gain(S, student) = 0.151位gain(S, credit_rating) = 0.048位 可见,按属性 age 分类具有最高的增益,因此选择其为分枝属性。其分枝结果如下图示。

3. 已知三个病人五种参考症状的数据情况,计算各样本点之间的雅克比匹配系数;说明该参量的使用

使用雅克比系数,则两两之间的距离为

数据分析方法与技术作业及答案(8).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219