决策树C4.5算法总结
时间:2025-03-09
时间:2025-03-09
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
C4.5示例 数据:weka中的weather数据(字符型、数 值型)outlook,temperature,humidity,windy,play sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no outlook,temperature,humidity,windy,play sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
C4.5示例 SPSS Clementine C5.0
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
C4.5示例 Weka J48
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
C4.5算法简介决策树方法:利用一定的训练样本,从数据中学习出 决策规则自动构造出决策树。 C4.5算法: 《C4. 5: programs for machine learning》 JR Quinlan, 1993 分类决策树算法,其核心算法是ID3算法。目前应用在临 床决策、生产制造、文档分析、生物信息学、空间数 据建模等领域。算法的输入是带类标的数据,输出是 树形的决策规则。 ID3算法:《Induction of decision trees》 JR Quinlan - Machine learning, 1986 ID3算法的原型来自于Hunt等人提出的概念学习系统 (concept learning system, CLS)。
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
C4.5算法简介C4.5比ID3的改进: 1) 用信息增益率来选择属性,克服了用信息增 益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法优点:产生的分类规则易于理解,准 确率较高。 C4.5算法缺点:在构造树的过程中,需要对数 据集进行多次的顺序扫描和排序,因而导致算 法的低效。
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
决策树算法发展二级存储: 针对不能完全放入内存的数据集,在确保分类器算法效能的前提下,要做到数据 集扫描遍数的极小化。BOAT算法(《 BOAT-optimistic decision tree construction》J Gehrke, V Ganti, R Ramakrishnan… - SIGMOD …, 1999)使用抽样、融合、完整扫描三步得到最终的分类器。 RainForest框架(《Rainforest-a framework for fast decision tree construction of large datasets》J Gehrke, R Ramakrishnan, V Ganti - VLDB, 1998)实现了多种具体的决策树构
建方法,适用于大规模数据集的处理。其他基于二级存储设备的算法还有SLIQ ( 《SLIQ: A fast scalable classifier for data mining》 M Mehta, R Agrawal, J Rissanen Advances in Database Technology— …, 1996 ),SPRINT(《SPRINT: A scalable parallel classi er for data mining》J Shafer, R Agrawal, M Mehta - Proc. 1996 Int. Conf. Very Large Data …, 1996 - Citeseer),PUBLIC
( 《PUBLIC: A decision tree classifier that integrates building and pruning》R Rastogi, K Shim - VLDB, 1998 - cs.sfu.ca )等。 斜决策树: 斜决策树适用于处理连续型数据,决策准则使用属性的线性组合。采用属性的线 性组合策略的一个典型的决策树分类器是OC1(《A system for induction of oblique decision trees》SK Murthy, S Kasif, S Salzberg - arXiv preprint cs/9408103, 1994 http://) )。 集成方法:装袋法和推举法。(《Popular ensemble methods: An empirical study》 R Maclin, D Opitz - arXiv preprint arXiv:1106.0257, 2011 - http://
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
算法流程:1)选择节点分裂属性 2)建立新节点,划分数据集 3)判断节点是否到生长停止条件, 如果是,终止生长,如果不是,转到 1)
问题:1)选择哪个属性进行节点分裂? 2)何时停止树生长? 3)怎么处理连续型属性? 4)怎么处理缺失值? 5)怎么处理过拟合问题?
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
选择节点分裂属性的问题 熵(Entropy):我们把一个事件的不确定程度叫做 “熵”,熵越大表明这个事件的结果越难以预测, 同时事件的发生将给我们带来越多的信息。 增益(Information Gain):在信息增益中,衡量标准是看特征 能够为分类系统带来多少信息,带来的信息越多,该特征越重 要。对一个特征而言,系统有它和没它时信息量将发生变化, 而前后信息量的差值就是这个特征给系统带来的信息量。所谓 信息量,就是熵。系统原先的熵是H(X),在条件Y已知的情况下 系统的熵(条件熵)为H(X|Y),信息增益就是这两个熵的差值。
c45算法的调研,包括:weka中的实例,算法研讨问题,算法原理,weka代码展示等。
outlook sunny sunny overcast rainy rainy rainy overcast sunny sunny rainy sunny overcast overcast rainy
temperature hot hot hot mild cool cool cool mild cool mild mild mild hot mild
humidity high high high h …… 此处隐藏:3900字,全部文档内容请下载后查看。喜欢就下载吧 ……
下一篇:宾馆改造施工组织设计