常用数据挖掘算法研究

时间:2025-03-10

第 l 9卷第 1期 1Vo -9 l 1 No 1 .l

电子设计工程El cr nc De in g e to i sa En

21 0 1年 6月Jn 2 1 u .0 1

常用数据挖掘算法研究王海涛 .陈树宁(丘职业技术学院河南商丘 4 6 0 )商 7 0 0

摘要:了给企业快速、成本构建客户管理系统、 R系统、据挖掘应用系统提供参考与借鉴,究了常用数据为低 C M数研挖掘算法。通过研究数据挖掘算法基本原理、用范围及优点,出可以使用不同的算法来执行同样的业务任务。适得每个算法会生成不同的结果。因此在一个数据挖掘解决方案中,以使用一些算法来研究数据,后使用其他算法,可然基于这些数据预测特定结果。

关键词:数据挖掘;法;据转换算数中图分类号: P 1 .3 T 3 11文献标识码: A文章编号:1 7— 2 6 2 1 ) 1 0 9— 3 64 6 3 (0 1 1- 0 0 0

Re e r h o o s a c fc mm o d t i n l o ih n a a m ni g a g r t mW ANG Ha— o,C ia t HE h— i g N S unn

( h n qu V c t n la d T c nc lC l g,h n qu4 6 0 S a g i o ai a n e h ia ol e S a g i 7 0 0,C ia) o e hnAb t a t I r e o p o ie r fr n e a d x e e c o u i e s fs, w- o t c n tu t n c s me n g me t s r c: n o d r t rv d ee e c n e p r n e f r b sn s a t l c s o s c o u t r ma a e n i o r i o s se, M y tms d t n n p l ai n, i e e ta g r h c n b s d t e f r t e s me b s e s t k b y t ms CR s se, aa mii g a p i t s a d f r n l oi m a e u e o p ro m h a u i s a y c o t n s su y n h a i r cp e f d t n n l o i ms a p iai n a d a v na e,h n e c t o r d c s d f rn t d ig t e b sc p i il s o aa mi i

g ag r h, p l t n d a tg s t e a h me h d p o u e i ee t n t c o e u t T e eo e o a s o l o i r s l . h r fr,y u c n u e s me ag r m o su y t e d t n a d t n n o u in a d t e s t e l o t ms s h t t t d h a a i a mii g s l t n h n u e oh ra g r h a o i b s d o h s aa t r dc p cfcr s l i a n n o u in a e n t e ed t p itas e i e u t n ad t mii g s l t . o e i a o Ke r s a n n lg r h;d t o v rin y wo d:d t mi ig;a o t m a i a ac n e s o

“据挖掘算法”创建数据挖掘模型的机制。为了创建数是模型,法将首先分析一组数据并查找特定模式和趋势。算算法使用此分析的结果来定义挖掘模型的参数。然后,些参这数应用=整个数据集,以便提取可行模式和详细统计信息。 下面是笔者就各种算法的原理及适用范围做的总结。

12决策树 .

决策树是一种分类和回归算法,于对离散和连续属性用进行预测性建模。 决策树的基本原理是递归地将数据拆分成子集。便每以一

个子集包含目标变量类似的状态,些目标变量是可预测这

1各种算法原理及适用范围11贝叶斯算法 .贝叶斯算法是一种分类算法 .于预测性建模。该算法用在假定输入属性互不相关的前提下来计算输入列和可预测列之间的条件概率。该算法的名称 N i ae a eB ys即由这一无 v关性假定而来。

属性I 1一次对树进行拆分。要评价所有的输入属性对可。每都预测属性的影响程度,这个递归的过程结束时,策树也当决就完成了。

对于连续属性 .算法使用线性回归确定决策树的拆分该位置。

当决策树算法根据可预测的连续列生成树时。每个节点都包含一个回归公式。拆分出现在回归公式的每个非线性点处。

与其他算法相比,算法所需的运算量小,而

能够快该因速生成挖掘模型 .发现输入列和可预测列之间的关系。可以

决策树的适用范围有关联分析、回归任务。 1 .时序算法 3

以使用该算法进行初始数据探测,后根据该算法的结果使然用其他运算量较大、加精确的算法创建其他挖掘模型。更 该算法适用于分类任务和预测任务。特别适合于初始的数据挖掘及验证输入列与输出列之间有无关系的任务。

时序算法是一种回归算法,于创建数据挖掘模型以预用测连续列。预测方案中的产品销售额。其他算法创建依靠如给定输入列来预测可预测列的模型 (决策树模型 )而时序如,模型的预测则仅根据算法在创建模型时从原始数据集派生的趋势。

时序算法的一个重要功能就是可以执行交叉预测翻也。收稿日期: 0 1 0一 6 2 1 _ 2 l稿件编号:0 1 2 1 2 10 0 9

就是说,如果使用两个单独但相关的序列为该算法定型。就

基金项目:南省教育厅资助项目( 0 8 5 0 2 )河 2 0 D 20 9

作者简介:海涛 (9 5 )男,南虞城人,王 16一,河高级讲师。研究方向:算机网络技术及数据挖掘研究。 计-

9 - 0

王海涛,等常用数据挖掘算法研究可以使用得到的模型根据其他序列的行为预测一个序列的结果。例如,个产品的实际销售额可能会影响另一个产品一的预测销售额。

更好地表示数据的分类。该算法将循环执行此过程。到它直不能再通过重新定义分类来改进结果为止。 聚类分析算法提供下列两种方法来计算点在分类中的适合程度:xett nMaii t n (M)和 K Men。对于 E pca o x z i E i m ao— as

在微软 V 2 0 S 0 5时序算法预测时,时间序列既可以是整型。可以是 1;时,可以显示历史预测数据,帮助也 3期同也以数据人员来分析算法的正确性 .因为历史数据必然是正确的。一般情况下,序算法只显示 5步,想预测更长时间的时若

E聚类分析,该算法使用一种统计方法来确定分类中存在 M数据点的概

率。对于 K M a s该算法使用距离度量值将数— en,据点分配给其最接近的分类。 生成分类时不使用其用法设置为只可预测的列。在生成分类后,计算这些 …… 此处隐藏:5551字,全部文档内容请下载后查看。喜欢就下载吧 ……

常用数据挖掘算法研究.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219