基于Web日志文件的关联规则挖掘模块的实现

时间:2025-03-10

基于Web日志文件的关联规则挖掘模块的实现

第2卷 1

第 9期

计算机技术与发展COMP ER CHNOL UT TE OGY AND DEVEL MENT OP

Vo _ N . l21 o9S p. 2 e 011

2 1年 9月 01

基于 We b日志文件的关联规则挖掘模块的实现米娜瓦尔 拉合买提玛依拉 别克强塔依娃张太红 努,,,

曾明2O m rR Z i e , s a. . a n a(. 1新疆农业大学计算机与信息工程学院,新疆乌鲁木齐 805; 302 2西安交通大学软件学院, .陕西西安 704; 109

3阿尔伯塔大学计算机科学系, .埃德蒙顿 T G2 1 6 E )摘要:在对 We应用挖掘的基本步骤作系统性研究的基础上, b设计了一个基于 We b日志文件的关联规则挖掘模块。该

系统应能够对用户访问 We时服务器方留下的访问记录进行挖掘,中得出用户的访问模式和访问兴趣。为了识别用户 b从

浏览模式,现了利用关联规则挖掘算法 A rr对 We应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的实 pi i o b模块,模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之问的强关联规则,以文本的形式显该并示挖掘的结果。 关键词:用户访问序列文件;联规则;关最小支持度;小置信度最中图分类号 _P 1, 30 T文献标识码: A文章编号: 7— 2X(0 10—0 1o 1 3 69 2 1 )9 05一 4 6

I plm e a in fAs o ito M i n o e m e nt to o s ca in ni g M d l

Ba e n W e g F l s d o b Lo i eN L H MA T Min war, IKE I NG AY WA — i Z A a— o g, U A E I I — a e B E Q A T I Ma yl, H NG T ih n aZENG i g Os r R. in M n - ma . Za a e

( . ol eo o u radIfr t nE gneig X ni gA r u ua U iesy U 1C lg f mp m n omao n i r, i a gi l rl nvr t, mmq 80 5, hn; e C n i e n j n ct i i 30 2 C ia 2 S f r n i e r g S h o, ' i oo g

Un v r i Xia 1 0 9, h n; . o t e E g n e n c o l Xia Ja t n i e st wa i n y。 ' 7 0 4 C i a n

3 D pr n f o u n cec。 br nvri。 d n nT G 2 lC nd ) . eat t mp t gSineAl t U esy E mo t 6 E, a aa me o C i ea i t o

Ab t a t Un e l i h y t ma c su is o h a i tp f W e s g n n 0 i lme ta v s a e s g n n y t m。 s r c: d ryng t e s s e t t d e n te b sc se s o b u a e mi i g t mp e n iu lW b u a e mi i g s se i

whc smanyusd t m n he W e lg a c s il ha c urd fo te W e e v r g tteu e iiigp t r sa d vst g itr ihi il e o i et b o c esf et taq i e rm h b sr e,e h srvst atn n iin ne- n e ie t. n r e O i e t y t e n v g t na patr so e i ii r - r r g rt m s u e n t e mi i g o e u e e so l a ss I o d r t d n i a i a o l t n fW b s t v st s Ap i ia o i f h i e e o o l h i s d o n n ft s rs s i n f e t t h h i h ha e n g n r t d at rt e d t r—p o e sn r c s nt eW e l gfl .Th s o it s b e e e ae f h a a p e r c si g p o e s o h e b o i e e a s c ai onmi i g mo e alb s d t e e a t e nn d lc l e u e o g n r t h e fe u n t ms t a t f em n mum u p r r s o d a d sr n s o ito ue e we n s l ce a e h ts t f e b m n— r q e ti e s t ts i y t i e h a s h i s p o tt e h l t g a s c a i n r l sb t e ee t d p g st a ai y t o mi i h n o s h mu c n i

e c n n mu s p r h e h l s n ip a e a s ca o l smi i g r s l y t x . m o fd n e a d mi i m u p tt r s o d -a d d s ly t s o it n r e n n e u t b e t o h i u s Ke r s: s rv s n e u n e fl a s i t n r l mii m o f d n e; n mu s p o y wo d u ii g sq e c e; s o a i e; n mu c n i e c mi i m u p r e i t i c o u t

O引言 数据挖掘中最基本的方法是关联规则挖掘,目其 标是把数据项之间的关联从数据集中挖掘出来。 可以将关联规则用于从 We b日志文件中通过预处理获得用户会话事务文件,在会话事务 1中出现了收稿日期:0 1 0一 1修回日期:0 1 0— 7 21— l2; 2 1— 4 2

U L集 A, R在事务 2中出现了 U L集 B, R在事务 3中同时出现了 U L集 A和 B。能否发现 U L集 A和 B R R 在这三个事务中出现的互相之间的规律呢?答案当然

是肯定的。要解决这个问题可以通过关联规则挖掘来找到 U L集 A和 B在这三个事务之中出现的规律。 R

进一步说,关联规则通过概率来描述出现 U L集 A R对出现 U L集 B的影响,,问 U L集 A的用户 R即访 R访问 U L集 B的可能性有多少。 R

基金项目:新疆维吾尔自治区电子信息发展专项资金项目( J Z X XD ZZ2 19 J00 )

作者简介:米娜瓦尔 努拉合买提( 9 0 )女( 17一,维吾尔族 )工程硕,士,讲师,研究方向为 W b e数据挖掘可视化。

1关联规则简介对于一个关联规则,以从置信度和支持度两个可

基于Web日志文件的关联规则挖掘模块的实现

5 2

计算机技术与发展

第 2卷 1

角度来进行研究,支持度表示项在全部数据库中占的比例,置信度表示了规则的强度,中同时满足最小支其持度和置信度的规则叫做强关联规则]。1 1置信度 .

者访问顺序的文件 v i sq e . t即:问者在一 it enw t,访 s— x个会话中所浏览过的 We页序列。 b 下面就以本系统在挖掘过程中所采用的数据文件说明预处理后文件所包含的数据以及每一行数据所代表的含义:

规则即:

y在事

务集中的置信度是指支持和 Y

的事务数与支持的事务数之比。

( ) itsqe . t 1 Vs—en w t中的每一行数据为某一个访 i x问者访问的页面编号序列:

c n(:{。dc=)』 nee y 并集, r为所有用户会话事务的集合。

( )

2 3 3, 2 4 6 6 6, 2 3 7 5 6 5 2,2 0 6 5 7 6 53 2 3 2, 2 3 2 3 2, 6 8 2 7, 6 8 6 5 7, 6 8 2 3 3

式中:为事务项集, y为事务项集,是一组 U L t R项, u y为包含和 y的事务, 也就是项集和 y的公式 ( )明, 1说设中 …… 此处隐藏:8993字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于Web日志文件的关联规则挖掘模块的实现.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219