基于Web日志文件的关联规则挖掘模块的实现

时间：2026-05-08

基于Web日志文件的关联规则挖掘模块的实现

第2卷 1

第 9期

计算机技术与发展COMP ER CHNOL UT TE OGY AND DEVEL MENT OP

Vo _ N . l21 o9S p. 2 e 011

2 1年 9月 01

基于 We b日志文件的关联规则挖掘模块的实现米娜瓦尔拉合买提玛依拉别克强塔依娃张太红努，,,

曾明2O m rR Z i e , s a. . a n a(. 1新疆农业大学计算机与信息工程学院，新疆乌鲁木齐 805; 302 2西安交通大学软件学院， .陕西西安 704; 109

3阿尔伯塔大学计算机科学系， .埃德蒙顿 T G2 1 6 E )摘要：在对 We应用挖掘的基本步骤作系统性研究的基础上， b设计了一个基于 We b日志文件的关联规则挖掘模块。该

系统应能够对用户访问 We时服务器方留下的访问记录进行挖掘，中得出用户的访问模式和访问兴趣。为了识别用户 b从

浏览模式，现了利用关联规则挖掘算法 A rr对 We应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的实 pi i o b模块，模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之问的强关联规则，以文本的形式显该并示挖掘的结果。关键词：用户访问序列文件；联规则；关最小支持度；小置信度最中图分类号 _P 1, 30 T文献标识码： A文章编号： 7— 2X(0 10—0 1o 1 3 69 2 1 )9 05一 4 6

I plm e a in fAs o ito M i n o e m e nt to o s ca in ni g M d l

Ba e n W e g F l s d o b Lo i eN L H MA T Min war, IKE I NG AY WA — i Z A a— o g, U A E I I — a e B E Q A T I Ma yl, H NG T ih n aZENG i g Os r R. in M n - ma . Za a e

( . ol eo o u radIfr t nE gneig X ni gA r u ua U iesy U 1C lg f mp m n omao n i r, i a gi l rl nvr t, mmq 80 5, hn; e C n i e n j n ct i i 30 2 C ia 2 S f r n i e r g S h o, ' i oo g

Un v r i Xia 1 0 9, h n; . o t e E g n e n c o l Xia Ja t n i e st wa i n y。 ' 7 0 4 C i a n

3 D pr n f o u n cec。 br nvri。 d n nT G 2 lC nd ) . eat t mp t gSineAl t U esy E mo t 6 E, a aa me o C i ea i t o

Ab t a t Un e l i h y t ma c su is o h a i tp f W e s g n n 0 i lme ta v s a e s g n n y t m。 s r c: d ryng t e s s e t t d e n te b sc se s o b u a e mi i g t mp e n iu lW b u a e mi i g s se i

whc smanyusd t m n he W e lg a c s il ha c urd fo te W e e v r g tteu e iiigp t r sa d vst g itr ihi il e o i et b o c esf et taq i e rm h b sr e,e h srvst atn n iin ne- n e ie t. n r e O i e t y t e n v g t na patr so e i ii r - r r g rt m s u e n t e mi i g o e u e e so l a ss I o d r t d n i a i a o l t n fW b s t v st s Ap i ia o i f h i e e o o l h i s d o n n ft s rs s i n f e t t h h i h ha e n g n r t d at rt e d t r—p o e sn r c s nt eW e l gfl .Th s o it s b e e e ae f h a a p e r c si g p o e s o h e b o i e e a s c ai onmi i g mo e alb s d t e e a t e nn d lc l e u e o g n r t h e fe u n t ms t a t f em n mum u p r r s o d a d sr n s o ito ue e we n s l ce a e h ts t f e b m n— r q e ti e s t ts i y t i e h a s h i s p o tt e h l t g a s c a i n r l sb t e ee t d p g st a ai y t o mi i h n o s h mu c n i

e c n n mu s p r h e h l s n ip a e a s ca o l smi i g r s l y t x . m o fd n e a d mi i m u p tt r s o d -a d d s ly t s o it n r e n n e u t b e t o h i u s Ke r s: s rv s n e u n e fl a s i t n r l mii m o f d n e; n mu s p o y wo d u ii g sq e c e; s o a i e; n mu c n i e c mi i m u p r e i t i c o u t

O引言数据挖掘中最基本的方法是关联规则挖掘，目其标是把数据项之间的关联从数据集中挖掘出来。可以将关联规则用于从 We b日志文件中通过预处理获得用户会话事务文件，在会话事务 1中出现了收稿日期：0 1 0一 1修回日期：0 1 0— 7 21— l2; 2 1— 4 2

U L集 A, R在事务 2中出现了 U L集 B, R在事务 3中同时出现了 U L集 A和 B。能否发现 U L集 A和 B R R 在这三个事务中出现的互相之间的规律呢？答案当然

是肯定的。要解决这个问题可以通过关联规则挖掘来找到 U L集 A和 B在这三个事务之中出现的规律。 R

进一步说，关联规则通过概率来描述出现 U L集 A R对出现 U L集 B的影响，,问 U L集 A的用户 R即访 R访问 U L集 B的可能性有多少。 R

基金项目：新疆维吾尔自治区电子信息发展专项资金项目( J Z X XD ZZ2 19 J00 )

作者简介：米娜瓦尔努拉合买提( 9 0 )女( 17一，维吾尔族 )工程硕，士，讲师，研究方向为 W b e数据挖掘可视化。

1关联规则简介对于一个关联规则，以从置信度和支持度两个可

基于Web日志文件的关联规则挖掘模块的实现

5 2

计算机技术与发展

第 2卷 1

角度来进行研究，支持度表示项在全部数据库中占的比例，置信度表示了规则的强度，中同时满足最小支其持度和置信度的规则叫做强关联规则]。1 1置信度 .