基于KNN算法的医药信息文本分类系统的研究

时间:2025-04-05

卷2 0 0

9 年片 4期月

(【 MPUTER’) TECHN( I X ANI ) ( Y )DEVEI(IM ENT )

计算机技术与发展

V ( 1 ) 9 1 (. )4 Ap 2 0 r 09

基于 KN N算法的医药信息文本分类系统的研究许幸,启蕊张(东药学院医药信息工程学院,东广州 5 0 0 )广广 1 0 6摘要:针对目前医药信息文本分类领域的现状,计并实现了一种基于 K N算法的医药信息文本分类系统。该系统充设 N

分利用了向量空间模型在表示方法上的优势和快速 K NN算法的特点,并采用逆向最大匹配分词方法进行分词,有效提可

高医药信息分类的准确性和信息处理效率。此外,构建了一个医药信息数据集,据集包含 52医药类文本,中训该数 8篇其练文本 4 3, 3篇测试文本 19,在该数据集上对医药信息文本分类系统进行了测试,到了 7 .3 4篇并得 48%的 F值。实验证 明,系统可以较好地实现医药信息文本分类。该 关键词:医药信息;本分类;文向量空间模型; N K N算法中图分类号: 3 1 TP 9文献标识码: A文章编号:6 3—6 9 2 0 )4—0 0 17 2 X( 0 9 0 2 6—0 4

Re e r h o e c lI o m a i n Te tCa e o i a i n s a c fM dia nf r to x tg r z toBa e n KNN g r t s do Al o ihmXU n Xig,Z HANG—u Qi i r( ol e f dcl nomai nier g G ag o gP a cui l ie i, un zo 10 6 C ia C lg i f t nE g ei, un dn hr eta Un r t G a gh u5 0 0, h ) e o Me a I r o n n ma c v sy nAb ta t De in n lme t se of dclno maintxt ae oiainbsdo sr c: s sa di e n sas tm g mp y me ia fr to e tg r t ae nKNN lo i m .Ths y tm sstege i c z o ag rt h is se u e h e— trs aemo e t e rsn e t sstefs o p c d l orp ee tatx。ue h a

tKNN loih oeasf e t n du e h e es xmu mac osg n h ag rt m t lsi atx,a sst erv r ma i m th t e me tt e y e wo d .Th rfr,i i o e h cu ayo dc ln o ma incasfct na dt eef in yo nomainpo e s g.I d t n, rs eeo e tmprv stea c rc f me ia fr t lsiiai h fie c fifr t rc si i o o n c o n na dio i c nt csad tsto dclifr t n icu ig5 2 meI ld c me t .whc sr d ml iie t riigs ticu ig4 3 o sr t aae fme ia omai n ldn 8 dc o u ns u n o i a ih i a o ydvdsi oatann e n ldn 3 n nd c me t d 1 9 d c m e t .Th y t m f d ia n o ma in t x ls ii t n i e t do u a a e d a Fl c r f 4. 3% i o u n sa 4 o u n s n esse o me c l f r t e tca sfc i t se n o rd t s ta o e o 8 i o ao S n s 7 S o t i e .Th e u ts o h e t r ca i c to e f r a c n me i l n o ma in. b an d e r s l h wst eb te ls f in p ro m n e o d c f r t i a a i o

Ke r s: dclifr ain;tx aeo iain;v co p c d l ywo d me i no a m to e tctg rzt o e trs aemo e;KNN lo t ag r h im

0引言 医药信息历史悠久,累积了巨量的信息资源,量大传统的纸质信息转为电子文档形式保存,它容纳了医药海量的各种类别的原始信息。同时,在互联网上,电子文档医药信息每天都在急剧增加。如何在浩如烟海而又纷繁芜杂的医药信息文本中以最快的速度、少最的时间、掌握最有效的信息?据 F r s R s r or t e ac e e h的统

效的信息获取手段。但这种人工分类的做法存在着许多弊端:一是耗费大量的人力、物力

和精力;二是分类结果一致性不高。因此,自动文本分类成为处理海量数据的关键技术 l 。

文本分类在自然语言处理与理解、信息管理与组织、内容信息过滤等领域都有着广泛的应用。在文本自动分类中,著名的文本分类分类方法有支持向量机 (u pr V c r ci,V、 S pot et h eS M)K最近邻 ( o Ma n K— N a— er et e ho, N、经网络 ( erl e ok N、 s N i brK N)神 g N ua N t r, N) w

计资料指出, O 8%以上的数据以非结构化的形式存在_。因此, 1 J对非结构化数据的处理尤其显得重要。 面对海量信息,传统的做法是,对网上的信息进行人工分类,并加以组织和整理,为人们提供一种相对有收稿日期:0 8—0—2 20 7 3

线性最小二乘估计 ( L F、 L S )贝叶斯算法 ( ae) Bys和决策树等 J。在这些方法中, NN是一种简单、 K有效、非参数的方法,当训练样本数增加时,其分类时间将急剧增加,当词库增加,分类精度也会增加。同时, NN方 K法也是一种基于实例的文本特征向量空间模型表示的分类方法l。 _ 4 J

基金项目:广东省医学科研基金资助项目( 2 0{ 8;东约学院 B 088)广}科研基金资助项目(0 7 GY I 20 Y 0 )作者简介:许幸( 94一)男, 18,广东罗定人,助理工程师,研究方向

目前关于文本分类的系统基本上都是通用的文本分类系统,没有专门针对医药信息的文本分类系统。

为医药信息处理;张启蕊,博士,讲师,研究方向为信息处理、文本分类。

第 4期

幸等:于 KN算法的医药信息文本分类系统的研究基 N

.2 7 . 0

文中研究的基于 K N算法的医药信息文本分类系 N统,针对医药信息文本自动分类而设计的系统,以是可

2医药自动文本分类系统文中设i ̄医药信息文本分类系统的训练和分类 -* t0 -模型如图 1示。该模型包括两个模块:练模块和所训

有效提高医药信息分类的准确性,大提高信息处理大效率,为医药信息搜索引擎提供基础。

分类模块。训练模块由预处理、文本表示、特征降维、 分类器和性能评价五个部分组成,分类模块由预处理、 文

本表示和分类器三个部分组成。

1 l N算法 KN K—N ae e h o)法 N( ers N i b r算 t g

是机器学习领域的经典算法,其基本思想相当直观:把未知类别实例与训练集中的每个实例进行比较,出最找邻近的 k个实例,通过选中的 k个实

: r……………………一练块………… …… 此处隐藏:5817字,全部文档内容请下载后查看。喜欢就下载吧 ……

基于KNN算法的医药信息文本分类系统的研究.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219