网络环境下文本自动分类方法研究综述(2)

发布时间:2021-06-06

第5期鸡西大学学报2009年

chio)结合起来,形成融合的分类器。研究人员通过实验度和准确率与最终的分类结果密切相关。尤其是web证明了这种基于依赖的贝叶斯方法比基于BKS的方法上不断出现新词汇,对分词理论的创新和词典的构造都性能好。Langdon等人对基于遗传编程的分类器融合技提出了较高的要求。

术进行了一系列的研究,其中主要研究了同类型分类器3.将自然语言理解和处理技术、语义Web概念、A.的融合(比如多个神经网络分类器的融合)。

gent技术和机器翻译等技术应用于Web文本分类中,进2.基于模糊一粗糙集的文本分类模型。

一步解决中文文本分类的难点,提高文本分类的智能化文本分类过程中由于同义词、多义词、近义词的存在水平。

导致许多类并不能完全划分开来,造成类之间的边界模4.目前存在多种成熟的文本分类算法,大部分分类糊。此外交叉学科的发展,使得类之间出现重叠,于是造系统都是应用某一种分类算法,分类性能受到制约。

成许多文本信息并非绝对属于某个类。这两种情况均会随着全球网络化和信息化的迅猛发展,文本自动分导致分类有偏差,针对上述情形,有学者提出利用粗糙一类作为知识发现的重要分支,已成为众多领域研究者的模糊集理论结合KNN方法来处理在文本分类问题中出热门研究课题,吸引着越来越多研究者的关注。尽管文现的这些偏差。模糊一粗糙集理论有机地结合了模糊集本自动分类方法还存在着不少问题,但是文本分类技术理论与粗糙集理论在处理不确定信息方面的能力,反映有着广泛的应用,逐渐趋于实用。随着人工智能、机器了由于类别之间的重叠体现出的隶属边界的模糊性。

学习、数据挖掘、进化计算、模糊集和粗糙集等领域的发3.潜在语义分类模型。

展,分类方法将向着更加高级、更加综合化和更加多样化潜在语义索引方法,已经被证明是对传统的向量空的方向发展。

间技术的一种改良,可以达到消除词之间的相关性,化简文档向量的目的,然而LSI在降低维数的同时也会丢失一些关键信息。LSI基于文档的词信息来构建语义空间,参考文献

得到的特征空间会保留原始文档矩阵中最主要的全局信1.朱靖波陈文亮:基于领域知识的文本分类[J].东息。但在某些情况下,一些对待定类别的正确分类非常北大学学报,2005,26(8):733—736

重要的特征,因为放在全局下考虑显得不重要,而在维数2.YeNong.LiXiangyang.Amachinelearningalgo-约减的过程中被滤掉;该情况对稀有类别尤为明显。事rithmbasedon

supervisedclusteringandclassification.In:

实上也是,稀有类中出现的词很可能是整个文档集中的“uJ,etal,eds.AMT2001,LNCS2252,2001.327—

稀有词,那么被滤掉的可能性就很大了。这样,就可以得334

到比LSI模型的语义空间更适合文本分类的语义空间。

3.VapnicV.TheNatureofStatisticalLearning

Theory

通过以上分析,可以看出文本分类方法存在以下几[M].New

York:Springer—Verlag,1995

种发展趋势:一是新分类方法不断涌现,比如基于群的分4.JoachimsT.TextCategorizationwithSupportVector

类方法和基于粒度计算的分类方法;二是传统分类方法Machines:LearningwithManyRelevantFeatures[J].Pro—

的进一步发展,比如支持向量机的不断改进和KNN方法ceedingsofthe10thEuropeanConference

on

MachineLearn-

的发展;三是根据实际问题需要,有针对性地综合众多领ing,Lecture

NotesIn

ComputerScience,1998,1398:137

域的技术,以提高分类的性能。

—142

当前我国文本信息自动分类研究存在的问题5.JoachimsT.MakingLarge—ScaleSVMLearning

目前在国内也已经开始对中文文本分类方法进行研Practical[A].B.Seh?Lkopfand

c.Burges

and

A.Smo-

究,虽然在研究过程中不断有新的理论和方法产生,但还la,AdvancesinKemdMethodsSupportVeetorLearning

是存在着一些问题有待进一步研究和改进。

[C],eds.,Cambridge,MA,USA:MIT—Press,1999

1.由于中文文本分类起步晚和中文不同于英文的特6.付雪峰王明文:基于模糊一粗糙集的文本分类方性,目前中文Web文本分类还没有标准的、开放的文本法[J].2004年度全国搜索引擎和网上信息挖掘学术研测试集,各研究者大多使用自己建立的文本集进行训练讨会,华南理工大学学报(自然科学版),2004,32:

和测试,其分类结果没有可比性,不利于交流和提高。

73—.76

2.分词是影响文本分类的重要因素之一,分词的速

Review

on

AutomaticTextCategorizationMethodsUndertheNetworkEnvironment

Wn

Bo

Abstract:。11learticleintroducedtheprocessoftheautomatic

text

categorizationunderthenetworkenvironment,especially

thestudyingmethodfor

text

categorization.Itdiscussesthe

current

researchdeficiencyandthedevelopmenttrendinthefuture.

Keywords:textcategorization;categorizemethod;categorization;networkenvironment

ClassNo.:G254.0

DocumentMark:A

(责任编辑:韩新君郑英玲)

152

网络环境下文本自动分类方法研究综述(2).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219