文本分类中特征提取方法的比较与分析
时间:2025-07-12
时间:2025-07-12
文本分类中特征提取方法的比较与分析
研究与开发
文本分类中特征提取方法的比较与分析
屈军1,林旭2
广东省台山电视大学,台山529200;2、广东省工业贸易学校,佛山528000)(1、
摘
要:研究了在文本分类中,各种特征提取方法对分类效果的影响,比较了特征提取方法交叉
2
对文本分类器性能的影响,分析了这几种特熵(CE)、信息增益(IG)、互信息(MI)、及χ
征提取方法对SVM和KNN分类器性能的影响。
关键词:文本自动分类;KNN;SVM;特征提取
0引言
文本自动分类是根据一组事先知道类别的文档作为训练样本,建立一个分类模型,来求得未知类别的文档的类别。特征项的选择在文本分类系统中有比较充分的研究,基本方法是根据词汇在文档集中出现的频度来选取,一般的原则是,将文档中出现的词汇按频度排序,选取频度在一定范围内的词汇作为特征词。特征提取方法是文本自动分类中的一项关键技术和瓶颈技术,如何从原始文本特征集合中选择最能表示文本主题内容的特征子集,是文本特征提取算法的研究目标。目前,有多种特征抽取算法被用于文本自动分类的研究中,但这些算法都有其优点和缺点,没有公认的最优方法,需要针对具体系统进行对比来确定最优方法。特征选择可以从两个方面提高文本分类系统性能:一是分类速度,通过特征选择,可以大大减少特征集合中的特征数,降低文本向量的特征数,简化计算,防止过度拟合,提高系统运行速度;二是准确率,通过选择适当的特征,不但不会降低系统准确性,反而会使系统精度提高[1]。
目前,文本分类领域较常用的特征选择算法[2,3]
信息增益(Infor-有:文档频率(DocumentFrequency)、
2
统计(Chi-互信息(MutualInformation)、mationGain)、χ
IG考察c中出现和不出现t的文档频数来衡量t对于c的信息增益。特征t对于文档类别c的信息增益
IG(t,c)计算公式如下:
IG(t,c)=P(tk,ci)log
!P(tk,ci)!,c)logP(tk,ci)+P(tki
ik!)P(ci)P(tk
其中:C为某一类文档集合;!t表示特征t不出现。信息增益的不足之处在于它考虑了单词未发生的情
!,c)log况,即在式中的P(tki
!,c)P(tki
部分。虽然某个单!P(c)P(t)
i
k
词不出现也可能对判断文本类别有贡献,但实验证明,这种贡献往往远小于考虑单词不出现情况所带来的干扰。特别是在类分布和特征分布高度不平衡的情不况下,绝大多数类都是负类,绝大多数特征值都是“出现”的,此时信息增益大的特征主要是信息增益公式中后一部分(代表单词不出现情况)大,而非前一部分(代表单词出现情况)大,信息增益的效果就会大大降低了。
1.2期望交叉熵
CrossEntropyTxt(t)=P(t)"P(Cjt)log
j
P(Cjt)
j现代计算机(总第二五七期)
squareStatistic)、交叉熵法(CrossEntropy)、优势率(OddsRatio)等。
期望交叉熵是一种基于概率的方法。信息增益要求计算所有特征属性的值,而期望交叉熵则只计算出现在文档中的单词。其中P(Cjt)表示文本中出现词t时,文本属于Cj的概率,P(Cj)是类别出现的概率。如果词和类别相关,也就是P(Cjt)大,且相应的类别出现概率又小,则说明词对分类的影响大,相应的函数值就大,就很可能被选中作为特征项。交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离,特征词t的交叉熵
1常用特征选择算法
1.1信息增益
信息增益是一种在机器学习领域应用较为广泛的特征选择方法。它是从信息论角度出发,根据特征取值情况在划分学习样本空间时,以所获信息增益的多寡,来选择相应的特征。对于特征t和文档类别c,
NR2007.4
文本分类中特征提取方法的比较与分析
研究与开发
越大,对文本类别分布的影响也越大。
持向量机[10]、最大熵模型[11]等;基于连接的方法有人工神经网络;基于规则的方法有决策树、关联规则等。现在主要使用基于统计的方法,其中经过大量实验证明,SVM和KNN是性能比较优秀的分类器。
1.3互信息
在统计学中,互信息用于表征两个变量的相关性,常被用来作为文本特征相关的统计模型及其相关应用的标准。特征t与c类文档之间的相互信息MI(t,
2.1最近邻(KNN)
最近邻法是基于类比学习的一种方法。每个训练文档代表|F|维空间的一个点,这样所有的训练文档都存放在|F|维空间中。给定一个待分类文档di,k-最近邻法搜索模式空间,找出最接近待分类文档d的k个训练文档。这k个训练文档称为 …… 此处隐藏:5506字,全部文档内容请下载后查看。喜欢就下载吧 ……