一种基于文本分类的特征选择方法
发布时间:2024-11-18
发布时间:2024-11-18
一种基于文本分类的特征选择方法
白似雪;陆萍
【期刊名称】《南昌大学学报(工科版)》
【年(卷),期】2008(030)001
【摘要】文本分类中通常采用向量空间模型(VSM)来表示文本特征,如何选择最能够表达文本主题的特征词,从而减少特征空间维数,降低时空复杂度,是一个十分重要的问题.针对此问题本文提出了采用截集模糊C-均值(S2FCM)聚类进行类间特征降维,该方法以最大隶属度原则为指导,在保持模糊聚类的同时,提高收敛速度,并且能够提高特征选择的正确性.同时在算法中使用改进的隶属度、聚类中心计算方法并使用非随机方法确定初始聚类中心.最后实验表明采用该方法选择的文本特征项进行文本分类能够收到比较好的分类结果.
【总页数】4页(87-90)
【关键词】截集;特征词;VSM;模糊聚类
【作者】白似雪;陆萍
【作者单位】南昌大学,计算机科学与技术系,江西,南昌,330031;南昌大学,计算机科学与技术系,江西,南昌,330031
【正文语种】中文
【中图分类】TP391.4
【相关文献】
1.一种基于区分能力的多类不平衡文本分类特征选择方法 [J], 张延祥; 潘海侠
2.文本分类中一种基于互信息改进的特征选择方法 [J], 田野; 郑伟
3.一种基于改进信息增益特征选择的最大熵模型文本分类方法 [J], 何明