首页 | 本学科首页   官方微博 | 高级检索  
     

文本分类中特征提取方法的比较与研究
引用本文:郑伟,王锐. 文本分类中特征提取方法的比较与研究[J]. 河北北方学院学报(自然科学版), 2007, 23(6): 51-55
作者姓名:郑伟  王锐
作者单位:河北北方学院理学院物理系,河北,张家口,075000;河北北方学院理学院计算机系,河北,张家口,075000
摘    要:介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.

关 键 词:文本分类  互信息  信息增益  SVM  特征提取
文章编号:1673-1492(2007)06-0051-04
修稿时间:2007-09-17

Comparative Study of Feature Selection in Chinese Text Categorization
ZHENG Wei,WANG Rui. Comparative Study of Feature Selection in Chinese Text Categorization[J]. JournalofHebeiNorthUniversity(NaturalScienceEdition), 2007, 23(6): 51-55
Authors:ZHENG Wei  WANG Rui
Abstract:The critical technique of text categorization,and especially the method about selection of text feather are introduced.Choosing SVM as the method of text classifion training and the different methods in selection of text feather,we compare and analyze the categorization capacity which is moded of different methods about selection of text feather by experiment.We can get the conclusion that IG and WET are the best methods of text feather selection,which will lay solid foundations of theory and pratice.
Keywords:text categorization  Mutual Information  Information Gain  SVM  feather selection
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号