首页 | 本学科首页   官方微博 | 高级检索  
     

基于改进的LogitBoost算法的垃圾网页检测研究
摘    要:实现垃圾网页的有效检测可以有效提高搜索引擎检索质量,促使网页的设计向着面向用户的方向发展。由于垃圾网页是面向搜索引擎设计的,正常网页是面向用户设计的,因而两者在特征方面存在众多区别,通过机器学习方法可以根据垃圾网页与正常网页在特征方面的不同对垃圾网页进行有效识别。通过对常见单分类器和集成学习分类器处理垃圾网页数据集的对比实验,发现集成学习方法 logitboost较为突出,所得结果明显优于单一分类器和常用集成学习算法,所得结果也更接近真实值,并通过对logitboost所用的预处理方法和基分类器进行改进,发现用resample对垃圾网页进行预处理,以REPTree算法为基分类器的logitboost算法对垃圾网页数据集的分类有较高的精确度。

本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号