首页 | 本学科首页   官方微博 | 高级检索  
     

融合Wikipedia分类结构及显式语义特征的短文本检索
作者姓名:李璞  张志锋  杨百冰  肖宝  蒋运承
作者单位:郑州轻工业大学软件学院,河南 郑州,450000;北部湾大学电子与信息工程学院,广西 钦州,535000;华南师范大学计算机学院,广东 广州,510631
基金项目:国家自然科学基金;国家自然科学基金;博士科研基金;广西壮族自治区高等学校项目;钦州市科学研究与技术开发计划;广州市科技计划
摘    要:针对网络信息空间出现的大量短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,传统信息检索技术无法有效地对其进行处理的问题,本研究以语义关联度为出发点,基于当前主流的语义知识源Wikipedia来研究短文本检索技术。根据Wikipedia页面中包含的分类结构信息,提出一种显式语义特征选择及关联度计算方法。在此基础上,提出一种低维显式语义空间下的短文本检索方法,并通过实验测试验证了该方法的可行性和有效性。研究结果表明,本研究与当前基于图论的方法和基于链接的方法相比,分别在评估指标MAP上提高了6%和4. 1%,在P@30上提高了10. 4%和5. 8%,在R-Prec上提高了6. 1%和3%。

关 键 词:Wikipedia分类结构  显式语义特征  特征选择  短文本  信息检索
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号