融合Wikipedia分类结构及显式语义特征的短文本检索 |
| |
作者姓名: | 李璞 张志锋 杨百冰 肖宝 蒋运承 |
| |
作者单位: | 郑州轻工业大学软件学院,河南 郑州,450000;北部湾大学电子与信息工程学院,广西 钦州,535000;华南师范大学计算机学院,广东 广州,510631 |
| |
基金项目: | 国家自然科学基金;国家自然科学基金;博士科研基金;广西壮族自治区高等学校项目;钦州市科学研究与技术开发计划;广州市科技计划 |
| |
摘 要: | 针对网络信息空间出现的大量短文本具有长度短、信息量少、特征稀疏、语法不规则等特点,传统信息检索技术无法有效地对其进行处理的问题,本研究以语义关联度为出发点,基于当前主流的语义知识源Wikipedia来研究短文本检索技术。根据Wikipedia页面中包含的分类结构信息,提出一种显式语义特征选择及关联度计算方法。在此基础上,提出一种低维显式语义空间下的短文本检索方法,并通过实验测试验证了该方法的可行性和有效性。研究结果表明,本研究与当前基于图论的方法和基于链接的方法相比,分别在评估指标MAP上提高了6%和4. 1%,在P@30上提高了10. 4%和5. 8%,在R-Prec上提高了6. 1%和3%。
|
关 键 词: | Wikipedia分类结构 显式语义特征 特征选择 短文本 信息检索 |
本文献已被 CNKI 万方数据 等数据库收录! |
|