首页 | 本学科首页   官方微博 | 高级检索  
     

基于TextRank和簇过滤的林业文本关键信息抽取研究
引用本文:陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖. 基于TextRank和簇过滤的林业文本关键信息抽取研究[J]. 农业机械学报, 2020, 51(5): 207-214,172
作者姓名:陈志泊  李钰曼  许福  冯国明  师栋瑜  崔晓晖
作者单位:北京林业大学信息学院,北京100083;中国联合网络通信集团有限公司,北京100033;中国电信系统集成有限责任公司,北京100035
基金项目:国家自然科学基金项目(61772078)和北京林业大学热点追踪项目(2018BLRD18)
摘    要:目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以关键词+信息类型两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2 000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0. 968 0,间隔度为0. 057 2,综合评价指标为0. 887 1;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF-IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。

关 键 词:林业文本  关键词抽取  TextRank  簇过滤  信息类型
收稿时间:2019-12-31

Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering
CHEN Zhibo,LI Yuman,XU Fu,FENG Guoming,SHI Dongyu,CUI Xiaohui. Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5): 207-214,172
Authors:CHEN Zhibo  LI Yuman  XU Fu  FENG Guoming  SHI Dongyu  CUI Xiaohui
Affiliation:Beijing Forestry University;China United Network Communications Group Co., Ltd.,;China Telecom System Integration Co., Ltd.
Abstract:
Keywords:forestry text  keywords extraction  TextRank  clusters filtering  information types
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《农业机械学报》浏览原始摘要信息
点击此处可从《农业机械学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号