首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于TextRank和簇过滤的林业文本关键信息抽取研究
引用本文:陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214,172.
作者姓名:陈志泊  李钰曼  许福  冯国明  师栋瑜  崔晓晖
作者单位:北京林业大学信息学院,北京100083;中国联合网络通信集团有限公司,北京100033;中国电信系统集成有限责任公司,北京100035
基金项目:国家自然科学基金项目(61772078)和北京林业大学热点追踪项目(2018BLRD18)
摘    要:目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以"关键词+信息类型"两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2 000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0. 968 0,间隔度为0. 057 2,综合评价指标为0. 887 1;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF-IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。

关 键 词:林业文本  关键词抽取  TextRank  簇过滤  信息类型
收稿时间:2019/12/31 0:00:00

Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering
CHEN Zhibo,LI Yuman,XU Fu,FENG Guoming,SHI Dongyu,CUI Xiaohui.Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering[J].Transactions of the Chinese Society of Agricultural Machinery,2020,51(5):207-214,172.
Authors:CHEN Zhibo  LI Yuman  XU Fu  FENG Guoming  SHI Dongyu  CUI Xiaohui
Institution:Beijing Forestry University;China United Network Communications Group Co., Ltd.,;China Telecom System Integration Co., Ltd.
Abstract:
Keywords:forestry text  keywords extraction  TextRank  clusters filtering  information types
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《农业机械学报》浏览原始摘要信息
点击此处可从《农业机械学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号