基于TextRank和簇过滤的林业文本关键信息抽取研究 Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于TextRank和簇过滤的林业文本关键信息抽取研究

引用本文：	陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214，172.

作者姓名：	陈志泊李钰曼许福冯国明师栋瑜崔晓晖

作者单位：	北京林业大学信息学院,北京100083;中国联合网络通信集团有限公司,北京100033;中国电信系统集成有限责任公司,北京100035

基金项目：	国家自然科学基金项目（61772078）和北京林业大学热点追踪项目（2018BLRD18）

摘要：	目前,获取林业文本关键信息存在2个问题:关键信息获取主要从关键词角度考虑,忽略了词语的信息类型;网络上的林业文本没有统一的记述结构,词语信息类型提取困难。为此,本文提出了基于改进TextRank和簇过滤的林业文本关键信息抽取方法,以"关键词+信息类型"两部分表示文本关键信息。首先,抽取关键词并进行Word2Vec向量化,然后通过构建融合词语特征值、边权值的图模型对TextRank进行改进,对经迭代收敛得到的稳定图进行归并聚类形成簇;然后,设计簇品质评价公式进行簇过滤,再次应用TextRank形成最终簇集合;最后,对簇进行信息类型标注。对于测试文本,通过比较关键词向量和簇心向量的距离获得词语的信息类型,将信息类型与关键词结合得到文本的关键信息。基于2 000篇与林业政策新闻相关的林业文本进行实验,最终簇集合的紧密度为0. 968 0,间隔度为0. 057 2,综合评价指标为0. 887 1;对其中400篇文本进行关键词人工标注,将本文关键词抽取方法与TextRank、TF-IDF等6种算法进行比较,结果表明,本文方法在MRR、Bpref、准确率和综合评价指标上均获得了较好的效果,说明本文方法在提取林业文本关键词方面具有优势。
关键词：	林业文本关键词抽取 TextRank 簇过滤信息类型
收稿时间：	2019/12/31 0:00:00
Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering

CHEN Zhibo,LI Yuman,XU Fu,FENG Guoming,SHI Dongyu,CUI Xiaohui.Key Information Extraction of Forestry Text Based on TextRank and Clusters Filtering[J].Transactions of the Chinese Society of Agricultural Machinery,2020,51(5):207-214，172.

Authors:	CHEN Zhibo LI Yuman XU Fu FENG Guoming SHI Dongyu CUI Xiaohui

Institution:	Beijing Forestry University;China United Network Communications Group Co., Ltd.,;China Telecom System Integration Co., Ltd.

Abstract:

Keywords:	forestry text keywords extraction TextRank clusters filtering information types
本文献已被 CNKI 万方数据等数据库收录！
	点击此处可从《农业机械学报》浏览原始摘要信息
	点击此处可从《农业机械学报》下载免费的PDF全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏