基于词向量与多特征融合的农业文本自动标引研究 |
| |
引用本文: | 香慧敏,白涛,李东亚,马楠.基于词向量与多特征融合的农业文本自动标引研究[J].新疆农业大学学报,2022(6):486-492. |
| |
作者姓名: | 香慧敏 白涛 李东亚 马楠 |
| |
作者单位: | 1. 新疆农业大学计算机与信息工程学院;2. 新疆农业信息化工程技术研究中心 |
| |
摘 要: | 针对TF-IDF算法未考虑到文本关键词分布以及受不均衡数据集影响的问题,提出了一种多特征融合的术语频率-逆文档逆词频率(TF-IDIWF)自动标引算法,并与TF-IDF、TF-IWF、TextRank、LSI及LDA基线算法进行对比验证。利用python爬虫技术获取20万条农业文本语料以csv文件格式存储,用于训练农业词向量模型,随机抽取政策法规类、新闻资讯类、市场类、科技类文章各1 000篇并进行多人独立标注,标注词个数为5~13个,将标注结果整合归纳后生成AGRI2020农业文本均衡数据集。为验证TF-IDIWF算法能否降低不均衡数据集带来的影响,从AGRI2020中随机抽取新闻资讯类1 000篇,其余3个类别各100篇构建出农业文本不均衡数据集。首先利用TF-IDF融合词向量技术对分词后的词语进行过滤、筛选以及近义词归并,再引入词位置、词性及词跨度特征权重融合逆文档频率及逆词频率对农业文本进行关键词自动标引。结果表明,在不均衡数据集上的F1值为57.08%,相较于TF-IDF、TF-IWF算法分别提高了9.12%、1.24%;在均衡数据集上的平均F1值为60.80%,相较于TF-...
|
关 键 词: | 词向量 多特征融合 TF-IDIWF 自动标引 农业文本 |
|
|