基于RoBERTa多特征融合的棉花病虫害命名实体识别 |
| |
作者姓名: | 李东亚 白涛 香慧敏 戴硕 王震鲁 陈珍 |
| |
作者单位: | 1. 新疆农业大学计算机与信息工程学院;2. 智能农业教育部工程研究中心;3. 新疆农业信息化工程技术研究中心;4. 新疆科信职业技术学院 |
| |
摘 要: | 针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。
|
关 键 词: | 棉花 病虫害 RoBERTa模型 命名实体识别 多特征融合 多头注意力机制 |
|