首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到12条相似文献,搜索用时 211 毫秒
1.
基于BERT的多特征融合农业命名实体识别   总被引:2,自引:2,他引:0  
命名实体识别是农业文本信息抽取的重要环节,针对实体识别过程中局部上下文特征缺失、字向量表征单一、罕见实体识别率低等问题,提出一种融合BERT(Bidirectional Encoder Representations from Transformers,转换器的双向编码器表征量)字级特征与外部词典特征的命名实体识别方法。通过BERT预训练模型,融合左右两侧语境信息,增强字的语义表示,缓解一词多义的问题;自建农业领域词典,引入双向最大匹配策略,获取分布式词典特征表示,提高模型对罕见或未知实体的识别准确率;利用双向长短时记忆(Bi-directional Long-short Term Memory,BiLSTM)网络获取序列特征矩阵,并通过条件随机场(Conditional Random Field,CRF)模型生成全局最优序列。结合领域专家知识,构建农业语料集,包含5 295条标注语料,5类农业实体。模型在语料集上准确率为94.84%、召回率为95.23%、F1值为95.03%。研究结果表明,该方法能够有效识别农业领域命名实体,识别精准度优于其他模型,具有明显的优势。  相似文献   

2.
为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer, BERT)和残差结构(residual structure, RS)融合的命名实体识别模型(bert based named entity recognition with residual structure,BBNER-RS)。通过BERT模型将文本映射为字符向量,利用双向长短时记忆网络(bi-directional long-short term memory, BiLSTM)提取局部字符向量特征,并采用RS保留BERT提供的全局字符向量特征,以提高字向量的语义丰富度,最后通过条件随机场(conditional random field, CRF)模型对特征向量解码,获取全局最优序列标注。与其他命名实体识别模型相比,提出的BBNER-MRS模型在葡萄数据集上表现较好,在葡萄人民日报、玻森、简历和微博数据集上F1值分别达到89...  相似文献   

3.
基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别   总被引:1,自引:1,他引:0  
字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要。为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法。该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列。训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题。试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别。结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%。  相似文献   

4.
在渔业标准文本中,定量指标识别对标准内容服务具有重要的意义,针对目前常用的命名实体识别方法对渔业标准定量指标识别准确率不高的问题,该研究提出了融合注意力机制与BERT+BiLSTM+CRF(BidirectionalEncoder Representations from Transformers+Bi-directional Long Short-Term Memory+Conditional Random Field,来自转换器的双向编码器表征量+双向长短时记忆网络+条件随机场)模型的渔业标准定量指标识别方法,该方法将渔业标准中定量指标拆分为指标名、指标值、单位、限制词4类实体,通过分析渔业标准语料的特点发现位置信息对指标名等实体识别效果具有重要影响,首先利用BERT模型中位置向量信息提高指标名等实体的识别效果,其次采用BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)模型学习渔业标准文本定量指标中长序列语义特征,然后再将注意力机制与BERT+BiLSTM模型进行融合以解决长序列语义稀释问题,最后利用CRF(Conditional Random Field,条件随机场)层得到预测序列标签。试验结果表明,融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别准确率为94.51%、召回率为96.37%、F1值为95.43%,研究表明,该方法解决了渔业标准定量指标识别准确率不高的问题,可以比较准确地识别由指标名、指标值、单位、限制词组成的渔业标准定量指标,是一种有效的渔业标准定量指标识别方法,可为农业、医学、生物等其他领域定量指标命名实体识别提供新思路。  相似文献   

5.
郝志刚  刘冲  秦丽 《农业工程学报》2023,39(14):283-292
在对中文食品抽检公告进行实体与关系抽取时,常会出现包含大量食品名称与食品分类的长句,现有深度学习模型在进行实体关系抽取时,只将文本看作一串字词序列来编码,当句子较长且词间距离过大时,词间强依赖关系的学习效果会减弱。而这一问题在食品领域的实体关系抽取中少有被关注,所以该研究提出基于改进中文依存句法树与多特征融合的实体关系联合抽取模型(TAG-JE),该模型将词间具有的强依赖关系通过句法依存树建立关系图,再根据中文BERT编码的字处理模式,将关系图转化为字邻接图,再由图神经网络学习字邻接图的结构特征,最后将之与BERT提取的文本上下文特征融合,融合权重通过门网络结构自主调节,以获得公告文本的多特征融合特征表示。获得的融合特征将采用主流的联合抽取模型进行实体与关系的抽取,并在关系判断时使用强化学习训练的关系选择器来优化关系的嵌入信息,以提升联合抽取方法在关系判断上的准确率。为了验证TAG-JE的效果,将其与主流的深度学习模型在自建的非结构化食品抽检公告数据集上进行了抽取效果对比,结果证明TAG-JE的精确率、召回率与F1值分别达到90.86%,90.50%,90.68%,相对其他基线模型都有较大提升,证明了其在中文食品抽检文档中的知识挖掘能力。针对中文公共数据集的试验中,该模型相对GraphRel与CasRel这些经典联合抽取模型也取得更好的结果,证明TAG-JE也有较好的泛化效果。研究结果可为食品安全中文知识图谱的构建提供技术参考。  相似文献   

6.
采用融合规则与BERT-FLAT模型对营养健康领域命名实体识别   总被引:2,自引:2,他引:0  
人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤。虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息。针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食物、营养物质、人群、部位、病症和功效作用6类实体。首先通BERT模型将字符信息和词汇信息进行嵌入以提高模型对实体类别的识别能力,再通过位置编码与词汇边界信息结合的Transformer模型进行编码以提高模型对实体边界的识别效果,利用CRF(Coditional Random Field,条件随机场)获取字符预测序列,最后通过规则对预测序列进行修正。试验结果表明,融合规则与BERT-FLAT模型的人类营养健康领域识别的准确率为95.00%,召回率为88.88%,F1分数为91.81%。研究表明,该方法是一种有效的人类营养健康领域实体识别方法,可以为农业、医疗、食品安全等其他领域复杂命名实体识别提供新思路。  相似文献   

7.
知识图谱本质上是基于图的语义网络,表示实体与实体之间的关系,在知识问答、语义检索等领域起着至关重要的作用。针对目前水产病害领域存在实体关系交叉关联、多源异构数据聚合能力差、利用率低、知识共享困难等问题,该研究基于自然语言处理和文本挖掘提出了一个基于神经网络深度学习模型的水产病害专业领域知识图谱构建方法并进行试验验证。首先,构建水产病害专业领域本体,并预定义实体类型、属性和关系的集合,确定知识抽取边界;其次,在本体基础上,分别利用规则方法和深度学习方法对半结构化和非结构化知识进行抽取。对于非结构化知识,提出“水产病害+关系+BMES”文本标注体系,将关系抽取融合于命名实体识别任务中直接对三元组建模,将实体关系抽取转化为序列标注问题,不仅提高标注效率,还实现了实体和关系的联合抽取。同时通过标签匹配和映射对三元组建模获得RDF数据,解决了重叠关系抽取的难题。利用BERT-BiLSTM+CRF端到端模型进行试验,试验结果证明该三元组抽取方法具有较高的召回率(89.64%),准确率(94.04%)和F1值(91.34%),优于CNN+BiLSTM+CRF和BiLSTM+CRF等模型,抽取效果有了显著提升,并将抽取到的知识存储到 Neo4j 图数据库中,实现知识可视化管理及知识推理分析。该研究构建的水产病害知识图谱精度高、粒度细,能够帮助机器理解数据、解释现象、知识推理,从而发掘深层关系、实现智慧搜索与智能交互。  相似文献   

8.
用BERT和改进PCNN模型抽取食品安全领域关系   总被引:1,自引:1,他引:0  
为了提高食品安全领域关系抽取的效率和准确性,该研究在收集食品安全领域语料的基础上,对语料中相应的实体和关系进行标注,构建可用于食品安全领域关系抽取的专业数据集。同时,提出面向食品安全领域的基于BERT-PCNN-ATT-Jieba的关系抽取模型,该模型使用基于转换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)预训练模型生成输入词向量,并结合分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)模型的分段最大池化层能极大程度捕获句子局部信息的特点,在分段最大池化层与分类层之间添加了注意力机制,以进一步提取高层语义。此外,考虑中文语料的特性,在BERT模型进行随机掩码切分之前,采用Jieba分词技术对中文语料进行分词,PCNN模型在执行掩码语言模型(Masked Language Model,MLM)时以词为单位进行掩码,使得输入到训练模型中的句子尽可能减少语义损失,以实现更高效的关系抽取。在该研究构建的数据集基础上,将BERT-PCNN-ATT-Jieba模型与经典的卷积神经网络(Convolutional Neural Network,CNN)、PCNN模型、以及结合BERT的CNN、PCNN、PCNN-ATT、PCNN-Jieba等6个模型进行比较,该研究提出的BERT-PCNN-ATT-Jieba模型取得更优的性能,其准确率达到84.72%,召回率达到81.78%,F1值达到83.22%。该模型为食品安全领域的知识抽取提供参考,为该领域知识图谱的自动化构建节约了成本,同时为基于该领域知识图谱的知识问答、知识检索、数据共享及食品安全智慧监管等应用提供依据。  相似文献   

9.
基于深度学习的作物病虫害可视化知识图谱构建   总被引:10,自引:9,他引:1  
针对作物病虫害领域存在实体关系交叉关联、多源异构数据聚合能力差、知识共享困难等问题,利用知识图谱以结构化的形式描述实体间复杂关系的优势,该研究提出了一种基于深度学习的作物病虫害知识图谱构建方法。该方法在领域本体的基础上,以一种与领域语料相适应的新标注模式实现实体和关系的联合抽取。将实体和关系抽取任务转化为序列标注问题,对实体和关系进行同步标注,有效提高标注效率;为了解决重叠关系抽取问题,直接对三元组建模而不是分别对实体和关系建模,通过标签匹配和映射即可获得三元组数据。利用来自转换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)-双向长短期记忆网络(Bi-directional Long-Short Term Memory,BiLSTM)+条件随机场(Conditional Random Field,CRF)端到端模型进行试验,结果表明效果优于基于普通标注方式的流水线方法和联合学习方法中的卷积神经网络(Convolutional Neural Networks,CNN)+BiLSTM+CRF、BiLSTM+CRF等经典模型,F1得分为91.34%。最后,将抽取到的知识存储到Neo4j图数据库中,直观地反映知识图谱的内部结构,实现知识可视化和知识推理。该研究构建的知识图谱可为作物病虫害智能问答系统、推荐系统、智能搜索等下游应用提供高质量的知识库基础。  相似文献   

10.
针对葡萄园害虫识别过程中害虫种类繁多、形态属性复杂、实体间深层次关联关系差等因素导致的识别准确率不够高的问题,该研究提出一种基于属性特征知识图谱的细粒度葡萄害虫识别模型。该模型以视觉编码器作为提取图像高层表征的骨干网络,并结合知识图谱具有在描述害虫实体属性特征和害虫实体间关联方面的优势,将知识图谱所提供的细粒度属性特征和害虫实体关联特征信息用于葡萄园害虫分类研究。该方法在2个数据集上进行了测试:一是GP21数据集,该数据集由公开大规模害虫数据集IP102中21类葡萄园相关害虫类别图像构成;二是GP8数据集,该数据集包含从农业生产基地实地采集并手工标注的8种葡萄园害虫。试验结果表明,该文所提模型性能明显优于普遍通用预训练网络模型,分类准确率在GP21数据集和GP8数据集上分别达到了91.21%和95.03%,相比于仅使用视觉编码器分别增加1.64和1.17个百分点。这证明属性特征知识图谱的引入能够辅助视觉编码器捕获细粒度更高的葡萄园害虫特征信息,有效解决了葡萄园害虫识别中的精度不够高的问题。  相似文献   

11.
基于双重注意力机制的渔业标准实体关系抽取   总被引:1,自引:3,他引:1  
针对渔业标准实体关系抽取任务中存在重叠关系导致的效果不好问题,提出了基于双重注意力机制的实体关系抽取方法。首先,提出了一种句式分类标注策略,以解决渔业标准文本中重叠关系难以标注的问题;其次,提出了结合双重注意力机制与BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bi-directional Long Short-Term Memory-Conditional Random Field)的渔业标准实体关系抽取模型,分别利用字级别注意力机制和句子级别注意力机制优化权重分配、消除噪音,进而提高关系抽取的准确性;最后,为验证所提出方法的有效性设计了对比试验,结果表明,基于双重注意力机制的实体关系抽取方法在DLOU-FSI(Fishery Standard Interaction)数据集(36万字符)上准确率、召回率、F1值分别达到了92.67%、92.31%、92.49%。研究表明,该方法可有效解决渔业标准关系抽取任务中存在的重叠关系问题,提升了渔业标准实体关系抽取的整体效果,为构建渔业标准知识图谱提供参考。  相似文献   

12.
基于CNN-BiLSTM的棉花产量预测方法   总被引:1,自引:1,他引:0  
针对传统的作物产量估算方法在模型泛化方面的不足及缺少时序特征和空间特征的问题,该研究以机采棉为研究对象,结合无人机遥感平台与深度学习技术对棉花进行多期遥感观测与估产。以棉花苗期、蕾期和花期的影像为时间序列数据集,构建基于卷积神经网络(Convolutional Neural Network,CNN)和双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)的混合模型(CNN-BiLSTM)进行棉花产量预估,提高时间维度和空间维度方面的特征提取能力,并分别验证CNN和BiLSTM的性能以及不同网络深度对估产的影响。研究结果表明,CNN和BiLSTM深度分别为14和1的CNN14-BiLSTM模型准确率最高,对比单一结构的BiLSTM该模型决定系数从0.851提升至0.885,其均方根误差和平均绝对百分比误差也均明显下降,在2.3 m×2.3 m的样方内,结果分别为147.167 g和6.711%。该研究实现了基于时间序列的棉花产量估算,可为类似的作物产量估算提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号