首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到12条相似文献,搜索用时 140 毫秒
1.
基于深度学习的作物病虫害可视化知识图谱构建   总被引:1,自引:9,他引:1  
针对作物病虫害领域存在实体关系交叉关联、多源异构数据聚合能力差、知识共享困难等问题,利用知识图谱以结构化的形式描述实体间复杂关系的优势,该研究提出了一种基于深度学习的作物病虫害知识图谱构建方法。该方法在领域本体的基础上,以一种与领域语料相适应的新标注模式实现实体和关系的联合抽取。将实体和关系抽取任务转化为序列标注问题,对实体和关系进行同步标注,有效提高标注效率;为了解决重叠关系抽取问题,直接对三元组建模而不是分别对实体和关系建模,通过标签匹配和映射即可获得三元组数据。利用来自转换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)-双向长短期记忆网络(Bi-directional Long-Short Term Memory,BiLSTM)+条件随机场(Conditional Random Field,CRF)端到端模型进行试验,结果表明效果优于基于普通标注方式的流水线方法和联合学习方法中的卷积神经网络(Convolutional Neural Networks,CNN)+BiLSTM+CRF、BiLSTM+CRF等经典模型,F1得分为91.34%。最后,将抽取到的知识存储到Neo4j图数据库中,直观地反映知识图谱的内部结构,实现知识可视化和知识推理。该研究构建的知识图谱可为作物病虫害智能问答系统、推荐系统、智能搜索等下游应用提供高质量的知识库基础。  相似文献   

2.
随着农业大数据时代的到来,如何开展直观的有效信息挖掘成为数据利用的一大难题。作为一种能够帮助人们高效地管理现实世界中事物及其关系的异构语义网络,知识图谱应用在近年来备受关注。在农业数据不断增加、结构越来越复杂的背景下,将知识图谱应用于农业领域有助于农业大数据分析,促进智慧农业发展。该文首先分析了知识图谱构建的模式,即自顶向下、自底向上及两种模式结合等3种模式的特点,然后从本体构建、知识抽取、知识融合、知识推理、知识图谱存储及可视化5个方面综述了农业知识图谱构建的关键技术应用进展与难点,接着对当前知识图谱在农业领域的应用进行了梳理,主要有农业专题文献计量研究、农业信息检索、农业知识问答和农业信息资源推荐等4个方面,最后对知识图谱技术在农业领域的应用研究方向进行了展望,认为未来应关注基于知识图谱的农产品电商推荐、动态农业知识图谱的构建、跨领域知识图谱的构建与关联等方面。  相似文献   

3.
为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer, BERT)和残差结构(residual structure, RS)融合的命名实体识别模型(bert based named entity recognition with residual structure,BBNER-RS)。通过BERT模型将文本映射为字符向量,利用双向长短时记忆网络(bi-directional long-short term memory, BiLSTM)提取局部字符向量特征,并采用RS保留BERT提供的全局字符向量特征,以提高字向量的语义丰富度,最后通过条件随机场(conditional random field, CRF)模型对特征向量解码,获取全局最优序列标注。与其他命名实体识别模型相比,提出的BBNER-MRS模型在葡萄数据集上表现较好,在葡萄人民日报、玻森、简历和微博数据集上F1值分别达到89...  相似文献   

4.
在渔业标准文本中,定量指标识别对标准内容服务具有重要的意义,针对目前常用的命名实体识别方法对渔业标准定量指标识别准确率不高的问题,该研究提出了融合注意力机制与BERT+BiLSTM+CRF(BidirectionalEncoder Representations from Transformers+Bi-directional Long Short-Term Memory+Conditional Random Field,来自转换器的双向编码器表征量+双向长短时记忆网络+条件随机场)模型的渔业标准定量指标识别方法,该方法将渔业标准中定量指标拆分为指标名、指标值、单位、限制词4类实体,通过分析渔业标准语料的特点发现位置信息对指标名等实体识别效果具有重要影响,首先利用BERT模型中位置向量信息提高指标名等实体的识别效果,其次采用BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)模型学习渔业标准文本定量指标中长序列语义特征,然后再将注意力机制与BERT+BiLSTM模型进行融合以解决长序列语义稀释问题,最后利用CRF(Conditional Random Field,条件随机场)层得到预测序列标签。试验结果表明,融合注意力机制与BERT+BiLSTM+CRF模型的渔业标准定量指标识别准确率为94.51%、召回率为96.37%、F1值为95.43%,研究表明,该方法解决了渔业标准定量指标识别准确率不高的问题,可以比较准确地识别由指标名、指标值、单位、限制词组成的渔业标准定量指标,是一种有效的渔业标准定量指标识别方法,可为农业、医学、生物等其他领域定量指标命名实体识别提供新思路。  相似文献   

5.
基于实体级遮蔽BERT与BiLSTM-CRF的农业命名实体识别   总被引:1,自引:1,他引:0  
字符的位置信息和语义信息对命名方式繁杂且名称长度较长的中文农业实体的识别至关重要。为解决命名实体识别过程中由于捕获字符位置信息、上下文语义特征和长距离依赖信息不充足导致识别效果不理想的问题,该研究提出一种基于EmBERT-BiLSTM-CRF模型的中文农业命名实体识别方法。该方法采用基于Transformer的深度双向预训练语言模型(Bidirectional Encoder Representation from Transformers,BERT)作为嵌入层提取字向量的深度双向表示,并使用实体级遮蔽策略使模型更好地表征中文语义;然后使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)学习文本的长序列语义特征;最后使用条件随机场(Conditional Random Field,CRF)在训练数据中学习标注约束规则,并利用相邻标签之间的信息输出全局最优的标注序列。训练过程中使用了焦点损失函数来缓解样本分布不均衡的问题。试验在构建的语料库上对农作物品种、病害、虫害和农药4类农业实体进行识别。结果表明,该研究的EmBERT-BiLSTM-CRF模型对4类农业实体的识别性能相较于其他模型有明显提升,准确率为94.97%,F1值为95.93%。  相似文献   

6.
农产品标准不仅是衡量农产品安全的尺度,也是农产品安全监管的重要依据,当前农产品标准信息并没有得到系统性的关联划分与复用。针对此问题,该研究依据标准化文件的起草规范设计了农产品标准信息本体规则,在现有的农产品标准文件及相关词条数据基础上,为半结构化数据设计了正则包装器;为非结构化文本提出了一个基于依存句法分析的农产品领域开放关系抽取模型(Open Relation Extraction Model In Agricultural Products Field, OREM-AF),实现了该领域知识的自动抽取。结果表明该研究设计的包装器在提取半结构化数据信息时,准确率与F1值均在95%以上;提出的OREM-AF模型在农产品语料上准确率达74.22%、F1值为75.12%,在通用语料上准确率达84.51%、F1值为75.43%,抽取结果均好于基于依存句法分析的其他模型。依托抽取数据构建了农产品标准领域知识图谱,并在知识图谱的相互关联网络上进行了标准社区挖掘,挖掘出的关联标准知识能够为农产品标准监管提供辅助分析支撑。  相似文献   

7.
基于双重注意力机制的渔业标准实体关系抽取   总被引:4,自引:3,他引:1  
针对渔业标准实体关系抽取任务中存在重叠关系导致的效果不好问题,提出了基于双重注意力机制的实体关系抽取方法。首先,提出了一种句式分类标注策略,以解决渔业标准文本中重叠关系难以标注的问题;其次,提出了结合双重注意力机制与BERT-BiLSTM-CRF(Bidirectional Encoder Representations from Transformers-Bi-directional Long Short-Term Memory-Conditional Random Field)的渔业标准实体关系抽取模型,分别利用字级别注意力机制和句子级别注意力机制优化权重分配、消除噪音,进而提高关系抽取的准确性;最后,为验证所提出方法的有效性设计了对比试验,结果表明,基于双重注意力机制的实体关系抽取方法在DLOU-FSI(Fishery Standard Interaction)数据集(36万字符)上准确率、召回率、F1值分别达到了92.67%、92.31%、92.49%。研究表明,该方法可有效解决渔业标准关系抽取任务中存在的重叠关系问题,提升了渔业标准实体关系抽取的整体效果,为构建渔业标准知识图谱提供参考。  相似文献   

8.
用BERT和改进PCNN模型抽取食品安全领域关系   总被引:1,自引:1,他引:0  
为了提高食品安全领域关系抽取的效率和准确性,该研究在收集食品安全领域语料的基础上,对语料中相应的实体和关系进行标注,构建可用于食品安全领域关系抽取的专业数据集。同时,提出面向食品安全领域的基于BERT-PCNN-ATT-Jieba的关系抽取模型,该模型使用基于转换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)预训练模型生成输入词向量,并结合分段卷积神经网络(Piecewise Convolutional Neural Network,PCNN)模型的分段最大池化层能极大程度捕获句子局部信息的特点,在分段最大池化层与分类层之间添加了注意力机制,以进一步提取高层语义。此外,考虑中文语料的特性,在BERT模型进行随机掩码切分之前,采用Jieba分词技术对中文语料进行分词,PCNN模型在执行掩码语言模型(Masked Language Model,MLM)时以词为单位进行掩码,使得输入到训练模型中的句子尽可能减少语义损失,以实现更高效的关系抽取。在该研究构建的数据集基础上,将BERT-PCNN-ATT-Jieba模型与经典的卷积神经网络(Convolutional Neural Network,CNN)、PCNN模型、以及结合BERT的CNN、PCNN、PCNN-ATT、PCNN-Jieba等6个模型进行比较,该研究提出的BERT-PCNN-ATT-Jieba模型取得更优的性能,其准确率达到84.72%,召回率达到81.78%,F1值达到83.22%。该模型为食品安全领域的知识抽取提供参考,为该领域知识图谱的自动化构建节约了成本,同时为基于该领域知识图谱的知识问答、知识检索、数据共享及食品安全智慧监管等应用提供依据。  相似文献   

9.
郝志刚  刘冲  秦丽 《农业工程学报》2023,39(14):283-292
在对中文食品抽检公告进行实体与关系抽取时,常会出现包含大量食品名称与食品分类的长句,现有深度学习模型在进行实体关系抽取时,只将文本看作一串字词序列来编码,当句子较长且词间距离过大时,词间强依赖关系的学习效果会减弱。而这一问题在食品领域的实体关系抽取中少有被关注,所以该研究提出基于改进中文依存句法树与多特征融合的实体关系联合抽取模型(TAG-JE),该模型将词间具有的强依赖关系通过句法依存树建立关系图,再根据中文BERT编码的字处理模式,将关系图转化为字邻接图,再由图神经网络学习字邻接图的结构特征,最后将之与BERT提取的文本上下文特征融合,融合权重通过门网络结构自主调节,以获得公告文本的多特征融合特征表示。获得的融合特征将采用主流的联合抽取模型进行实体与关系的抽取,并在关系判断时使用强化学习训练的关系选择器来优化关系的嵌入信息,以提升联合抽取方法在关系判断上的准确率。为了验证TAG-JE的效果,将其与主流的深度学习模型在自建的非结构化食品抽检公告数据集上进行了抽取效果对比,结果证明TAG-JE的精确率、召回率与F1值分别达到90.86%,90.50%,90.68%,相对其他基线模型都有较大提升,证明了其在中文食品抽检文档中的知识挖掘能力。针对中文公共数据集的试验中,该模型相对GraphRel与CasRel这些经典联合抽取模型也取得更好的结果,证明TAG-JE也有较好的泛化效果。研究结果可为食品安全中文知识图谱的构建提供技术参考。  相似文献   

10.
疾病诊治是水产动物健康养殖工程的重要支撑,知识图谱是水产动物疾病诊治知识表示及应用的有效手段,命名实体识别是构建水产动物疾病诊治知识图谱的关键。针对一词多义、实体嵌套等导致的水产动物疾病诊治命名实体识别准确率不高的问题,该研究提出了融合BERT(Bidirectional Encoder Representations from Transformers)与CaBiLSTM (Cascade Bi-directional Long Short-Term Memory)的实体识别模型。首先,建立水产动物疾病诊治专用语料库,并利用语料库中的数据对设计的模型进行训练;其次,采用"分层思想"设计CaBiLSTM模型进行嵌套实体识别,用降维的内层实体特征提升外层实体的辨析度,并引入BERT模型增添实体位置信息;最后,为验证所提出方法的有效性进行对比试验。试验结果表明,提出的融合BERT与CaBiLSTM模型对水产动物疾病诊治命名实体识别准确率、召回率、F1值分别达到93.07%、92.85%、92.96%。研究表明,该模型能够有效解决水产动物疾病诊治命名实体识别过程中由于一词多义、实体嵌套等导致的识别准确率不高问题,可提高水产动物疾病诊治知识图谱的构建质量,促进水产健康养殖工程发展。  相似文献   

11.
人类营养健康命名实体识别旨在检测营养健康文本中的营养实体,是进一步挖掘营养健康信息的关键步骤。虽然深度学习模型广泛应用在人类营养健康命名实体识别中,但没有充分考虑到营养健康文本中含有大量的复杂实体而出现长距离依赖的特点,且未能充分考虑词汇信息和位置信息。针对人类营养健康文本的特点,该研究提出了融合规则与BERT-FLAT(Bidirectional Encoder Representations from Transfromers-Flat Lattice Transformer,转换器的双向编码器表征量-平格变压器)模型的营养健康文本命名实体识别方法,识别了营养健康领域中食物、营养物质、人群、部位、病症和功效作用6类实体。首先通BERT模型将字符信息和词汇信息进行嵌入以提高模型对实体类别的识别能力,再通过位置编码与词汇边界信息结合的Transformer模型进行编码以提高模型对实体边界的识别效果,利用CRF(Coditional Random Field,条件随机场)获取字符预测序列,最后通过规则对预测序列进行修正。试验结果表明,融合规则与BERT-FLAT模型的人类营养健康领域识别的准确率为95%,召回率为88.88%,F1分数为91.81%。研究表明,该方法是一种有效的人类营养健康领域实体识别方法,可以为农业、医疗、食品安全等其他领域复杂命名实体识别提供新思路。  相似文献   

12.
杨硕  李书琴 《农业工程学报》2023,39(14):207-214
针对传统答案选择模型仅依靠问答对自身信息进行匹配的问题,该研究提出了一种使用多模态知识图谱来增强问答对的答案选择模型。该模型通过设计基于ComplEx(complex embedding)图谱嵌入的方法学习多模态知识图谱嵌入,引入上下文注意力机制并使用CNN网络获取多模态知识图谱的特征表示,使用知识感知注意力方法,将多模态知识图谱提供的背景知识与问答对的文本语义信息融合。以葡萄种植为例,通过搭建葡萄种植多模态知识图谱和构造葡萄种植问答数据集开展试验,试验结果表明: 使用多模态知识图谱有助于模型获取更多信息从而达到更好的效果,在葡萄问答数据集中正确答案的平均倒数排名和平均准确率分别达到了85.02%、84.21%,与其他模型相比平均倒数排名提高2.57个百分点,平均准确率提高了3.96个百分点。该答案选择模型利用多模态知识图谱的知识提高答案选择效果,可为搜索、问答等下游任务提供技术基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号