首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm, ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数...  相似文献   

2.
面向食品安全事件新闻文本的实体关系抽取研究   总被引:1,自引:0,他引:1  
为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法 FSE_ERE (Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。  相似文献   

3.
基于知识图谱的花卉病虫害知识管理方法   总被引:1,自引:0,他引:1       下载免费PDF全文
为解决花卉病虫害领域中病虫害防治因素关系复杂、知识冗余等问题,结合知识图谱对知识组织和管理的技术,提出一种基于知识图谱的花卉病虫害知识管理方法。首先,根据文献提取包括环境在内的花卉病虫害防治要素,构建花卉病虫害本体模型并存储在RDF图中,实现对知识规范性和完整性的控制;其次,对花卉病虫害领域文本进行分析,针对分析得到的文本特点,提出融合头尾实体分离“01”标注方法、轻量级双向转换编码表示模型(A lite BERT, ALBERT)和引入词性特征的级联标注模型(CasPOSRel)的抽取框架进行三元组抽取;之后利用自定义RDF2PG映射算法,按照RDF图中的本体模型将抽取到的三元组存入Neo4j数据库中,完成对花卉病虫害知识的存储及管理。实验结果证明提出的抽取框架中标注方法、预训练模型与抽取模型相比基线方法F1值分别提升0.88、4.90、8.57个百分点,同时得到抽取结果F1值为95.07%。通过知识发现表明该知识管理方法能有效组织管理病虫害知识,帮助花卉种植人员进行更为有效的病虫害防治工作。  相似文献   

4.
基于BERT的水稻表型知识图谱实体关系抽取研究   总被引:1,自引:0,他引:1  
针对水稻表型知识图谱中的实体关系抽取问题,根据植物本体论提出了一种对水稻的基因、环境、表型等表型组学实体进行关系分类的方法。首先,获取水稻表型组学数据,并进行标注和分类;随后,提取关系数据集中的词向量、位置向量及句子向量,基于双向转换编码表示模型(BERT)构建水稻表型组学关系抽取模型;最后,将BERT模型与卷积神经网络模型、分段卷积网络模型进行结果比较。结果表明,在3种关系抽取模型中,BERT模型表现更佳,精度达95.11%、F1值为95.85%。  相似文献   

5.
基于注意力机制的农业文本命名实体识别   总被引:4,自引:0,他引:4  
针对农业智能问答系统构建过程中传统的农业命名实体识别方法依赖人工特征模板、特征信息提取不充分、实体名称多样导致标注不一致等问题,提出一种基于注意力机制的农业文本命名实体识别方法。采用连续词袋模型(Continuous bag of words,CBOW)对输入字向量进行预训练,丰富字向量特征信息,缓解分词准确度对性能的影响;引入文档级的注意力(Attention)机制,获取实体间相似信息,保证实体在不同语境下的标签一致性;基于双向长短期记忆网络(Bi-directional long-short term memory,BiLSTM)和条件随机场(Conditional random field,CRF)模型,构建适合农业领域实体识别的模型框架。选取4604篇农业文本,针对病害、虫害、农药、农作物品种4类实体进行了识别实验。结果表明,模型能有效地辨别农业文本中的实体,缓解实体标记不一致的问题,在农业语料上达到了较好的结果,识别的准确率、召回率、F值分别为93.48%、90.60%、92.01%。与其他3种识别方法相比,模型在不同规模语料库的准确率均有一定提高,具有明显的性能优势。  相似文献   

6.
基于部首嵌入和注意力机制的病虫害命名实体识别   总被引:1,自引:0,他引:1  
郭旭超  唐詹  刁磊  周晗  李林 《农业机械学报》2020,51(S2):335-343
为了解决农业病虫害命名实体识别过程中存在的内在语义信息缺失、局部上下文特征易被忽略和捕获长距离依赖能力不足等问题,以农业病虫害文本为研究对象,提出一种基于部首嵌入和注意力机制的农业病虫害命名实体识别模型(Chinese agricultural diseases and pests named entity recognition with joint radical embedding and self attention, RS-ADP)。首先,该模型将部首嵌入集成到字符嵌入中作为输入,用以丰富语义信息。其中,针对部首嵌入设计了3种特征提取策略,即卷积神经网络(Convolutional neural network, CNN)、双向长短时记忆网络(Bidirectional long short term memory network, BiLSTM) 和CNN-BiLSTM;其次,采用多层不同窗口尺寸的CNNs层提取不同尺度的局部上下文信息;然后,在BiLSTM提取全局序列特征的基础上,采用自注意力机制进一步增强模型提取更长距离依赖的能力;最后,采用条件随机场(Conditional random field, CRF)联合识别实体边界和划分实体类别。在包含11个类别和24715条标注样本的农业病虫害自制语料上进行了实验。结果表明,本文模型RS-ADP在该数据集上精确率、召回率和F1值分别为94.16%、94.47%和94.32%;在具体实体类别上,RS-ADP在作物、病害、虫害等易识别实体上F1值高达95.81%、97.76%和97.23%。同时,RS-ADP在草害、病原等难以识别实体上F1值仍保持86%以上。实验结果表明,本文所提模型能够有效识别农业病虫害命名实体,其识别精度优于其他模型,且具有一定的泛化性。  相似文献   

7.
许鑫  马文政  张浩  马新明  乔红波 《农业机械学报》2023,54(12):272-279,337
针对我国作物品种种类多,资源信息规范性差,模型训练精度低等问题,本文以小麦、水稻、玉米、大豆、棉花、花生、油菜7种作物为对象,以品种、形态、产量和品质等参数为指标,构建了83个品种实体,采用人工标注方法,通过融合对抗训练技术,提出了农作物品种信息抽取4层网络模型(BERT-PGD-BiLSTM-CRF)。模型基于深层双向Transformer构建的BERT(Bidirectional encoder representation from transformers)模型作为预训练模型获取字词语义表示,使用PGD(Projected gradient descent)对抗训练方法为样本增加扰动,提高模型鲁棒性和泛化性,利用双向长短期记忆网络(Bidirectional long short-term memory, BiLSTM)学习长距离文本信息,结合条件随机场(Conditional random field, CRF)学习标签约束信息。对比18个不同信息抽取模型的训练效果,结果表明,本研究提出的BERT-PGD-BiLSTM-CRF模型精确率为95.4%、召回率为97.0%、F1值...  相似文献   

8.
基于条件随机场的农作物病虫害及农药命名实体识别   总被引:3,自引:0,他引:3  
互联网农技问答平台现仅依靠人工提供答题服务,响应速度慢,回答质量难以保证。实现智能农技问题解答,构建农技知识库,需要从现有问答数据提取“农作物-病虫害-农药”命名实体三元组。现有对农业中文命名实体识别的研究较少,且准确率较低。根据农作物、病虫害及农药命名实体的特点,针对农技问答数据,提出基于条件随机场的农作物、病虫害及农药命名实体的识别方法。对数据集进行格式整理及自动分词,并对分词后的语料,针对是否包含特定界定词、是否含特定偏旁部首、是否是数量词、是否是特定左右指界词及词性等特征进行自动标注。利用标注后的数据训练CRF模型,可以对语料进行分类,包括判断语料是否属于农作物、病虫害、农药3类命名实体并识别该语料在复合命名实体中的位置,从而实现了对3类命名实体的识别,由此可自动构建关联三元组。通过试验选择特征组合和调整上下文窗口大小,提高了本方法的识别准确度,降低了模型训练时间,对农作物、病虫害、农药命名实体识别的准确度分别达97.72%、87.63%、98.05%,比现有方法有显著提高。  相似文献   

9.
针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(Att-Aux-BERT-BiLSTM-CRF)。通过BERT预处理模型进行文本向量化,然后连接双向长短期记忆网络(Bi-directional long-short term memory, BiLSTM);引入注意力机制,将模型的BERT层输出用作辅助分类层,BiLSTM层输出作为主分类层(Mainlayer),通过注意力机制组合以提高整体性能;最后输入条件随机场(Conditional random field, CRF),构建端到端的适合于兽药领域实体识别的深度学习模型框架。实验选取兽药文本共10 643个句子、485 711个字符,针对动物、药物、不良反应、摄入方式4类实体进行识别。实验结果表明,本文模型能有效地辨别兽药致病文本中的实体,识别的F1值为96.7%。  相似文献   

10.
为提高苹果生产领域实体识别的准确性,提出一种新的Transformer优化模型。首先,为解决苹果生产数据集的缺失,基于苹果栽培领域园艺专家的知识经验,创建以苹果病虫害为主的产业数据集。通过字向量与词向量的拼接,提高文本语义表征的准确性;随后,为防止位置信息缺失,引入具有方向和距离感知的注意力机制,平均集成BiLSTM的上下文长距离依赖特征;最后,结合条件随机场(Conditional random fields, CRF)约束上下文标注结果,最终得到Transformer优化模型。实验结果表明,所提方法在苹果病虫命名实体识别中的F1值可达92.66%,可为农业命名实体的准确智能识别提供技术手段。  相似文献   

11.
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、1...  相似文献   

12.
针对已有监控系统存在设计冗余、部署复杂、成本较高难以在生产规模较小的禽舍推广使用的缺点,设计并实现一种适用于中小规模禽舍使用的环境监控系统。系统中的无线监测器采用低功耗Wi-Fi技术实现,可为系统提供较为精准的数据采集功能。监测器通过不同的子任务流程,实现周期性的低功耗控制策略。业务服务器基于树莓派单板电脑,采用基于Java的Spring Boot框架,可在实现用户接口的同时,使用底层硬件接口对环控设备实施自动化控制。长期对比测试表明,该系统可降低禽舍用电量约7.71%,使禽类淘汰率降低0.8%。系统所具有的硬件实现成本低、部署简便、环境监控准确可靠等特点,使该系统在中小规模禽舍中具有较高的推广应用价值。  相似文献   

13.
当前农业实体识别标注数据稀缺,部分公开的农业实体识别模型依赖手工特征,实体识别精度低。虽然有的农业实体识别模型基于深度学习方法,实体识别效果有所提高,但是存在模型推理延迟高、参数量大等问题。本研究提出了一种基于知识蒸馏的农业实体识别方法。首先,利用互联网的海量农业数据构建农业知识图谱,在此基础上通过远程监督得到弱标注语料。其次,针对实体识别的特点,提出基于注意力的BERT层融合模型(BERT-ALA),融合不同层次的语义特征;结合双向长短期记忆网络(BiLSTM)和条件随机场CRF,得到BERT-ALA+BiLSTM+CRF模型作为教师模型。最后,用BiLSTM+CRF模型作为学生模型蒸馏教师模型,保证模型预测耗时和参数量符合线上服务要求。在本研究构建的农业实体识别数据集以及两个公开数据集上进行实验,结果显示,BERT-ALA+BiLSTM+CRF模型的macro-F1相对于基线模型BERT+ BiLSTM+CRF平均提高1%。蒸馏得到的学生模型BiLSTM+CRF的macro-F1相对于原始数据训练的模型平均提高3.3%,预测耗时降低了33%,存储空间降低98%。试验结果验证了基于注意力机制的BERT层融合模型以及知识蒸馏在农业实体识别方面具有有效性。  相似文献   

14.
为实现水稻施肥知识图谱自动化构建,为后续构建水稻施肥决策系统提供基础,定义了水稻施肥体系数据结构并制作水稻施肥数据集,结合水稻施肥数据特点,添加单位标注器,并改进CASREL解码加入隐藏层,提出了基于RoBERTa-wwm编码+改进CASREL解码的信息抽取模型,同时针对编码与解码环节进行试验对比。结果表明,基于该模型的F1值达到91.86%,与对比模型相比有较为显著的提升。基于改进RoBERTa-wwm-CASREL的信息抽取模型能有效提高水稻施肥信息抽取效果,为水稻施肥知识图谱构建以及施肥决策系统提供基础。  相似文献   

15.
互联网是一个巨大的资源库,也是一个丰富的知识库。针对农作物小样本引起的过拟合问题,本研究引入了知识迁移和深度学习的方法,采用互联网公开的ImageNet图像大数据集和PlantVillage植物病害公共数据集,以实验室的黄瓜和水稻病害数据集AES-IMAGE为对象开展相关的研究与试验。首先将批归一化算法应用于卷积神经网络CNN中的AlexNet和VGG模型,改善网络的过拟合问题;再利用PlantVillage植物病害数据集得到预训练模型,在改进的网络模型AlexNet和VGG模型上用AES-IMAGE对预训练模型参数调整后进行病害识别。最后,使用瓶颈层特征提取的迁移学习方法,利用ImageNet大数据集训练出的网络参数,将Inception-v3和Mobilenet模型作为特征提取器,进行黄瓜和水稻病害特征提取。本研究结合试验结果探讨了适用于农作物病害识别问题的最佳网络和对应的迁移策略,表明使用VGG网络参数微调的策略可获得的最高准确率为98.33%,使用Mobilenet瓶颈层特征提取的策略可获得96.8%的验证准确率。证明CNN结合迁移学习可以利用充分网络资源来克服大样本难以获取的问题,提高农作物病害识别效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号