首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 453 毫秒
1.
针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(Att-Aux-BERT-BiLSTM-CRF)。通过BERT预处理模型进行文本向量化,然后连接双向长短期记忆网络(Bi-directional long-short term memory, BiLSTM);引入注意力机制,将模型的BERT层输出用作辅助分类层,BiLSTM层输出作为主分类层(Mainlayer),通过注意力机制组合以提高整体性能;最后输入条件随机场(Conditional random field, CRF),构建端到端的适合于兽药领域实体识别的深度学习模型框架。实验选取兽药文本共10 643个句子、485 711个字符,针对动物、药物、不良反应、摄入方式4类实体进行识别。实验结果表明,本文模型能有效地辨别兽药致病文本中的实体,识别的F1值为96.7%。  相似文献   

2.
为提高苹果生产领域实体识别的准确性,提出一种新的Transformer优化模型。首先,为解决苹果生产数据集的缺失,基于苹果栽培领域园艺专家的知识经验,创建以苹果病虫害为主的产业数据集。通过字向量与词向量的拼接,提高文本语义表征的准确性;随后,为防止位置信息缺失,引入具有方向和距离感知的注意力机制,平均集成BiLSTM的上下文长距离依赖特征;最后,结合条件随机场(Conditional random fields, CRF)约束上下文标注结果,最终得到Transformer优化模型。实验结果表明,所提方法在苹果病虫命名实体识别中的F1值可达92.66%,可为农业命名实体的准确智能识别提供技术手段。  相似文献   

3.
针对猕猴桃种植领域命名实体识别任务中实体词复杂度较高,识别精确率较低的问题,提出一种融合字词语义信息的猕猴桃种植实体识别方法。以BiGRU-CRF为基本模型,融合词级别和字符级别的信息。在词级别上,通过引入词集信息,并使用多头自注意力(Multiple self-attention mechanisms,MHA)调整词集中不同词的权重;同时使用注意力机制忽略不可靠的词集,将注意力集中在重要的词集上,从而提高实体识别效果;在字符级别上,引入无监督的基于转换器的双向编码表征(Bidirectional encoder representations form transformers,BERT)预训练模型增强字的语义表示。在包含12477条标注样本和7个类别实体的猕猴桃种植领域自制语料上进行了实验,结果表明,本文模型与SoftLexicon模型相比,F1值提高1.58个百分点。此外,本文模型在公开数据集ResumeNER上与Lattice-LSTM、WC-LSTM等模型进行实验对比取得了最佳效果,F1值达到96.17%,表明本文模型具有一定的泛化能力。  相似文献   

4.
基于部首嵌入和注意力机制的病虫害命名实体识别   总被引:1,自引:0,他引:1  
郭旭超  唐詹  刁磊  周晗  李林 《农业机械学报》2020,51(S2):335-343
为了解决农业病虫害命名实体识别过程中存在的内在语义信息缺失、局部上下文特征易被忽略和捕获长距离依赖能力不足等问题,以农业病虫害文本为研究对象,提出一种基于部首嵌入和注意力机制的农业病虫害命名实体识别模型(Chinese agricultural diseases and pests named entity recognition with joint radical embedding and self attention, RS-ADP)。首先,该模型将部首嵌入集成到字符嵌入中作为输入,用以丰富语义信息。其中,针对部首嵌入设计了3种特征提取策略,即卷积神经网络(Convolutional neural network, CNN)、双向长短时记忆网络(Bidirectional long short term memory network, BiLSTM) 和CNN-BiLSTM;其次,采用多层不同窗口尺寸的CNNs层提取不同尺度的局部上下文信息;然后,在BiLSTM提取全局序列特征的基础上,采用自注意力机制进一步增强模型提取更长距离依赖的能力;最后,采用条件随机场(Conditional random field, CRF)联合识别实体边界和划分实体类别。在包含11个类别和24715条标注样本的农业病虫害自制语料上进行了实验。结果表明,本文模型RS-ADP在该数据集上精确率、召回率和F1值分别为94.16%、94.47%和94.32%;在具体实体类别上,RS-ADP在作物、病害、虫害等易识别实体上F1值高达95.81%、97.76%和97.23%。同时,RS-ADP在草害、病原等难以识别实体上F1值仍保持86%以上。实验结果表明,本文所提模型能够有效识别农业病虫害命名实体,其识别精度优于其他模型,且具有一定的泛化性。  相似文献   

5.
基于注意力机制的农业文本命名实体识别   总被引:4,自引:0,他引:4  
针对农业智能问答系统构建过程中传统的农业命名实体识别方法依赖人工特征模板、特征信息提取不充分、实体名称多样导致标注不一致等问题,提出一种基于注意力机制的农业文本命名实体识别方法。采用连续词袋模型(Continuous bag of words,CBOW)对输入字向量进行预训练,丰富字向量特征信息,缓解分词准确度对性能的影响;引入文档级的注意力(Attention)机制,获取实体间相似信息,保证实体在不同语境下的标签一致性;基于双向长短期记忆网络(Bi-directional long-short term memory,BiLSTM)和条件随机场(Conditional random field,CRF)模型,构建适合农业领域实体识别的模型框架。选取4604篇农业文本,针对病害、虫害、农药、农作物品种4类实体进行了识别实验。结果表明,模型能有效地辨别农业文本中的实体,缓解实体标记不一致的问题,在农业语料上达到了较好的结果,识别的准确率、召回率、F值分别为93.48%、90.60%、92.01%。与其他3种识别方法相比,模型在不同规模语料库的准确率均有一定提高,具有明显的性能优势。  相似文献   

6.
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针对中文农作物病虫害数据集缺失问题,提出了基于半远程监督的停等算法,利用该算法构建中文农作物病虫害领域语料库,大幅度减少标注过程的人工成本和时间成本;同时,提出了中文农作物病虫害命名实体识别模型(Agricultural information extraction, Agr-IE),该模型基于BERT-BILSTM-CRF,辅以多源信息融合(多源分词信息和全局词汇嵌入信息)丰富字符向量,使其充分结合字符级与词汇级的信息,以提高模型捕捉上下文信息的能力。实验表明,该模型可以有效地识别病害、虫害、药剂、作物等实体,F1值分别为96.56%、95.12%、94.48%、95.54%,并对识别难度较大的病原实体具有较好的识别效果,F1值为81.48%,高于BERT-BILSTM-CRF、BERT等模型的相应值。本文所提模型在MSRA和Weibo等其他领域数据集上与CAN-NER、Lattice-LSTM-CRF等模型进行了对比实验,并取得最佳的识别效果,F1值分别为95.80%、94.57%,表明该算法具有一定的泛化能力。  相似文献   

7.
丁俊琦  李博  乔岩  张领先 《农业机械学报》2023,54(1):196-204,223
植物电子病历(EMR)以结构化和非结构化的形式记录了大量关于疾病症状、环境特征以及诊断开方的信息,为病害的智能诊断提供了优质知识来源,但是其样本量少、公开数据集缺乏和多种类型数据并存的特点给相关研究带来困难。根据植物EMR多类型数据混合的特点,提出了一种基于BERT-MPL数据融合与注意力机制优化的作物病害诊断模型(BERT-MPL data fusion model based on attention mechanism, BM-Att)。首先采用BERT预训练语言模型抽取电子病历中非结构化部分的文本语义特征;其次通过one-hot编码和多层感知机(MLP)对结构化数据进行编码和向量维度的扩增;最后在特征融合阶段采用注意力机制强调关键特征,利用多层全连接层实现病害诊断。构建了番茄、黄瓜、生菜和西瓜4种作物的15种病害数据集验证模型的效果并进行消融实验,并且对比了CNN、RCNN、AttRNN、FastText、Transformer、BERT和ERNIE等处理文本数据的常见模型,以及BERT-ALEX、BERT-1dCNN、BERT-1dLSTM、BERT-1dAttLSTM、BE...  相似文献   

8.
基于条件随机场的农作物病虫害及农药命名实体识别   总被引:3,自引:0,他引:3  
互联网农技问答平台现仅依靠人工提供答题服务,响应速度慢,回答质量难以保证。实现智能农技问题解答,构建农技知识库,需要从现有问答数据提取“农作物-病虫害-农药”命名实体三元组。现有对农业中文命名实体识别的研究较少,且准确率较低。根据农作物、病虫害及农药命名实体的特点,针对农技问答数据,提出基于条件随机场的农作物、病虫害及农药命名实体的识别方法。对数据集进行格式整理及自动分词,并对分词后的语料,针对是否包含特定界定词、是否含特定偏旁部首、是否是数量词、是否是特定左右指界词及词性等特征进行自动标注。利用标注后的数据训练CRF模型,可以对语料进行分类,包括判断语料是否属于农作物、病虫害、农药3类命名实体并识别该语料在复合命名实体中的位置,从而实现了对3类命名实体的识别,由此可自动构建关联三元组。通过试验选择特征组合和调整上下文窗口大小,提高了本方法的识别准确度,降低了模型训练时间,对农作物、病虫害、农药命名实体识别的准确度分别达97.72%、87.63%、98.05%,比现有方法有显著提高。  相似文献   

9.
许鑫  马文政  张浩  马新明  乔红波 《农业机械学报》2023,54(12):272-279,337
针对我国作物品种种类多,资源信息规范性差,模型训练精度低等问题,本文以小麦、水稻、玉米、大豆、棉花、花生、油菜7种作物为对象,以品种、形态、产量和品质等参数为指标,构建了83个品种实体,采用人工标注方法,通过融合对抗训练技术,提出了农作物品种信息抽取4层网络模型(BERT-PGD-BiLSTM-CRF)。模型基于深层双向Transformer构建的BERT(Bidirectional encoder representation from transformers)模型作为预训练模型获取字词语义表示,使用PGD(Projected gradient descent)对抗训练方法为样本增加扰动,提高模型鲁棒性和泛化性,利用双向长短期记忆网络(Bidirectional long short-term memory, BiLSTM)学习长距离文本信息,结合条件随机场(Conditional random field, CRF)学习标签约束信息。对比18个不同信息抽取模型的训练效果,结果表明,本研究提出的BERT-PGD-BiLSTM-CRF模型精确率为95.4%、召回率为97.0%、F1值...  相似文献   

10.
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、1...  相似文献   

11.
12.
针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的Django框架设计农业领域的实体识别、实体查询、农知问答等子系统。经过试验对比,所提出的改进的Bi-LSTM-CRF在农业信息领域具有更好的实体识别能力,在农业信息语料库上的精确率、召回率和F1值分别为93.23%、91.08%和92.16%。实现农业领域实体识别和农业信息问答的知识图谱网站演示,对农业信息化的发展具有重要意义。  相似文献   

13.
随着互联网和人工智能技术的发展,农业知识智能化服务逐渐承担起为农业生产管理提供有效技术指导的作用。本文对农业文本语义理解中的关键技术及应用进行综述。首先按照自然语言处理中基于规则、机器学习和深度学习的语义处理方法介绍其在农业领域应用的进展;然后阐述了针对农业知识特性的语义分析方法,涵盖农业文本分析主要过程的储存、表达、计算,包括农业知识图谱的知识抽取、融合、表示、推理,TF-IDF、Word2Vec、BERT等农业文本表示模型与CNN、RNN、Attention等分类模型;阐述了可用于分词、向量化表达等的通用语料库和农业领域常用语料库;从农业智能问答、农业语义检索、农业智能管理决策方面阐述语义理解在农业领域中的应用;最后从农业语料库标准化构建、语义理解模型复杂度、多模态语义处理、多区域多语言语义理解等方面对农业文本的语义理解研究趋势进行了展望。  相似文献   

14.
基于BERT的水稻表型知识图谱实体关系抽取研究   总被引:1,自引:0,他引:1  
针对水稻表型知识图谱中的实体关系抽取问题,根据植物本体论提出了一种对水稻的基因、环境、表型等表型组学实体进行关系分类的方法。首先,获取水稻表型组学数据,并进行标注和分类;随后,提取关系数据集中的词向量、位置向量及句子向量,基于双向转换编码表示模型(BERT)构建水稻表型组学关系抽取模型;最后,将BERT模型与卷积神经网络模型、分段卷积网络模型进行结果比较。结果表明,在3种关系抽取模型中,BERT模型表现更佳,精度达95.11%、F1值为95.85%。  相似文献   

15.
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm, ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数...  相似文献   

16.
大数据、物联网和人工智能等现代信息技术在农业中的广泛应用,推动了农业农村现代化和智慧农业的发展,带动了农业经营主体对科技与知识的旺盛需求,农业知识服务成为农业转型升级和高质量发展的重要引擎。为解决现有农业知识分散无序、更新不及时、面向经营主体的知识服务不平衡、供需脱节等问题,本文总结分析了国内外农业知识服务的研究与实践现状,提出了一套基于农业全产业链、按照农业数据的全生命周期、面向农业经营主体的农业智能知识服务体系框架,设计了基于智能物联网(Artificial Intelligence & Internet of Things,AIoT)的农情感知与大数据汇聚治理、基于知识图谱的农业知识组织与计算挖掘,以及基于多场景的农业智能知识服务三个层次。文中归纳了包括空天地AIoT全维度农情感知、多源异构农业大数据汇聚治理、知识建模、知识抽取、知识融合、知识推理、跨媒体检索、智能问答、个性化推荐技术、决策支持等农业智能知识服务涉及的关键技术,并举例了其研究应用。最后从农业数据获取、模型构建、知识组织、智能知识服务技术和应用推广等方面探讨了未来农业智能知识服务的发展趋势及对策建议。总结发现,农业智能知识服务是破解当前农业知识服务供需矛盾,实现跨媒体农业数据到知识的跨越,推动农业知识服务向个性化、精准化和智能化升级的关键,亦是农业科技自立自强、现代农业提质增效的重要支撑。  相似文献   

17.
为解决文本特征提取不准确和因网络层次加深而导致模型分类性能变差等问题,提出基于深度卷积神经网络的水稻知识文本分类方法。针对水稻知识文本的特点,采用Word2Vec方法进行文本向量化处理,并与OneHot、TF-IDF和Hashing方法进行对比分析,得出Word2Vec方法具有较高的分类精度,正确率为86.44%,能够有效解决文本向量表示稀疏和信息不完整等问题。通过调整残差网络(Residual network,Res Net)结构,分析残差模块结构和网络层次对分类网络的影响,构建了9种分类网络结构,测试结果表明,具有4层残差模块结构的网络具有较好的特征提取精度,Top-1准确率为99.79%。采用优选出的4层残差模块结构作为基本结构,使用胶囊网络(Capsule network,Caps Net)替代其池化层,设计了水稻知识文本分类模型。与Fast Text、Bi LSTM、Atten-Bi GRU、RCNN、DPCNN和Text CNN等6种文本分类模型的对比分析表明,本文设计的文本分类模型能够较好地对不同样本量和不同复杂程度的水稻知识文本进行精准分类,模型的精准率、召回率和F1值分别不小于95.17%、95.83%和95.50%,正确率为98.62%。本文模型能够实现准确、高效的水稻知识文本分类,满足实际应用需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号