首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 250 毫秒
1.
为提高苹果生产领域实体识别的准确性,提出一种新的Transformer优化模型。首先,为解决苹果生产数据集的缺失,基于苹果栽培领域园艺专家的知识经验,创建以苹果病虫害为主的产业数据集。通过字向量与词向量的拼接,提高文本语义表征的准确性;随后,为防止位置信息缺失,引入具有方向和距离感知的注意力机制,平均集成BiLSTM的上下文长距离依赖特征;最后,结合条件随机场(Conditional random fields, CRF)约束上下文标注结果,最终得到Transformer优化模型。实验结果表明,所提方法在苹果病虫命名实体识别中的F1值可达92.66%,可为农业命名实体的准确智能识别提供技术手段。  相似文献   

2.
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针对中文农作物病虫害数据集缺失问题,提出了基于半远程监督的停等算法,利用该算法构建中文农作物病虫害领域语料库,大幅度减少标注过程的人工成本和时间成本;同时,提出了中文农作物病虫害命名实体识别模型(Agricultural information extraction, Agr-IE),该模型基于BERT-BILSTM-CRF,辅以多源信息融合(多源分词信息和全局词汇嵌入信息)丰富字符向量,使其充分结合字符级与词汇级的信息,以提高模型捕捉上下文信息的能力。实验表明,该模型可以有效地识别病害、虫害、药剂、作物等实体,F1值分别为96.56%、95.12%、94.48%、95.54%,并对识别难度较大的病原实体具有较好的识别效果,F1值为81.48%,高于BERT-BILSTM-CRF、BERT等模型的相应值。本文所提模型在MSRA和Weibo等其他领域数据集上与CAN-NER、Lattice-LSTM-CRF等模型进行了对比实验,并取得最佳的识别效果,F1值分别为95.80%、94.57%,表明该算法具有一定的泛化能力。  相似文献   

3.
基于部首嵌入和注意力机制的病虫害命名实体识别   总被引:1,自引:0,他引:1  
郭旭超  唐詹  刁磊  周晗  李林 《农业机械学报》2020,51(S2):335-343
为了解决农业病虫害命名实体识别过程中存在的内在语义信息缺失、局部上下文特征易被忽略和捕获长距离依赖能力不足等问题,以农业病虫害文本为研究对象,提出一种基于部首嵌入和注意力机制的农业病虫害命名实体识别模型(Chinese agricultural diseases and pests named entity recognition with joint radical embedding and self attention, RS-ADP)。首先,该模型将部首嵌入集成到字符嵌入中作为输入,用以丰富语义信息。其中,针对部首嵌入设计了3种特征提取策略,即卷积神经网络(Convolutional neural network, CNN)、双向长短时记忆网络(Bidirectional long short term memory network, BiLSTM) 和CNN-BiLSTM;其次,采用多层不同窗口尺寸的CNNs层提取不同尺度的局部上下文信息;然后,在BiLSTM提取全局序列特征的基础上,采用自注意力机制进一步增强模型提取更长距离依赖的能力;最后,采用条件随机场(Conditional random field, CRF)联合识别实体边界和划分实体类别。在包含11个类别和24715条标注样本的农业病虫害自制语料上进行了实验。结果表明,本文模型RS-ADP在该数据集上精确率、召回率和F1值分别为94.16%、94.47%和94.32%;在具体实体类别上,RS-ADP在作物、病害、虫害等易识别实体上F1值高达95.81%、97.76%和97.23%。同时,RS-ADP在草害、病原等难以识别实体上F1值仍保持86%以上。实验结果表明,本文所提模型能够有效识别农业病虫害命名实体,其识别精度优于其他模型,且具有一定的泛化性。  相似文献   

4.
针对田间苋菜识别存在准确率低、样本数量少等问题,通过引入扩展感受野和提取上下文信息的ASPP注意力机制改进YOLO v5苋菜识别模型,在低数据集下改进后的模型能够显著提高F1值和mAP。实验结果表明,在低数据集下引入ASPP注意力机制后苋菜识别模型F1值提高13个百分点、mAP提高18.6个百分点。采用横向录制的方式苋菜被检测到的概率提高15.4个百分点。因此,本研究为苋菜或其他杂草在低数据集下的识别提供了有效的方法,为农业领域的杂草识别和管理研究提供了参考。  相似文献   

5.
针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。  相似文献   

6.
朱波  黎魁  邱兰  黎博 《农业机械学报》2024,55(5):273-281
针对烟草领域中问句意图识别存在的特征稀疏、术语繁多和捕捉文本内部的语义关联困难等问题,提出了一种基于SBERT-Attention-LDA(Sentence-bidirectional encoder representational from transformers-Attention mechanism-Latent dirichlet allocation)与ML-LSTM(Multi layers-Long short term memory)特征融合的问句意图识别方法。该方法首先基于SBERT预训练模型和Attention机制对烟草问句进行动态编码,转换为富含语义信息的特征向量,同时利用LDA模型建模出问句的主题向量,捕捉问句中的主题信息;然后通过更改后的模型级特征融合方法ML-LSTM获得具有更为完整、准确问句语义的联合特征表示;再使用3通道的卷积神经网络(Convolutional neural network,CNN)提取问句混合语义表示中隐藏特征,输入到全连接层和Softmax函数中实现对问句意图的分类。基于烟草行业权威网站上获取的数据集开展了实验验证,实验结果表明,所提方法相比其他几种深度学习结合注意力机制的方法精确率、召回率和F1值上有显著提升,与BERT和ERNIE(Enhanced representation through knowledge integration and embedding)-CNN模型相比提升明显,F1值分别提升2.07、2.88个百分点。  相似文献   

7.
农业病虫害领域的意图识别和槽位填充研究仍处于起步阶段,除语料严重匮乏外,还面临任务相互独立、忽略彼此相关性和未充分利用意图嵌入信息等问题。为此,提出了一种基于意图嵌入信息和槽位门控机制的意图识别与槽-位填充联合模型(AgIG-IDSF)。首先,该模型在共享编码模块引入了注意力机制用于丰富上下文语义特征;其次,提出了一种融合意图嵌入表示和槽位门控机制的意图-槽位交互方法用以增强意图信息指导槽位填充任务的能力,进而提高模型的整体识别性能。在包含22个意图类别、10个槽位类别和11 976条标注样本的自构建语料上进行了实验。结果表明,在该语料上AgIG-IDSF模型的意图识别准确率为94.41%,槽位填充F1值为94.01%,整体识别准确率高达88.07%,显著优于包含双向关联模型在内的多种基准模型,表明了该模型在识别农业病虫害意图与槽位方面的有效性。此外,在公共数据集上的实验结果还表明了该模型具有一定的泛化能力。  相似文献   

8.
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm, ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数...  相似文献   

9.
当前农业实体识别标注数据稀缺,部分公开的农业实体识别模型依赖手工特征,实体识别精度低。虽然有的农业实体识别模型基于深度学习方法,实体识别效果有所提高,但是存在模型推理延迟高、参数量大等问题。本研究提出了一种基于知识蒸馏的农业实体识别方法。首先,利用互联网的海量农业数据构建农业知识图谱,在此基础上通过远程监督得到弱标注语料。其次,针对实体识别的特点,提出基于注意力的BERT层融合模型(BERT-ALA),融合不同层次的语义特征;结合双向长短期记忆网络(BiLSTM)和条件随机场CRF,得到BERT-ALA+BiLSTM+CRF模型作为教师模型。最后,用BiLSTM+CRF模型作为学生模型蒸馏教师模型,保证模型预测耗时和参数量符合线上服务要求。在本研究构建的农业实体识别数据集以及两个公开数据集上进行实验,结果显示,BERT-ALA+BiLSTM+CRF模型的macro-F1相对于基线模型BERT+ BiLSTM+CRF平均提高1%。蒸馏得到的学生模型BiLSTM+CRF的macro-F1相对于原始数据训练的模型平均提高3.3%,预测耗时降低了33%,存储空间降低98%。试验结果验证了基于注意力机制的BERT层融合模型以及知识蒸馏在农业实体识别方面具有有效性。  相似文献   

10.
针对农业领域问答系统面临的实体识别困难的问题,提出一种基于改进Bi-LSTM-CRF的实体识别方法。首先通过BERT预训练模型的预处理,生成基于上下文信息的词向量,然后将训练出的词向量输入Bi-LSTM-CRF做进一步的训练处理,最后,利用Python的Django框架设计农业领域的实体识别、实体查询、农知问答等子系统。经过试验对比,所提出的改进的Bi-LSTM-CRF在农业信息领域具有更好的实体识别能力,在农业信息语料库上的精确率、召回率和F1值分别为93.23%、91.08%和92.16%。实现农业领域实体识别和农业信息问答的知识图谱网站演示,对农业信息化的发展具有重要意义。  相似文献   

11.
针对农业领域文本中专业术语类关键词提取困难的问题,本文提出了一种融合新词发现和改进TextRank算法的农业领域关键词提取方法,该算法通过信息熵对文本中的词进行成词概率计算,以此发现领域专有名词和新词,通过人工审核扩充分词字典;同时,在分词字典基础上,改进TextRank算法在词图构建中节点值的计算方法,添加词语位置和词性权重,利用词语综合权重提取文本关键词。通过实验对比,本研究的算法在F值上比传统的TF-IDF算法平均提高了7.5%,比TextRank算法平均提高了9.8%,具有一定的实用性。  相似文献   

12.
基于改进YOLO v3的自然场景下冬枣果实识别方法   总被引:4,自引:0,他引:4  
为实现自然场景下冬枣果实的快速、精准识别,考虑到光线变化、枝叶遮挡、果实密集重叠等复杂因素,基于YOLO v3深度卷积神经网络提出了一种基于改进YOLO v3(YOLO v3-SE)的冬枣果实识别方法.YOLO v3-SE模型利用SE Net的SE Block结构将特征层的特征权重校准为特征权值,强化了有效特征,弱化了...  相似文献   

13.
针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(Att-Aux-BERT-BiLSTM-CRF).通过BERT预处理模型进行...  相似文献   

14.
对猕猴桃产量的准确预估有利于合理安排后续采摘与运输工序,因此开发智能化的产量实时预估工具非常重要。针对大棚培育的猕猴桃矮化密植、分布范围广等特点,本研究利用果园履带小车采集视频,结合人工标注,建立猕猴桃检测和跟踪的数据集。考虑到自制数据集中猕猴桃占比小及密集分布的特点,本文提出使用YOLO v7模型加上Soft-NMS来检测每一帧图像内的猕猴桃。在卡尔曼滤波器预测的结果上,引入VGG16网络对猕猴桃进行特征提取,并结合匈牙利算法完成帧间目标的匹配。最后采用基于YOLO v7+DeepSort跟踪算法的ID计数方法对猕猴桃进行产量估计。实验结果表明,改进的YOLO v7模型在猕猴桃检测数据集上表现良好,检测的F1值为90.09%。猕猴桃跟踪数据集中使用的跟踪算法平均准确率为89.87%,每个目标正确匹配的精确率为82.34%,大型视频跟踪速度为20.19 f/s。在环境影响较小的条件下,ID计数准确率为97.49%。该方法可为猕猴桃果园智能化管理中的估产、采收规划等提供技术支撑。  相似文献   

15.
基于BERT的水稻表型知识图谱实体关系抽取研究   总被引:1,自引:0,他引:1  
针对水稻表型知识图谱中的实体关系抽取问题,根据植物本体论提出了一种对水稻的基因、环境、表型等表型组学实体进行关系分类的方法.首先,获取水稻表型组学数据,并进行标注和分类;随后,提取关系数据集中的词向量、位置向量及句子向量,基于双向转换编码表示模型(BERT)构建水稻表型组学关系抽取模型;最后,将BERT模型与卷积神经网...  相似文献   

16.
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、1...  相似文献   

17.
中国农技推广信息平台(NJTG)问答社区可以帮助用户与农业专家进行交互,从而获得精准的问题答案以解决农业场景问题。在平台问答社区中,每天会新增关于水稻的提问语句上千百条,检测相同语义问句是农业智能问答的关键技术环节,针对此问题采用字符级别的Word2Vec表示初始化问句表征,使用Siamese神经网络作为基础模型框架,学习句子的语义特征,获取上下文信息,然后使用BiLSTM长短期神经网络提取语义时序特征,最后在语义层次上使用一种包含语义信息的余弦函数计算问句相似度,并与其他语义匹配模型进行对比试验。通过构建7 820对水稻问句的相似对数据集,用来优化和训练模型的重要参数。试验结果表明:本文提出的BiLSTM-CNN模型可高效提取文本不同粒度的特征,提高水稻问句相似度匹配效果,在所构建的数据集上BiLSTM-CNN模型准确率和F1值均高于其他文本匹配模型,达到98.2%和88.75%。与此同时,所提出的模型在6种不同类别的水稻问句对的准确率也优于其他对比模型,在数据量较小的情况下,仍然可以取得较高的准确率,证明提出的模型具有良好的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号