首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 406 毫秒
1.
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm, ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数...  相似文献   

2.
许鑫  马文政  张浩  马新明  乔红波 《农业机械学报》2023,54(12):272-279,337
针对我国作物品种种类多,资源信息规范性差,模型训练精度低等问题,本文以小麦、水稻、玉米、大豆、棉花、花生、油菜7种作物为对象,以品种、形态、产量和品质等参数为指标,构建了83个品种实体,采用人工标注方法,通过融合对抗训练技术,提出了农作物品种信息抽取4层网络模型(BERT-PGD-BiLSTM-CRF)。模型基于深层双向Transformer构建的BERT(Bidirectional encoder representation from transformers)模型作为预训练模型获取字词语义表示,使用PGD(Projected gradient descent)对抗训练方法为样本增加扰动,提高模型鲁棒性和泛化性,利用双向长短期记忆网络(Bidirectional long short-term memory, BiLSTM)学习长距离文本信息,结合条件随机场(Conditional random field, CRF)学习标签约束信息。对比18个不同信息抽取模型的训练效果,结果表明,本研究提出的BERT-PGD-BiLSTM-CRF模型精确率为95.4%、召回率为97.0%、F1值...  相似文献   

3.
中文信息处理对于人们日常生活中获取信息起着举足轻重的作用,是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。分词结果一般符合逻辑,符合日常生活中语言表达规范。因此,能很好被人们所理解运用,但由于汉语本身的特殊性和复杂性,中文分词面临许多难点,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别2个难点。因此,一个性能良好的中文分词方法不但需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。本文对搜索引擎的中文分词技术进行研究,具有一定的理论价值和实际意义。  相似文献   

4.
基于Attention_DenseCNN的水稻问答系统问句分类   总被引:1,自引:0,他引:1  
为了解决“中国农技推广APP”问答社区中水稻提问数据快速自动分类的问题,提出一种基于Attention_DenseCNN的水稻文本分类方法。根据水稻文本具备的特征,采用Word2vec方法对文本数据进行处理与分析,并结合农业分词词典对文本数据进行向量化处理,采用Word2vec方法能够有效地解决文本的高维性和稀疏性问题。对卷积神经网络(CNN)上下游卷积块之间建立一条稠密的链接,并结合注意力机制(Attention),使文本中的关键词特征得以充分体现,使文本分类模型具有更好的文本特征提取精度,从而提高了分类精确率。试验表明:基于Attention_DenseCNN的水稻问句分类模型可以提高文本特征的利用率、减少特征丢失,能够快速、准确地对水稻问句文本进行自动分类,其分类精确率及F1值分别为95.6%和94.9%,与其他7种神经网络问句分类方法相比,分类效果明显提升。  相似文献   

5.
郑丽敏  乔振铎  田立军  杨璐 《农业机械学报》2021,52(7):244-250,158
在食品安全法规问答系统中,食品安全法规问题的单标签文本分类不能完全概括问题所包含的有效信息,为了改进单标签文本分类效果,根据问题所涉及食品安全角度和层次的不同,提出一种基于BERT-LEAM(Bidirectional encoder representational from transformers-label embedding attentive model)的多标签文本分类方法。采用多角度、分层次的多标签标注方法将单个问题文本赋予多个标签,并引入BERT预训练语言模型表示上下文特征信息, 通过Attention机制学习标签与文本的依赖关系,进行Word embedding的聚合,将标签应用到文本分类过程中。实验表明,在粗粒度多标签数据集上的分类效果明显优于细粒度多标签数据集上的分类效果,BERT进行文本特征表示的方法优于Word2Vec方法,采用BERT-LEAM模型的分类方法在粗粒度多标签数据集与细粒度多标签数据集的F1-W值分别为93.35%和79.81%,其分类效果优于其他分类模型。  相似文献   

6.
基于卷积模型的农业问答语性特征抽取分析   总被引:1,自引:0,他引:1  
互联网农技推广社区每秒增衍问答数据近万组,这些海量数据具有隐性的词性、情感和冗余向量特征,实现数据聚合与数据块消减是该领域的难题。提出了一种基于卷积神经网络的农业问答情感极性特征抽取分析模型,结合农业分词字典,对数据集进行分词后使用Skip-gram模型转换为256维的词向量,利用批规范后的卷积神经网络对数据集进行训练,从而得到用于识别农技推广社区问答词性情感相似性的神经网络模型参数。试验结果表明,该方法能够准确识别测试样例集中的冗余队列,与其他5种文本分类方法进行比较,各项指标优势明显,针对测试集的语性特征抽取准确率达到82.7%。  相似文献   

7.
基于注意力机制的农业文本命名实体识别   总被引:4,自引:0,他引:4  
针对农业智能问答系统构建过程中传统的农业命名实体识别方法依赖人工特征模板、特征信息提取不充分、实体名称多样导致标注不一致等问题,提出一种基于注意力机制的农业文本命名实体识别方法。采用连续词袋模型(Continuous bag of words,CBOW)对输入字向量进行预训练,丰富字向量特征信息,缓解分词准确度对性能的影响;引入文档级的注意力(Attention)机制,获取实体间相似信息,保证实体在不同语境下的标签一致性;基于双向长短期记忆网络(Bi-directional long-short term memory,BiLSTM)和条件随机场(Conditional random field,CRF)模型,构建适合农业领域实体识别的模型框架。选取4604篇农业文本,针对病害、虫害、农药、农作物品种4类实体进行了识别实验。结果表明,模型能有效地辨别农业文本中的实体,缓解实体标记不一致的问题,在农业语料上达到了较好的结果,识别的准确率、召回率、F值分别为93.48%、90.60%、92.01%。与其他3种识别方法相比,模型在不同规模语料库的准确率均有一定提高,具有明显的性能优势。  相似文献   

8.
为提高苹果生产领域实体识别的准确性,提出一种新的Transformer优化模型。首先,为解决苹果生产数据集的缺失,基于苹果栽培领域园艺专家的知识经验,创建以苹果病虫害为主的产业数据集。通过字向量与词向量的拼接,提高文本语义表征的准确性;随后,为防止位置信息缺失,引入具有方向和距离感知的注意力机制,平均集成BiLSTM的上下文长距离依赖特征;最后,结合条件随机场(Conditional random fields, CRF)约束上下文标注结果,最终得到Transformer优化模型。实验结果表明,所提方法在苹果病虫命名实体识别中的F1值可达92.66%,可为农业命名实体的准确智能识别提供技术手段。  相似文献   

9.
当前农业实体识别标注数据稀缺,部分公开的农业实体识别模型依赖手工特征,实体识别精度低。虽然有的农业实体识别模型基于深度学习方法,实体识别效果有所提高,但是存在模型推理延迟高、参数量大等问题。本研究提出了一种基于知识蒸馏的农业实体识别方法。首先,利用互联网的海量农业数据构建农业知识图谱,在此基础上通过远程监督得到弱标注语料。其次,针对实体识别的特点,提出基于注意力的BERT层融合模型(BERT-ALA),融合不同层次的语义特征;结合双向长短期记忆网络(BiLSTM)和条件随机场CRF,得到BERT-ALA+BiLSTM+CRF模型作为教师模型。最后,用BiLSTM+CRF模型作为学生模型蒸馏教师模型,保证模型预测耗时和参数量符合线上服务要求。在本研究构建的农业实体识别数据集以及两个公开数据集上进行实验,结果显示,BERT-ALA+BiLSTM+CRF模型的macro-F1相对于基线模型BERT+ BiLSTM+CRF平均提高1%。蒸馏得到的学生模型BiLSTM+CRF的macro-F1相对于原始数据训练的模型平均提高3.3%,预测耗时降低了33%,存储空间降低98%。试验结果验证了基于注意力机制的BERT层融合模型以及知识蒸馏在农业实体识别方面具有有效性。  相似文献   

10.
设计了一套面向移动终端的农业知识文语转换系统,该系统借鉴语义检索技术中对于关键词的语义处理方式,用语义检索技术处理文本切分过程中所遇到的歧义字段,可将农业文本知识转换为自然流畅的语音,并结合呼叫中心技术、借助移动终端推广农业知识。首先对文语转换中的文本分析流程进行分析,明确歧义字段处理为文语转换的关键点。在明确关键点的基础上,设计出用于进行分词的词典,进而基于词典匹配和统计分析模型对歧义字段进行提取,再基于语义检索对歧义字段进行处理,从而实现歧义字段的切分,最终采用Cool Edit Pro 2.0软件实现语音合成和韵律处理功能,开发出面向移动终端的农业知识文语转换系统,可有效解决歧义字段的处理问题。由测试结果可以看出,本文算法的查准率为94.03%,较最大匹配法和三元语法的查准率分别提高了5.72个百分点和0.97个百分点;本文算法的查全率为95.32%,较最大匹配法和三元语法的查全率分别提高了0.23个百分点和1.95个百分点;本文算法的F-1测度为0.93,较最大匹配法提高了0.01,与三元语法相同,说明本文算法具有较好的性能。  相似文献   

11.
为解决文本特征提取不准确和因网络层次加深而导致模型分类性能变差等问题,提出基于深度卷积神经网络的水稻知识文本分类方法。针对水稻知识文本的特点,采用Word2Vec方法进行文本向量化处理,并与OneHot、TF-IDF和Hashing方法进行对比分析,得出Word2Vec方法具有较高的分类精度,正确率为86.44%,能够有效解决文本向量表示稀疏和信息不完整等问题。通过调整残差网络(Residual network,Res Net)结构,分析残差模块结构和网络层次对分类网络的影响,构建了9种分类网络结构,测试结果表明,具有4层残差模块结构的网络具有较好的特征提取精度,Top-1准确率为99.79%。采用优选出的4层残差模块结构作为基本结构,使用胶囊网络(Capsule network,Caps Net)替代其池化层,设计了水稻知识文本分类模型。与Fast Text、Bi LSTM、Atten-Bi GRU、RCNN、DPCNN和Text CNN等6种文本分类模型的对比分析表明,本文设计的文本分类模型能够较好地对不同样本量和不同复杂程度的水稻知识文本进行精准分类,模型的精准率、召回率和F1值分别不小于95.17%、95.83%和95.50%,正确率为98.62%。本文模型能够实现准确、高效的水稻知识文本分类,满足实际应用需求。  相似文献   

12.
针对农业领域文本中专业术语类关键词提取困难的问题,本文提出了一种融合新词发现和改进TextRank算法的农业领域关键词提取方法,该算法通过信息熵对文本中的词进行成词概率计算,以此发现领域专有名词和新词,通过人工审核扩充分词字典;同时,在分词字典基础上,改进TextRank算法在词图构建中节点值的计算方法,添加词语位置和词性权重,利用词语综合权重提取文本关键词。通过实验对比,本研究的算法在F值上比传统的TF-IDF算法平均提高了7.5%,比TextRank算法平均提高了9.8%,具有一定的实用性。  相似文献   

13.
随着农作物病虫害研究文献的快速增长,对农作物病虫害领域文献进行文本挖掘变得越来越重要。开发有效、准确的农作物病虫害命名实体识别系统有助于在农作物病虫害相关研究报告中提取研究成果,为农作物病虫害的治理提供有效建议。本文针对中文农作物病虫害数据集缺失问题,提出了基于半远程监督的停等算法,利用该算法构建中文农作物病虫害领域语料库,大幅度减少标注过程的人工成本和时间成本;同时,提出了中文农作物病虫害命名实体识别模型(Agricultural information extraction, Agr-IE),该模型基于BERT-BILSTM-CRF,辅以多源信息融合(多源分词信息和全局词汇嵌入信息)丰富字符向量,使其充分结合字符级与词汇级的信息,以提高模型捕捉上下文信息的能力。实验表明,该模型可以有效地识别病害、虫害、药剂、作物等实体,F1值分别为96.56%、95.12%、94.48%、95.54%,并对识别难度较大的病原实体具有较好的识别效果,F1值为81.48%,高于BERT-BILSTM-CRF、BERT等模型的相应值。本文所提模型在MSRA和Weibo等其他领域数据集上与CAN-NER、Lattice-LSTM-CRF等模型进行了对比实验,并取得最佳的识别效果,F1值分别为95.80%、94.57%,表明该算法具有一定的泛化能力。  相似文献   

14.
针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(Att-Aux-BERT-BiLSTM-CRF).通过BERT预处理模型进行...  相似文献   

15.
基于知识库的畜禽疾病诊断专家系统   总被引:1,自引:0,他引:1  
随着养殖业的发展,畜禽疾病成为困扰广大养殖户的主要问题.为此,根据畜禽疾病的特点,应用专家系统的原理和面向对象程序设计的思想,设计出基于知识库的畜禽疾病诊断专家系统.该系统易用性好,功能较完善,对畜禽疾病的诊断有较好的辅助作用.  相似文献   

16.
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号