首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别   总被引:2,自引:0,他引:2  
为了解决渔业标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,提出了基于E-BIO标注法和融合注意力机制的BiLSTM+CRF (BiLSTM+Attention+CRF)命名实体识别模型,E-BIO标注法引入渔业标准文本中的结构化信息,可以使模型有效学习上下文结构特征,而注意力机制输出不断变化的语义向量,可有效解决长序列语义稀释问题。为验证所提出方法的有效性,在采用E-BIO方法标注的语料上进行对比试验,结果显示,BiLSTM+Attention+CRF模型对不同类别的渔业标准命名实体识别的准确率均能达到90%以上,召回率均能达到85%以上。研究表明,本研究中提出的BiLSTM+Attention+CRF命名实体识别模型可以有效利用上下文结构特征,避免了语义稀释问题,对于渔业标准命名实体识别具有较好的识别性能。  相似文献   

2.
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields, CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F1值分别达到91.3%、94.5...  相似文献   

3.
针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。  相似文献   

4.
基于深度学习的渔业领域命名实体识别   总被引:2,自引:0,他引:2  
为了解决基于分词的渔业领域命名实体识别效果受分词准确度影响这一问题,采用一种基于深度学习的渔业领域命名实体识别方法。该方法使用神经网络训练得到字向量作为模型输入,避免了分词不准确对渔业领域命名实体识别效果造成的影响;针对渔业领域命名实体长度较长这一特点,使用LSTM单元保持较长时间记忆信息,并将标记信息融入到CRF模型中构建Character+LSTM+CRF实体识别模型。为验证方法的有效性,在渔业领域语料集上进行多组实验,结果表明,本研究中提出的Character+LSTM+CRF方法具有较好的效果,与LSTM模型相比较,在准确率、召回率、F值上分别提升了3.39%、2.99%、3.19%,对于渔业领域实体识别具有较好的效果。  相似文献   

5.
针对珍稀濒危植物形态特征、分类等级、濒危系数、保护措施等知识不明确的问题,设计了文本融合轻量级双向转换编码表示模型(Albert)的知识抽取模型框架,实现批量抽取珍稀濒危植物知识,从而构建珍稀濒危植物知识图谱:1) 在现存一般性植物本体的基础上,采用自顶向下的方式构建珍稀濒危植物本体,得到5个体系,即物种分类体系、生长形态特征体系、命名体系、保护现状体系和生态习性体系;2) 采取Albert预训练模型来增强下游任务模型输入向量的珍稀濒危植物属性描述文本语义的表征能力;3) 利用BiLSTM–CRF模型和BiGRU–Attention模型分别实现命名实体识别和关系抽取。在珍稀濒危植物数据测试集上对模型的有效性进行验证,结果表明,命名实体识别模型和关系抽取模型的召回率和准确率的调和平均值(F1)值分别达到98.07%和93.76%,将得到的大量的实体和关系所形成的三元组存储在图数据库Neo4j中,完成珍稀濒危植物知识图谱的可视化展示。  相似文献   

6.
为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题, 提出基于融合注意力机制的卷积神经网络 (CNN) -双向门控循环单元网络 (BiGRU) -条件随机场 ( CRF) 网络模型进行外来海洋生物命名实体识别, 并构造词向量、词性特征向量等特征作为网络模型的联合输入, 以提升网络模型识别效果...  相似文献   

7.
针对TF-IDF算法未考虑到文本关键词分布以及受不均衡数据集影响的问题,提出了一种多特征融合的术语频率-逆文档逆词频率(TF-IDIWF)自动标引算法,并与TF-IDF、TF-IWF、TextRank、LSI及LDA基线算法进行对比验证。利用python爬虫技术获取20万条农业文本语料以csv文件格式存储,用于训练农业词向量模型,随机抽取政策法规类、新闻资讯类、市场类、科技类文章各1 000篇并进行多人独立标注,标注词个数为5~13个,将标注结果整合归纳后生成AGRI2020农业文本均衡数据集。为验证TF-IDIWF算法能否降低不均衡数据集带来的影响,从AGRI2020中随机抽取新闻资讯类1 000篇,其余3个类别各100篇构建出农业文本不均衡数据集。首先利用TF-IDF融合词向量技术对分词后的词语进行过滤、筛选以及近义词归并,再引入词位置、词性及词跨度特征权重融合逆文档频率及逆词频率对农业文本进行关键词自动标引。结果表明,在不均衡数据集上的F1值为57.08%,相较于TF-IDF、TF-IWF算法分别提高了9.12%、1.24%;在均衡数据集上的平均F1值为60.80%,相较于TF-...  相似文献   

8.
命名实体识别是从农产品信息文本数据中有效抽取信息的关键一步,旨在从非结构化文本中确定与农产品特性相关的命名实体。农业领域的命名实体识别研究大多集中在农业病虫害领域,关于农产品信息文本的实体识别研究较少,通过采用BMES标注的方式对爬虫获取的农产品信息文本数据进行标注,提出融合BERT的BiLSTM-CRF深度学习模型对该文本数据进行实体抽取。将该模型与多种神经网络模型的实验结果比较发现,融合BERT的BiLSTM-CRF模型对农作物、地区、富含营养成分等3种命名实体识别的准确率和召回率分别为82.25%和84.54%,明显优于IDCNN-CRF等神经网络模型,说明该方法能有效识别抽取农产品信息文本数据命名实体。基于此,命名实体识别作为中文文本信息抽取的关键技术,在农产品信息推荐系统、智能问答等方面将会有广泛的应用前景。  相似文献   

9.
为解决渔业健康养殖标准文本关系抽取领域特定性强、语意复杂导致关系抽取准确率不高等问题,提出了基于改进BiRTE的渔业健康养殖标准复杂关系抽取方法,针对实体和语义关联建模,将RoBERTa作为编码器,采用全词掩码和动态掩码的方式增强词向量特征表示,并在此基础上融合了自注意力机制(Self-Attention, SelfATT)将实体特征与关系特征结合聚焦,加强实体抽取与关系预测的联系,从而提升渔业标准文本抽取的准确性。结果表明:本文提出的基于改进BiRTE的渔业健康养殖标准复杂关系抽取模型(RoBERTa-BiRTE-SelfATT)对渔业标准复杂关系抽取的准确率、召回率和F1值分别为95.9%、95.4%、95.7%,较BiRTE模型分别提升了4.2%、3.1%、3.8%。研究表明,本文提出的渔业健康养殖标准复杂关系抽取模型RoBERTa-BiRTE-SelfATT可以有效解决渔业标准文本关系抽取中专有名词识别不准确、语意复杂导致实体关系难以抽取的问题,是一种有效的渔业标准复杂关系抽取方法。  相似文献   

10.
鲍彤  罗瑞  郭婷  贵淑婷  任妮 《南方农业学报》2022,53(7):2068-2076
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93....  相似文献   

11.
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.  相似文献   

12.
命名实体识别是构建知识图谱的关键,在农业病虫害领域存在病虫害数据匮乏、实体结构复杂、实体类型识别困难等问题。针对于病虫害数据匮乏,本文采用网络爬虫技术以及扫描文本数据的方法,构建了玉米、小麦、水稻病虫害实体语料库。传统的命名实体识别方法无法解决农业病害实体结构复杂、实体类型识别困难等问题。本文提出一种基于GPT规则修正的LEBERT-BilSTM-CRF模型,LEBERT模型构建了字典树和Lexicon-Adapter结构,将原始字符进行扩充增加数据的丰富性,将经过BiLSTM-CRF的输出和GPT结果进行实体标签修正以此来提高准确率。在公开数据集训练得到合适的参数后,在自建文本语料库进行训练,通过条件随机场和GPT修正生成全局最优序列取得很好的识别效果,准确率为94.23%,召回率为92.34%,F1值为93.28%。  相似文献   

13.
为采用数码相机拍摄的水稻冠层图像来估测作物的氮素含量。以自然环境下获得的水稻冠层图像为研究对象,提出一种基于图像纹理色彩特征(LBPHSV)和ResNet50网络融合算法的氮素含量预测方法。LBPHSV+ResNet50融合算法是通过运用LBP算子和HSV颜色空间矩阵提取图像特征参数,将提取到的融合特征集作为ResNet50模型输入以加强对作物氮素营养的表征,并将预测结果与常用的多元线性回归、随机森林(RF)、支持向量回归模型、多层感知机、卷积神经网络、长短记忆网络(LSTM)及组合模型预测结果进行对比分析。结果显示:相比于浅层机器学习模型,深度学习算法能显著提高预测模型的准确率;LBPHSV+ResNet50融合模型的预测能力和泛化能力达到最优,R2和 RMSE分别为 0.97、0.02。相比于RF、LBP+LSTM、ResNet50,新模型的R2分别提升了16.36%、9.72%、16.55%和1.13%,RMSE 分别下降了 0.35、0.46、0.05和 0.002。因此,LBPHSV+ResNet50融合模型在预测水稻氮素含量时可提供令人满意的性能,能够满足对水稻氮素营养无损精准监测的农业需求。  相似文献   

14.
在大数据环境下,农户在互联网中获取指导农业生产的信息更加困难,随着"一带一路"国家发展战略的全面展开,广大农民对农业信息服务的需求有增无减。针对传统推荐系统不能反映用户兴趣迁移、推荐精度不高等问题,提出来基于组合模型的农业信息推荐系统,提高农业信息推荐的自适应性和准确性。系统结合云计算技术提出一种基于Hadoop+Nutch的全网农业信息数据仓库构建方法,通过纳入时间权重、情景变更和兴趣迁移的优化向量空间模型构建了自适应性的用户兴趣模型,以及借助组合神经网络提高推荐精度提出了组合推荐算法。最后通过评价召回率、准确率等指标表明,基于组合模型的推荐系统可大幅提高推荐准确性和鲁棒性。  相似文献   

15.
对基于向量空间模型的文本分类所涉及的关键技术:特征选取、特征向量表示方法、特征向量的维数、文本分类的评价标准进行了分析和研究.为了对比和验证文本分类在特征词选取方法,特征向量表示方法以及在不同维数下对分类的影响,选择了1 600篇中文农业网页进行正交实验,并对这些因素进行比较和分析,选出分类效果最好的组合.研究表明,当使用综合文档频(DFD)特征词选取方法选取特征词,用词频表示特征向量,特征向量维数为300维时,有较好的分类效果,平均查准率可以达到92.63%,平均召回率可以达到91.5%.  相似文献   

16.
基于江西省1989~2018年期间的省级动态数据,从内生性视角构建了农业技术进步、农村劳动力转移和农民收入三者之间的VAR模型(向量自回归模型),通过Granger(格兰杰)因果检验、脉冲响应函数和方差分解分析了三者之间的动态关系.研究表明:农村劳动力转移与农业技术进步对农民收入有长期的正向影响,农民收入与农业技术进步之间相互影响,农民收入和农业技术进步对农村劳动力转移有显著正向作用.  相似文献   

17.
是“互联网+农业”还是“农业+互联网”   总被引:1,自引:0,他引:1  
不同的时代,有不同的高新技术。无论哪个时代,创新的重点都是利用那个时代的高新技术发展实体经济。互联网是人类技术发展中的一个阶段,是当今人类提高实体经济效率的一种技术、一个工具,在它之前有很多,在它之后会更多。为此,本文从三方面质疑"互联网+农业",从三方面支持"农业+互联网",并通过类比教育、医疗与互联网的关系进一步阐明观点,中国农业问题的解决,必须立足于农业本身的系统性方案。最后以中国农谷屈家岭为例,介绍了"农业+互联网"的具体做法,即强化实体经济"立地"、推进+互联网"顶天"。  相似文献   

18.
为了充分利用已有农业科技信息资源为涉农用户提供便捷准确有效的技术咨询服务,研究采用智能问答的方式,通过分析传统向量空间模型在农业特定领域应用中存在的问题,提出了一种二维向量空间模型(2DVSM),在此基础上,在Ajax的支持下开发了农业技术智能问答系统.应用结果表明,系统平均准确率可达83.23%,问答平均耗时可减少到0.06453s/次,问题咨询操作可实现0次刷新.系统简单准确专业的答疑服务及良好的用户体验能满足涉农用户对生产技术信息的需求.  相似文献   

19.
随着农业现代化技术的采用和机械需求的增加,农户投入到农业生产的成本日渐增加,对农机专业合作社的需求呈扩大趋势。农机作业是农机专业合作社进行农业社会化服务的核心内容。其发展不仅能完善农业代耕代种、联耕联种、土地托管等项目,更是加快农业供给侧结构性改革的关键步骤。农机作业服务的"1+2+1"模式建立在"1个能人和农机农技2项技术"基础上,利用互联网技术建立信息化平台将人与农机农技完美组织,旨在改善原先"1+2"模式中管理不到位、运作效果差等问题,促进农机作业社会化服务的规范化、标准化发展。  相似文献   

20.
基于Google Earth Engine的曲靖市烤烟种植区遥感提取   总被引:1,自引:0,他引:1  
应用高分辨率的Sentinel-2A数据,提出了随机森林算法结合多特征的烤烟遥感提取方法.然后将支持向量机和分类回归树算法与随机森林算法进行了对比试验,3种分类器与光谱+地形+纹理+缨帽特征组合的平均验证精度分别为63%、88%和94%,随机森林分类器结合光谱+地形+纹理+缨帽特征组合的分类精度最佳,制图精度达到90%,用户精度为98%,总体精度为96%,Kappa系数为0.94.结果显示,研究区烤烟的最佳分类时相为4月下旬至5月下旬;随机森林算法结合光谱+地形+纹理+缨帽特征的方法能够精确地对研究区烤烟种植区进行遥感提取,为云南高原山区农作物提取提供技术参考.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号