首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
命名实体识别是从农产品信息文本数据中有效抽取信息的关键一步,旨在从非结构化文本中确定与农产品特性相关的命名实体。农业领域的命名实体识别研究大多集中在农业病虫害领域,关于农产品信息文本的实体识别研究较少,通过采用BMES标注的方式对爬虫获取的农产品信息文本数据进行标注,提出融合BERT的BiLSTM-CRF深度学习模型对该文本数据进行实体抽取。将该模型与多种神经网络模型的实验结果比较发现,融合BERT的BiLSTM-CRF模型对农作物、地区、富含营养成分等3种命名实体识别的准确率和召回率分别为82.25%和84.54%,明显优于IDCNN-CRF等神经网络模型,说明该方法能有效识别抽取农产品信息文本数据命名实体。基于此,命名实体识别作为中文文本信息抽取的关键技术,在农产品信息推荐系统、智能问答等方面将会有广泛的应用前景。  相似文献   

2.
针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。  相似文献   

3.
融合注意力机制和BiLSTM+CRF的渔业标准命名实体识别   总被引:2,自引:0,他引:2  
为了解决渔业标准文本中专有命名实体具有上下文敏感性、长序列存在语义稀释等问题,提出了基于E-BIO标注法和融合注意力机制的BiLSTM+CRF (BiLSTM+Attention+CRF)命名实体识别模型,E-BIO标注法引入渔业标准文本中的结构化信息,可以使模型有效学习上下文结构特征,而注意力机制输出不断变化的语义向量,可有效解决长序列语义稀释问题。为验证所提出方法的有效性,在采用E-BIO方法标注的语料上进行对比试验,结果显示,BiLSTM+Attention+CRF模型对不同类别的渔业标准命名实体识别的准确率均能达到90%以上,召回率均能达到85%以上。研究表明,本研究中提出的BiLSTM+Attention+CRF命名实体识别模型可以有效利用上下文结构特征,避免了语义稀释问题,对于渔业标准命名实体识别具有较好的识别性能。  相似文献   

4.
命名实体识别是构建知识图谱的关键,在农业病虫害领域存在病虫害数据匮乏、实体结构复杂、实体类型识别困难等问题。针对于病虫害数据匮乏,本文采用网络爬虫技术以及扫描文本数据的方法,构建了玉米、小麦、水稻病虫害实体语料库。传统的命名实体识别方法无法解决农业病害实体结构复杂、实体类型识别困难等问题。本文提出一种基于GPT规则修正的LEBERT-BilSTM-CRF模型,LEBERT模型构建了字典树和Lexicon-Adapter结构,将原始字符进行扩充增加数据的丰富性,将经过BiLSTM-CRF的输出和GPT结果进行实体标签修正以此来提高准确率。在公开数据集训练得到合适的参数后,在自建文本语料库进行训练,通过条件随机场和GPT修正生成全局最优序列取得很好的识别效果,准确率为94.23%,召回率为92.34%,F1值为93.28%。  相似文献   

5.
系统介绍了生物医学文本挖掘的具体流程和文本挖掘技术在生物医学领域中的应用情况,并着重从自然语言处理和本体、命名实体识别、关系抽取、文本分类与聚类、共现分析、系统工具及评价、可视化等方面分别做了阐述。  相似文献   

6.
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields, CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F1值分别达到91.3%、94.5...  相似文献   

7.
为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题, 提出基于融合注意力机制的卷积神经网络 (CNN) -双向门控循环单元网络 (BiGRU) -条件随机场 ( CRF) 网络模型进行外来海洋生物命名实体识别, 并构造词向量、词性特征向量等特征作为网络模型的联合输入, 以提升网络模型识别效果...  相似文献   

8.
基于深度学习的渔业领域命名实体识别   总被引:2,自引:0,他引:2  
为了解决基于分词的渔业领域命名实体识别效果受分词准确度影响这一问题,采用一种基于深度学习的渔业领域命名实体识别方法。该方法使用神经网络训练得到字向量作为模型输入,避免了分词不准确对渔业领域命名实体识别效果造成的影响;针对渔业领域命名实体长度较长这一特点,使用LSTM单元保持较长时间记忆信息,并将标记信息融入到CRF模型中构建Character+LSTM+CRF实体识别模型。为验证方法的有效性,在渔业领域语料集上进行多组实验,结果表明,本研究中提出的Character+LSTM+CRF方法具有较好的效果,与LSTM模型相比较,在准确率、召回率、F值上分别提升了3.39%、2.99%、3.19%,对于渔业领域实体识别具有较好的效果。  相似文献   

9.
方莹 《广东农业科学》2011,38(6):197-199
提出了一种基于层叠条件随机场模型(C-CRF)的农业领域命名实体识别方法。该方法在底层以字作为切分粒度,充分利用农作物特征词典,识别简单命名实体。识别结果作为高层条件随机场的输入,在高层以词作为切分粒度,结合复杂特征,识别嵌套命名实体。实证分析表明该方法获得了较好的结果。  相似文献   

10.
人类基因组计划使生物医学的研究取得了前所未有的成就,在研究结果中得到了大量的生物医学实体,如基因、蛋白质、器官、疾病和药物等,但这些生物实体之间存在什么样的关系仍不完全清楚。作为生物医学研究成果载体的文献呈指数增长,已成为科研人员获取知识的瓶颈。文本挖掘能够解决信息超载问题,故对生物医学实体关系的挖掘流程和评价指标进行介绍,对生物医学文本挖掘在研究生物实体关系抽取中采用的基于统计的方法、基于自然语言处理的方法和基于模式匹配的方法进行了阐述,对各种方法进行了综合比较,同时介绍了国内外相关研究。  相似文献   

11.
针对珍稀濒危植物形态特征、分类等级、濒危系数、保护措施等知识不明确的问题,设计了文本融合轻量级双向转换编码表示模型(Albert)的知识抽取模型框架,实现批量抽取珍稀濒危植物知识,从而构建珍稀濒危植物知识图谱:1) 在现存一般性植物本体的基础上,采用自顶向下的方式构建珍稀濒危植物本体,得到5个体系,即物种分类体系、生长形态特征体系、命名体系、保护现状体系和生态习性体系;2) 采取Albert预训练模型来增强下游任务模型输入向量的珍稀濒危植物属性描述文本语义的表征能力;3) 利用BiLSTM–CRF模型和BiGRU–Attention模型分别实现命名实体识别和关系抽取。在珍稀濒危植物数据测试集上对模型的有效性进行验证,结果表明,命名实体识别模型和关系抽取模型的召回率和准确率的调和平均值(F1)值分别达到98.07%和93.76%,将得到的大量的实体和关系所形成的三元组存储在图数据库Neo4j中,完成珍稀濒危植物知识图谱的可视化展示。  相似文献   

12.
文本分类中特征质量的好坏,会直接影响到分类的准确率,从特征提取这一环节出发,实现了一种改进的基于基尼指数的特征提取方法Gini,提出一种全局和局部特征提取相融合的特征提取方法。当MI、IG、CE、WET、Gini与χ2这6种特征提取方法用于SVM分类实验时,发现Gini全局特征提取能力强,χ2方法适合局部特征提取;当Gini与χ2两种方法相融合进行特征提取时表现出较强的特征提取能力,明显优于全局和局部的提取效果.  相似文献   

13.
在农田空间信息数据库支持下,以MapInfo8.5为系统开发平台,利用MapBasic7.0和Visual Basic 6.0(VB 6.0)程序设计技术,建立农田管理信息系统,该系统包含农田信息采集、空间数据管理、农田质量评价、作物种植预测和农田作业决策5个子系统,把与农田作物生产信息与具体的实物地图相结合进行空间分析处理,并通过相关的质量标准和模型运算进行农田质量评价、作物生长预测、栽培管理和精准管理方案设计等,以可视化形式(地图、表格或文字)为农田信息实时、动态和形象管理提供了高效合理的平台.  相似文献   

14.
由冬瓜提取物为主料 ,配以枸杞、茯苓等具有健脾补肾、清热利尿功效的几种疗食同源的原料研制成功能食品“健肾灵”口服液 ,经 SD大鼠实验证明 :有明显的增加排尿量 ,降低血清尿素氮和主要脏器脂质过氧化物的含量 ,可减少自由基对机体的损害 ;经人体临床观察进一步证实“健肾灵”能降低尿蛋白 ,阻滞肾脏病变 ,清除氧自由基 ,提高 SOD活力 ,调节免疫功能 ,改善临床症状 ,具有保护肾功能的作用。  相似文献   

15.
文本分类中特征提取方法的比较与研究   总被引:1,自引:0,他引:1  
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.  相似文献   

16.
文本与游戏--关于课程与教学的另类话语   总被引:1,自引:0,他引:1  
课程的文本观是指把课程看作一个供人任意阐释的文本,学生可以进行无限多的阅读并产生无限多的意义,它本质上是一种后现代的课程观。作为文本的课程呈现出许多不同于传统蓝本课程的特点。教学的游戏观认为教学是一种游戏活动,此游戏概念具有本体论的意义。教学作为游戏,其根本本性就是自由,师生作为平等的"同戏者"共同约定游戏规则,并在规则中"自由起舞"。人们期待文本与游戏理论具有合理地解释和有效地指导生活的旨趣。  相似文献   

17.
词汇衔接是实现语篇连贯的多种衔接机制之一。木文根据语篇连贯研究的基木理论,分析探讨了词汇手段衔接语篇的功能及其形式特征。复现和搭配是选择词汇概念意义的两种类型,它们起组织和连接词汇语义功能,达到谋句成篇目的。对词汇衔接的研究帮助读者更好地理解词汇语义与连贯的关系,把握语篇的真正交际意图。  相似文献   

18.
Recent developments in the storage, retrieval, and manipulation of large text files are described. The text analysis problem is examined, and modern approaches leading to the identification and retrieval of selected text items in response to search requests are discussed.  相似文献   

19.
Vast amounts of text material are now available in machine-readable form for automatic processing. Here, approaches are outlined for manipulating and accessing texts in arbitrary subject areas in accordance with user needs. In particular, methods are given for determining text themes, traversing texts selectively, and extracting summary statements that reflect text content.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号