共查询到18条相似文献,搜索用时 62 毫秒
1.
命名实体识别是从农产品信息文本数据中有效抽取信息的关键一步,旨在从非结构化文本中确定与农产品特性相关的命名实体。农业领域的命名实体识别研究大多集中在农业病虫害领域,关于农产品信息文本的实体识别研究较少,通过采用BMES标注的方式对爬虫获取的农产品信息文本数据进行标注,提出融合BERT的BiLSTM-CRF深度学习模型对该文本数据进行实体抽取。将该模型与多种神经网络模型的实验结果比较发现,融合BERT的BiLSTM-CRF模型对农作物、地区、富含营养成分等3种命名实体识别的准确率和召回率分别为82.25%和84.54%,明显优于IDCNN-CRF等神经网络模型,说明该方法能有效识别抽取农产品信息文本数据命名实体。基于此,命名实体识别作为中文文本信息抽取的关键技术,在农产品信息推荐系统、智能问答等方面将会有广泛的应用前景。 相似文献
2.
命名实体识别(NER)算法在解码实体时,高标签预测精度可能解码出低实体预测精度。针对此问题,选择W2NER作为基模型,对其交叉熵损失函数进行优化,提出了RCL-NER算法。该算法在保证全局关系标签高预测精度的同时,实现了较高的关系实体转换率。算法在两个广泛使用的公共数据集上的实验结果表明,在不连续数据集CADEC中,实体F1值最多提高了1.81个百分点,关系实体转换率最多提高了1.52个百分点;在连续数据集CoNLL-2003中,实体F1值最多提高了0.36个百分点,关系实体转换率最多提高了0.11个百分点。提出的RCL-NER算法通过对损失函数进行优化,提高了实体的预测精度。 相似文献
3.
《大连海洋大学学报》2022,(3)
为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题,提出基于融合注意力机制的卷积神经网络(CNN)-双向门控循环单元网络(BiGRU)-条件随机场(CRF)网络模型进行外来海洋生物命名实体识别,并构造词向量、词性特征向量等特征作为网络模型的联合输入,以提升网络模型识别效果。结果表明:使用融合多特征向量的CNN-BiGRU-CRF网络模型对外来海洋生物名称实体、时间实体、地名实体3类实体上的命名实体识别结果平均准确率达到了90.62%,平均召回率达到了89.50%,平均F1值达到了90.05%,较传统命名实体识别方法均有较大提高。研究表明,本研究中提出的网络模型可以充分提取文本特征,解决了文本的长距离依赖问题,对外来海洋生物领域的命名实体识别具有较好的识别效果。 相似文献
4.
为解决因外来海洋生物领域实体复杂且实体间存在嵌套导致命名实体识别效果较差等问题, 提出基于融合注意力机制的卷积神经网络 (CNN) -双向门控循环单元网络 (BiGRU) -条件随机场 ( CRF) 网络模型进行外来海洋生物命名实体识别, 并构造词向量、词性特征向量等特征作为网络模型的联合输入, 以提升网络模型识别效果... 相似文献
5.
人类基因组计划使生物医学的研究取得了前所未有的成就,在研究结果中得到了大量的生物医学实体,如基因、蛋白质、器官、疾病和药物等,但这些生物实体之间存在什么样的关系仍不完全清楚。作为生物医学研究成果载体的文献呈指数增长,已成为科研人员获取知识的瓶颈。文本挖掘能够解决信息超载问题,故对生物医学实体关系的挖掘流程和评价指标进行介绍,对生物医学文本挖掘在研究生物实体关系抽取中采用的基于统计的方法、基于自然语言处理的方法和基于模式匹配的方法进行了阐述,对各种方法进行了综合比较,同时介绍了国内外相关研究。 相似文献
6.
7.
系统介绍了生物医学文本挖掘的具体流程和文本挖掘技术在生物医学领域中的应用情况,并着重从自然语言处理和本体、命名实体识别、关系抽取、文本分类与聚类、共现分析、系统工具及评价、可视化等方面分别做了阐述。 相似文献
8.
针对油气领域知识图谱构建过程中命名实体识别使用传统方法存在实体特征信息提取不准确、识别效率低的问题,提出了一种基于BERT-BiLSTM-CRF模型的命名实体识别研究方法。该方法首先利用BERT(bidirectional encoder representations from transformers)预训练模型得到输入序列语义的词向量;然后将训练后的词向量输入双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)模型进一步获取上下文特征;最后根据条件随机场(conditional random fields, CRF)的标注规则和序列解码能力输出最大概率序列标注结果,构建油气领域命名实体识别模型框架。将BERT-BiLSTM-CRF模型与其他2种命名实体识别模型(BiLSTM-CRF、BiLSTM-Attention-CRF)在包括3万多条文本语料数据、4类实体的自建数据集上进行了对比实验。实验结果表明,BERT-BiLSTM-CRF模型的准确率(P)、召回率(R)和F1值分别达到91.3%、94.5... 相似文献
9.
针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。 相似文献
10.
命名实体识别是构建知识图谱的关键,在农业病虫害领域存在病虫害数据匮乏、实体结构复杂、实体类型识别困难等问题。针对于病虫害数据匮乏,本文采用网络爬虫技术以及扫描文本数据的方法,构建了玉米、小麦、水稻病虫害实体语料库。传统的命名实体识别方法无法解决农业病害实体结构复杂、实体类型识别困难等问题。本文提出一种基于GPT规则修正的LEBERT-BilSTM-CRF模型,LEBERT模型构建了字典树和Lexicon-Adapter结构,将原始字符进行扩充增加数据的丰富性,将经过BiLSTM-CRF的输出和GPT结果进行实体标签修正以此来提高准确率。在公开数据集训练得到合适的参数后,在自建文本语料库进行训练,通过条件随机场和GPT修正生成全局最优序列取得很好的识别效果,准确率为94.23%,召回率为92.34%,F1值为93.28%。 相似文献
11.
提出了一种基于层叠条件随机场模型(C-CRF)的农业领域命名实体识别方法。该方法在底层以字作为切分粒度,充分利用农作物特征词典,识别简单命名实体。识别结果作为高层条件随机场的输入,在高层以词作为切分粒度,结合复杂特征,识别嵌套命名实体。实证分析表明该方法获得了较好的结果。 相似文献
12.
杜建 《农业图书情报学刊》2019,(3):4-12
数据科学和情报学方法的核心在于如何从数据中挖掘出知识和见解。在与生命健康密切相关的医学和医疗领域,大数据分析应在相关性挖掘基础上揭示因果关系,增强重复性和解释性。基于因果关系的数据关联对于智库研究和情报感知具有重要意义。文章提出基于多维数据关联和深层数据关联的医学知识挖掘思路,介绍了相关数据平台和研究进展。一是实验室—临床知识转化测度与临界分析;二是科学的技术影响力测度;三是交叉性、变革性创新前沿识别;四是基于全文本、融合文献计量学与计算语言学的不确定性医学知识挖掘。前三个方面拓展了医学知识的空间,包括从实验室到临床,从科学空间到技术空间。对于确定性/不确定性医学证据和论断挖掘深化了对医学知识的因果关系的揭示和解释。 相似文献
13.
数字技术为公共图书馆的服务模式带来了更多的可能,同样也为公共图书馆实体空间的存续带来了挑战。结合数字技术构建面向数字阅读的图书馆实体空间能够对图书馆空间再造与空间服务提供一条切实可行的发展道路。文章基于数字阅读空间的概念,通过对数字阅读空间的涵义、需求进行分析,从空间理论与实践角度提出面向数字阅读的公共图书馆实体空间再造思路。 相似文献
14.
根据先秦文献,从古兰的天然幽香、生长环境、叶片形状、种籽、生育期、自然条件等方面分析古兰的属性,认为先秦文献记载的植物"兰"就是当今兰科中的观赏性植物兰花。 相似文献
15.
网络文学创作者创作热情高涨,创作数量越来越多,但高质量作品所占比例较小,如何保障和提升网络文学作品的创作质量成为一个迫切的问题。笔者归纳了网络文学的创作流程,分析流程中的影响因素,提出了一个网络文学的质量保障体系,即构造覆盖完整创作流程的评价指标体系、政策引导、版权保护和业务培训,辅之以读者和网络作家、内容编辑、媒体制作者通过文学评论的有效交互体系。 相似文献
16.
周秋琴 《华南热带农业大学学报》2006,12(4):108-111
从修辞学的原理和修辞手法来看,不同的修辞手段可以产生不一样的效果,通过对某些译作的欣赏,可见文学作品的翻译与修辞有着不可分割的关系。 相似文献
17.
18.
郭毅贞 《农业图书情报学刊》2010,22(9):110-113
随着互连网的广泛应用以及电子商务的深入发展,卓越网、当当网等大型图书网站给传统实体书店带来了巨大的冲击。为了开拓市场,传统实体书店纷纷加入网上销售行列。那么,厦门地区传统书店网上销售又如何,主要采取哪种网上销售方式,存在什么样的优劣势,将就此展开讨论,并提出改进策略。 相似文献