首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 28 毫秒
1.
针对从海量食品安全事件新闻报道中很难抽取出所需答案的问题,以食品安全事件语料库为研究对象,提出了一种基于信息抽取技术的自动问答系统。首先,利用深度学习模型TextCNN对用户输入的问题进行分类,得到其所属类型。其次,对于输入问题,借助Lucene搜索引擎找到其最佳匹配文档。再次,根据输入问题的类型,从食品安全事件数据库(采用信息抽取技术自动提取的一个结构化数据库)中筛选出该文档所包含的答案候选句集合。最后,利用深度学习模型Bi LSTM及基于答案候选句上下文的特征提取方法构建一个答案抽取模型,该模型能从给定的答案候选句集合中提取出最终答案。为检查基于食品安全事件数据库的答案候选句筛选方式及基于答案候选句上下文的特征提取方式对整个自动问答系统性能的影响,进行了多种比较实验,结果表明含有基于食品安全事件数据库的答案候选句筛选方式和基于答案候选句上下文的特征提取方式的问答系统表现最佳,其回答准确率达到44%。这相比于传统的问答系统,具有明显的优势。  相似文献   

2.
中国农技推广信息平台(NJTG)问答社区可以帮助用户与农业专家进行交互,从而获得精准的问题答案以解决农业场景问题。在平台问答社区中,每天会新增关于水稻的提问语句上千百条,检测相同语义问句是农业智能问答的关键技术环节,针对此问题采用字符级别的Word2Vec表示初始化问句表征,使用Siamese神经网络作为基础模型框架,学习句子的语义特征,获取上下文信息,然后使用BiLSTM长短期神经网络提取语义时序特征,最后在语义层次上使用一种包含语义信息的余弦函数计算问句相似度,并与其他语义匹配模型进行对比试验。通过构建7 820对水稻问句的相似对数据集,用来优化和训练模型的重要参数。试验结果表明:本文提出的BiLSTM-CNN模型可高效提取文本不同粒度的特征,提高水稻问句相似度匹配效果,在所构建的数据集上BiLSTM-CNN模型准确率和F1值均高于其他文本匹配模型,达到98.2%和88.75%。与此同时,所提出的模型在6种不同类别的水稻问句对的准确率也优于其他对比模型,在数据量较小的情况下,仍然可以取得较高的准确率,证明提出的模型具有良好的鲁棒性。  相似文献   

3.
面向食品安全事件新闻文本的实体关系抽取研究   总被引:1,自引:0,他引:1  
为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法 FSE_ERE (Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。  相似文献   

4.
郑丽敏  乔振铎  田立军  杨璐 《农业机械学报》2021,52(7):244-250,158
在食品安全法规问答系统中,食品安全法规问题的单标签文本分类不能完全概括问题所包含的有效信息,为了改进单标签文本分类效果,根据问题所涉及食品安全角度和层次的不同,提出一种基于BERT-LEAM(Bidirectional encoder representational from transformers-label embedding attentive model)的多标签文本分类方法。采用多角度、分层次的多标签标注方法将单个问题文本赋予多个标签,并引入BERT预训练语言模型表示上下文特征信息, 通过Attention机制学习标签与文本的依赖关系,进行Word embedding的聚合,将标签应用到文本分类过程中。实验表明,在粗粒度多标签数据集上的分类效果明显优于细粒度多标签数据集上的分类效果,BERT进行文本特征表示的方法优于Word2Vec方法,采用BERT-LEAM模型的分类方法在粗粒度多标签数据集与细粒度多标签数据集的F1-W值分别为93.35%和79.81%,其分类效果优于其他分类模型。  相似文献   

5.
基于word2vec和LSTM的饮食健康文本分类研究   总被引:2,自引:0,他引:2  
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。  相似文献   

6.
“中国农技推广APP”农业问答社区存在提问数据量大、规范性差、涉及面广、噪声多、特征稀疏等影响文本语义匹配的问题,为了改善农业提问数据相似性判断的性能,提出了融合多语义特征的文本匹配模型Co_BiLSTM_CNN,从深度语义、词语共现、最大匹配度3个层面提取短文本特征,并利用共享参数的孪生网络结构,分别运用双向长短期记忆网络、卷积神经网络和密集连接网络构建文本匹配模型。试验结果表明,该模型可以更全面提取文本特征,文本相似性判断的正确率达94.15%,与其他6种模型相比,文本匹配效果优势明显。  相似文献   

7.
基于卷积模型的农业问答语性特征抽取分析   总被引:1,自引:0,他引:1  
互联网农技推广社区每秒增衍问答数据近万组,这些海量数据具有隐性的词性、情感和冗余向量特征,实现数据聚合与数据块消减是该领域的难题。提出了一种基于卷积神经网络的农业问答情感极性特征抽取分析模型,结合农业分词字典,对数据集进行分词后使用Skip-gram模型转换为256维的词向量,利用批规范后的卷积神经网络对数据集进行训练,从而得到用于识别农技推广社区问答词性情感相似性的神经网络模型参数。试验结果表明,该方法能够准确识别测试样例集中的冗余队列,与其他5种文本分类方法进行比较,各项指标优势明显,针对测试集的语性特征抽取准确率达到82.7%。  相似文献   

8.
为了解决问答社区中相同语义问句文本的快速自动检测,提出一种基于BERT的Attention-DenseBiGRU农业问句相似度匹配模型.针对农业文本具备的特征,采用12层的中文BERT文本预训练模型对文本数据进行向量化处理,并与Word2Vec、Glove、TF-IDF方法进行对比分析,得出BERT方法能够有效地解决农...  相似文献   

9.
鉴于市面上搜索引擎的搜索结果繁杂且针对专业领域的问答结果很少的情况,提出了一种基于优化后Att-BiLSTM-CRF深度学习模型的问答系统的构建方法.将机械专业的问答数据与智能问答技术结合起来,实现了导入问答文档进行自然语言处理后自动生成对应齿轮传动知识图谱的功能.在用户输入问题后,系统会通过文本相似度算法和Viter...  相似文献   

10.
随着信息化技术的快速发展,农户通过线上智能农业问答系统解决线下农业病虫害问题已成为趋势。问句分类在问答系统中发挥着至关重要的作用,其准确性直接决定了最终返回答案的正确性。传统的单标签文本分类模型难以直接准确捕捉到农业病虫害问句的确切意图,而且由于缺乏大规模公开的农业病虫害问句语料,使得现有研究具有一定的难度。为此,本文基于树状结构构建了一个农业病虫害问句层级分类体系,由问句模糊性向精确性逐层细化分类,旨在克服农业问句的语义复杂性;此外,引入对抗训练方法,通过构建对抗样本并将其与原始样本一同用于大规模语言模型的训练,以提高模型泛化能力,同时缓解了因语料不足而产生的问题。通过对真实问答语料库的实验验证,本文提出的方法能够提升农业病虫害问句的分类性能,可为农业病虫害自动问答系统提供有效的问句意图识别。  相似文献   

11.
问句分类作为问答系统的关键模块,对系统检索效率具有决定性作用。为了对番茄病虫害智能问答系统用户问句进行高效分类,构建了基于word2vec和双向门控循环单元神经网络(Bi-directional gated recurrent unit,BIGRU)的番茄病虫害问句分类模型。针对问答系统对用户问句的语义信息有较高要求的特点,首先利用word2vec将句子中的词转换为具有语法、语义信息的词向量,利用训练得到的词向量和BIGRU神经网络进行问句分类模型的训练。实验选取了2 000个番茄病虫害相关的用户问句,主要分为番茄病害和番茄虫害两类。结果表明,采用BIGRU的番茄病虫害问句分类模型,其分类准确率、召回率和准确率与召回率的调和平均值F1分别高于卷积神经网络(CNN)、K最近邻等分类算法2~5个百分点。BIGRU模型结构简单,模型训练参数较少,模型训练速度快,符合问答系统对响应时间的要求。  相似文献   

12.
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、1...  相似文献   

13.
随着互联网和人工智能技术的发展,农业知识智能化服务逐渐承担起为农业生产管理提供有效技术指导的作用。本文对农业文本语义理解中的关键技术及应用进行综述。首先按照自然语言处理中基于规则、机器学习和深度学习的语义处理方法介绍其在农业领域应用的进展;然后阐述了针对农业知识特性的语义分析方法,涵盖农业文本分析主要过程的储存、表达、计算,包括农业知识图谱的知识抽取、融合、表示、推理,TF-IDF、Word2Vec、BERT等农业文本表示模型与CNN、RNN、Attention等分类模型;阐述了可用于分词、向量化表达等的通用语料库和农业领域常用语料库;从农业智能问答、农业语义检索、农业智能管理决策方面阐述语义理解在农业领域中的应用;最后从农业语料库标准化构建、语义理解模型复杂度、多模态语义处理、多区域多语言语义理解等方面对农业文本的语义理解研究趋势进行了展望。  相似文献   

14.
基于BERT的水稻表型知识图谱实体关系抽取研究   总被引:1,自引:0,他引:1  
针对水稻表型知识图谱中的实体关系抽取问题,根据植物本体论提出了一种对水稻的基因、环境、表型等表型组学实体进行关系分类的方法。首先,获取水稻表型组学数据,并进行标注和分类;随后,提取关系数据集中的词向量、位置向量及句子向量,基于双向转换编码表示模型(BERT)构建水稻表型组学关系抽取模型;最后,将BERT模型与卷积神经网络模型、分段卷积网络模型进行结果比较。结果表明,在3种关系抽取模型中,BERT模型表现更佳,精度达95.11%、F1值为95.85%。  相似文献   

15.
准确预测剩余货架期是降低苹果过长贮藏风险的有效途径,目前基于传统动力学模型的预测准确度较低,提出一种基于生成式对抗网络(GAN)改进的反向传播人工神经网络(BP-ANN)苹果货架期预测方法。以0、5、15、25℃下贮藏的“富士”苹果为研究对象,获取果实的12个理化品质指标随贮藏时间变化的取值;分别采用2种特征选择方法对品质指标进行排序,依次累加排序为1~12的品质指标结合贮藏温度作为BP-ANN的输入层变量。通过GAN扩大BP-ANN的训练集样本数量,建立“富士”苹果货架期的 GAN-BP-ANN和BP-ANN预测模型。试验结果表明,经过GAN可生成与真实数据分布范围一致的数据集,以真实和生成数据集共同作为训练集构建的GAN-BP-ANN模型其验证集准确度总体高于BP-ANN模型;以稀疏主成分分析(SPCA) 选取得到的前1、2、6个品质指标,结合贮藏温度分别作为GAN-BP-ANN模型的输入层对货架期进行预测,其平均相对误差均在0.070以内,决定系数均在0.988以上。  相似文献   

16.
地下水资源对区域经济社会发展至关重要,而准确预测地下水埋深是合理利用地下水资源的重要依据。以陕西关中平原33眼地下水埋深观测井的实测数据为输入,探讨长短时记忆网络模型(LSTM)在地下水埋深模拟预测当中的应用。结果表明:整体上,LSTM模型可以很好模拟关中地下水埋深的变化,但是模型在训练阶段的模拟精度要高于验证阶段的。具体而言,对33眼观测井同时模拟时,无论训练次数多少,其决定系数(R~2)均大于0.98,而均方根误差(RMSE)和相对均方根误差(RRMSE)分别小于5 m和14%;而在验证阶段,尽管模拟值与观测值的R~2仍然大于0.98,但是RMSE和RRMSE的最大值分别增加至7 m和27%。与此同时,模型的训练次数会影响模拟精度,模型训练次数需要与样本进行匹配,本研究适宜的训练次数为40次。此外,样本集的数据也是影响模型模拟准确度的关键因素,将33眼井的观测数据作为一个样本集的模拟精度要高于单眼井单独作为样本集的模拟精度,表明样本容量越大,LSTM的模拟精度越高。  相似文献   

17.
针对西北旱区农业发展落后、农业科技推广受限、农业信息检索准确度差等问题,在分析研究通用搜索引擎工作原理的基础上,设计并实现了基于本体的旱区农业垂直搜索引擎模型。采用面向文本的知识发现技术构建农业领域本体,实现基于本体的网络信息采集及过滤、查询扩展、结果排序和相关词推荐。试验证明,基于本体的旱区农业垂直搜索引擎可以提高农业信息检索的查准率,优化检索结果。  相似文献   

18.
基于BiGRU_ MulCNN的农业问答问句分类技术研究   总被引:4,自引:0,他引:4  
"中国农技推广"问答社区每天新增提问数据近万条,对提问的有效分类是实现智能问答的关键技术环节。海量提问数据具有特征稀疏性强、噪声大、规范性差的特点,制约了文本分类效果。为了改善农业问答问句短文本分类性能,提出了BiGRU_MulCNN分类模型,运用TF-IDF算法拓展文本特征,并加权表示文本词向量,利用双向门控循环单元神经网络获取输入词向量的上下文特征信息,构建多尺度并行卷积神经网络,进行多粒度的特征提取。试验结果表明,基于混合神经网络的短文本分类模型可以优化文本表示和文本特征提取,能够准确地对用户提问进行自动分类,正确率达95. 9%,与其他9种文本分类方法相比,分类性能优势明显。  相似文献   

19.
为快速准确获取灌区渠系分布信息,科学调配区域农业水资源、提高水资源利用率,通过基于全卷积神经网络(Fully convolutional networks,FCN)的语义分割模型进行渠系轮廓提取。利用无人机采集正射影像并进行标注,以VGG-19网络为基础,通过多尺度特征融合的方式实现FCN-8s结构,使用Tensorflow深度学习框架构建FCN渠系提取模型;对数据集进行数据增强,分割后放入FCN模型中训练、测试。实验结果显示,针对不同复杂程度的测试区域,FCN模型的提取准确度、完整度、精度均高于支持向量机方法和改进霍夫变换方法,均值分别为95. 78%、92. 29%、89. 45%。结果表明,该方法能够实现灌区渠系轮廓的高精度提取,具有较好的泛化性和鲁棒性。  相似文献   

20.
农资包装上的文本含有登记证号、有效成分含量、生产许可证号、产品标准号等产品相关信息,这些不仅为农民购买农资提供重要的依据,还有助于农资监督机构发现影响农资安全的问题,同时也对出口农资的识别有极大的帮助。基于农资包装图像构建数据集,提出一种基于注意力机制的农资标签文本检测模型,该模型使用Swin-Transformer作为骨干网络,采用FPN提取文本特征,设计双特征融合模块(Twin Feature Fusion Module,TFFM)来统合局部特征和全局特征,预测阶段采用缩放式扩展算法来生成文本边框。该模型在自建农资包装图像数据集上的试验结果表明:其准确率、召回率和F值分别为91.4%、87.3%和89.3%,均优于主流方法,对农资包装图像文本检测任务具有一定的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号