首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
基于Stacking集成学习的水稻表型组学实体分类研究   总被引:3,自引:0,他引:3  
为研究整合水稻表型组学相关知识,系统地建立水稻表型组学知识图谱,通过分布式爬虫框架从国家水稻数据中心网站获取水稻表型组学数据集,并以互动百科为辅助数据源获取水稻表型组学数据。对水稻表型组学数据采用TF-IDF技术结合潜在语义模型进行预处理,并对水稻表型组学实体进行人工分类和标注。为实现水稻表型组学实体分类,研究了基于堆叠式两阶段集成学习的分类器组合模型,结合K-近邻算法、支持向量机、随机森林、梯度提升决策树机器学习方法,提升水稻表型组学实体数据分类的性能。研究表明,基于堆叠式两阶段集成学习的分类器组合模型对不同类别的水稻表型组学数据都具有较好的多分类能力,对于不平衡的水稻表型组学数据集,本文方法的分类器组合模型对水稻表型组学数据分类效果最佳,Gene类别的F1为90.47%,总体准确率达80.55%,比支持向量机、K-近邻、随机森林和梯度提升决策树4种基分类器的分类准确率平均高6.78个百分点。  相似文献   

2.
针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and treatment text,JEER_PD)。JEER_PD使用双重指针标注(Dual-pointer labeling, DPL)策略,建立头、尾2个指针标注器,一次性标注出所有实体的开始和结束位置;引入CLN(Conditional layer normalization)网络层,强化主体抽取任务与客体关系联合抽取任务之间的联系;利用概率平衡策略PBS对抗正负类标签类别失衡,以加速模型收敛。实验表明,JEER_PD准确率、召回率和F1分别为97.69%、97.59%和97.64%,3项指标较现有方法均有显著提升,说明JEER_PD能够快速、准确地抽取家禽疾病诊疗复杂知识文本中的实体关系三元组。  相似文献   

3.
针对农业病害领域命名实体识别过程中存在的预训练语言模型利用不充分、外部知识注入利用率低、嵌套命名实体识别率低的问题,本文提出基于连续提示注入和指针网络的命名实体识别模型CP-MRC(Continuous prompts for machine reading comprehension)。该模型引入BERT(Bidirectional encoder representation from transformers)预训练模型,通过冻结BERT模型原有参数,保留其在预训练阶段获取到的文本表征能力;为了增强模型对领域数据的适用性,在每层Transformer中插入连续可训练提示向量;为提高嵌套命名实体识别的准确性,采用指针网络抽取实体序列。在自建农业病害数据集上开展了对比实验,该数据集包含2933条文本语料,8个实体类型,共10414个实体。实验结果显示,CP-MRC模型的精确率、召回率、F1值达到83.55%、81.4%、82.4%,优于其他模型;在病原、作物两类嵌套实体的识别率较其他模型F1值提升3个百分点和13个百分点,嵌套实体识别率明显提升。本文提出的模型仅采用少量可训练参数仍然具备良好识别性能,为较大规模预训练模型在信息抽取任务上的应用提供了思路。  相似文献   

4.
基于Attention_DenseCNN的水稻问答系统问句分类   总被引:1,自引:0,他引:1  
为了解决“中国农技推广APP”问答社区中水稻提问数据快速自动分类的问题,提出一种基于Attention_DenseCNN的水稻文本分类方法。根据水稻文本具备的特征,采用Word2vec方法对文本数据进行处理与分析,并结合农业分词词典对文本数据进行向量化处理,采用Word2vec方法能够有效地解决文本的高维性和稀疏性问题。对卷积神经网络(CNN)上下游卷积块之间建立一条稠密的链接,并结合注意力机制(Attention),使文本中的关键词特征得以充分体现,使文本分类模型具有更好的文本特征提取精度,从而提高了分类精确率。试验表明:基于Attention_DenseCNN的水稻问句分类模型可以提高文本特征的利用率、减少特征丢失,能够快速、准确地对水稻问句文本进行自动分类,其分类精确率及F1值分别为95.6%和94.9%,与其他7种神经网络问句分类方法相比,分类效果明显提升。  相似文献   

5.
基于卷积模型的农业问答语性特征抽取分析   总被引:1,自引:0,他引:1  
互联网农技推广社区每秒增衍问答数据近万组,这些海量数据具有隐性的词性、情感和冗余向量特征,实现数据聚合与数据块消减是该领域的难题。提出了一种基于卷积神经网络的农业问答情感极性特征抽取分析模型,结合农业分词字典,对数据集进行分词后使用Skip-gram模型转换为256维的词向量,利用批规范后的卷积神经网络对数据集进行训练,从而得到用于识别农技推广社区问答词性情感相似性的神经网络模型参数。试验结果表明,该方法能够准确识别测试样例集中的冗余队列,与其他5种文本分类方法进行比较,各项指标优势明显,针对测试集的语性特征抽取准确率达到82.7%。  相似文献   

6.
面向食品安全事件新闻文本的实体关系抽取研究   总被引:1,自引:0,他引:1  
为解决从大规模网络文本中快速、准确识别食品安全事件并进行实体关系抽取受中文复杂语法特性限制的问题,提出一种基于依存分析的面向食品安全事件新闻文本的实体关系抽取方法 FSE_ERE (Entity relation extraction of food safety events,FSE_ERE)。该方法结合句子的依存分析结果和实体关系抽取模型,对非结构化中文文本进行无监督的实体关系抽取,并引入一种将文本相似度结合到PU学习(Positive and unlabeled learning)的半监督分类方法,利用改进的特征加权处理方法提高分类精度,使得FSE_ERE方法能够在高质量的食品安全事件新闻文本中完成实体关系抽取工作。实验结果表明,FSE_ERE方法在食品安全事件新闻文本数据集和多类型混合新闻文本数据集上的实体关系抽取均达到了先进的性能,F值分别达到了71.21%和67.42%,证明了FSE_ERE方法的有效性和可移植性。  相似文献   

7.
为解决文本特征提取不准确和因网络层次加深而导致模型分类性能变差等问题,提出基于深度卷积神经网络的水稻知识文本分类方法。针对水稻知识文本的特点,采用Word2Vec方法进行文本向量化处理,并与OneHot、TF-IDF和Hashing方法进行对比分析,得出Word2Vec方法具有较高的分类精度,正确率为86.44%,能够有效解决文本向量表示稀疏和信息不完整等问题。通过调整残差网络(Residual network,Res Net)结构,分析残差模块结构和网络层次对分类网络的影响,构建了9种分类网络结构,测试结果表明,具有4层残差模块结构的网络具有较好的特征提取精度,Top-1准确率为99.79%。采用优选出的4层残差模块结构作为基本结构,使用胶囊网络(Capsule network,Caps Net)替代其池化层,设计了水稻知识文本分类模型。与Fast Text、Bi LSTM、Atten-Bi GRU、RCNN、DPCNN和Text CNN等6种文本分类模型的对比分析表明,本文设计的文本分类模型能够较好地对不同样本量和不同复杂程度的水稻知识文本进行精准分类,模型的精准率、召回率和F1值分别不小于95.17%、95.83%和95.50%,正确率为98.62%。本文模型能够实现准确、高效的水稻知识文本分类,满足实际应用需求。  相似文献   

8.
为解决传统水稻质量分级依靠人工分拣,工作量大、错误率高、分级标准不严格等问题,本文提出一种基于ECA改进的双流卷积神经网络模型对水稻单粒质量分级进行研究。首先,获取每组水稻单籽粒(本文以7颗水稻单籽粒为1组)正视和俯视图像,对于5种简单的监督模型(朴素贝叶斯、决策树、随机森林、最邻近结点算法、支持向量机)、基于遗传算法和投票机制优化的模型(GA-SVM)、集成模型(RF+GA-SVM),通过图像预处理轮廓检测分离出单籽粒图像,利用颜色矩、LBP(Local binary pattern)和Canny算子提取籽粒颜色、纹理和边缘特征,并采用PCA(Principal component analysis)降维后进行训练;而对于单流卷积神经网络模型、双流卷积神经网络模型(FV-CNN)以及本文提出并构建的基于ECA改进的双流卷积神经网络模型(EA-FV-CNN),则使用预处理后的图像进行训练。将上述多种模型进行对比分析,发现基于ECA改进的双流卷积神经网络模型性能最好,其在单粒质量三分级、四分级和五分级准确率分别达94.0%、92.3%和71.0%。实验结果表明,使用基于ECA改进的双流卷...  相似文献   

9.
针对玉米育种文本数据中存在重叠三元组、实体表达方式多样等问题,提出一种嵌入词汇信息的BERT-CRF(Bidirectional encoder representations from transformers-conditional random field)玉米育种实体关系联合抽取方法。首先,分析了玉米育种语料表达特征,采用对实体边界、关系类别和实体位置信息同步标注的策略;其次,构建了嵌入词汇信息的BERT-CRF模型进行训练和预测,自建玉米育种知识词典,通过在BERT中嵌入词汇信息,融合字符特征和词汇特征,增强模型的语义能力,利用CRF模型输出全局最优标签序列,设计了实体关系三元组匹配算法(Entity and relation triple matching algorithm, ERTM),将标签进行匹配和映射来获取三元组;最后,为验证该方法的有效性,在玉米育种数据集上进行实验,结果表明,本文模型精确率、召回率和F1值分别为91.84%、95.84%、93.80%,与现有模型相比性能均有提升。说明该方法能够有效抽取玉米育种领域知识,为构建玉米育种知识图谱及其它下游任务提供数...  相似文献   

10.
为了快速、精准地感知水稻稻曲病的发生,实现稻曲病大面积早期监测,利用机载UHD185高光谱仪采集带有发病区域的多组水稻冠层高光谱图像数据,对图像数据进行预处理并建立数据集。对健康区域和发病区域进行分类训练,建立支持向量机(SVM)识别模型和主成分分析(PCA)加人工神经网络(ANN)的识别模型,通过验证样本来检验识别模型的准确性,达到识别发病水稻的目的。支持向量机识别模型选用两组特征波长下的假彩色图像:第1组波长组合(TZH1)为654、838、898 nm;第2组波长组合(TZH2)为630、762、806 nm,两组数据的错分误差/漏分误差总体分别达到4.24%和5.41%;其中S型核函数的SVM模型诊断性能最好,总体分类精度最高可达到95.64%,Kappa系数可达到0.94,基本达到了准确识别水稻稻曲病的目的。主成分分析加人工神经网络的识别模型选用前3个主成分,贡献率分别为93.67%、2.80%、1.24%,作为最优波长建立人工神经网络识别模型;其中非线性分类的效果优于线性分类的效果,总体分类精度达到了96.41%,Kappa系数可达到0.95。通过两个实验组数据的支持向量机...  相似文献   

11.
为实现水稻施肥知识图谱自动化构建,为后续构建水稻施肥决策系统提供基础,定义了水稻施肥体系数据结构并制作水稻施肥数据集,结合水稻施肥数据特点,添加单位标注器,并改进CASREL解码加入隐藏层,提出了基于RoBERTa-wwm编码+改进CASREL解码的信息抽取模型,同时针对编码与解码环节进行试验对比。结果表明,基于该模型的F1值达到91.86%,与对比模型相比有较为显著的提升。基于改进RoBERTa-wwm-CASREL的信息抽取模型能有效提高水稻施肥信息抽取效果,为水稻施肥知识图谱构建以及施肥决策系统提供基础。  相似文献   

12.
植物领域知识图谱构建中本体非分类关系提取方法   总被引:3,自引:0,他引:3  
采用本体学习的方法,以百度百科植物类词条内容的非结构和半结构化中文文本信息作为语料进行处理。使用一种有指导的基于依存句法分析的词汇-语法模式来获取植物领域的概念、分类和非分类关系,并分别利用基于词表过滤的方法和给模式添加限制的方法,较大程度地提高了关系抽取的精确度,完成在轻量级本体的基础上自动构建重量级本体。该方法建立了一个特定领域语料的概念层次,提高了最具代表性的分类和非分类关系的发现,并使用OWL语言形式化表达抽取结果。实验表明,该方法在非分类关系抽取上取得了较好的结果,为该领域知识图谱构建奠定了基础。  相似文献   

13.
当前农业实体识别标注数据稀缺,部分公开的农业实体识别模型依赖手工特征,实体识别精度低。虽然有的农业实体识别模型基于深度学习方法,实体识别效果有所提高,但是存在模型推理延迟高、参数量大等问题。本研究提出了一种基于知识蒸馏的农业实体识别方法。首先,利用互联网的海量农业数据构建农业知识图谱,在此基础上通过远程监督得到弱标注语料。其次,针对实体识别的特点,提出基于注意力的BERT层融合模型(BERT-ALA),融合不同层次的语义特征;结合双向长短期记忆网络(BiLSTM)和条件随机场CRF,得到BERT-ALA+BiLSTM+CRF模型作为教师模型。最后,用BiLSTM+CRF模型作为学生模型蒸馏教师模型,保证模型预测耗时和参数量符合线上服务要求。在本研究构建的农业实体识别数据集以及两个公开数据集上进行实验,结果显示,BERT-ALA+BiLSTM+CRF模型的macro-F1相对于基线模型BERT+ BiLSTM+CRF平均提高1%。蒸馏得到的学生模型BiLSTM+CRF的macro-F1相对于原始数据训练的模型平均提高3.3%,预测耗时降低了33%,存储空间降低98%。试验结果验证了基于注意力机制的BERT层融合模型以及知识蒸馏在农业实体识别方面具有有效性。  相似文献   

14.
为了快速而准确地统计视频监测区域内的水稻穗数,提出了一种基于改进Faster R-CNN的稻穗检测方法。针对稻穗目标较小的问题,在Inception_ResNet-v2的基础上引入空洞卷积进行优化;对于不同生长期稻穗差别大的问题,设计了针对标注框尺度的K-means聚类,为候选区域生成网络提供先验知识,从而提高了检测精度。鉴于小尺寸稻穗目标的特殊性,用ROIAlign替代ROIPooling,提高了感兴趣区域的提取精度。试验测试时,根据水稻不同发育期稻穗的表型特征差异自制了3类数据集,并选取最佳聚类数为10。模型对比试验表明,本文方法的稻穗检测平均精度均值达到80.3%,较Faster R-CNN模型提升了2.4个百分点,且比SSD和YOLO系列模型有较大幅度的提升。  相似文献   

15.
基于迁移学习和双线性CNN的细粒度菌菇表型识别   总被引:1,自引:0,他引:1  
为了对细粒度菌菇进行表型识别,在双线性卷积神经网络细粒度图像识别框架基础上,提出了一种基于迁移学习和双线性Inception-ResNet-v2网络的菌菇识别方法。利用Inception-ResNet-v2网络的特征提取能力,结合双线性汇合操作,提取菌菇图像数据的细粒度特征,采用迁移学习将ImageNet数据集上预训练的模型参数迁移到细粒度菌类表型数据集上。试验表明,在开源数据集和个人数据集上,识别精度分别达到87.15%和93.94%。开发了基于Flask框架的在线菌类表型识别系统,实现了细粒度菌菇表型的在线识别与分析。  相似文献   

16.
刘潭  李子默  冯帅  王雯琦  袁青云  许童羽 《农业机械学报》2023,54(11):208-216,235
为减少水稻产量损失,迫切需要建立快速、准确的水稻叶瘟监测和鉴别方法。本文以东北水稻为研究对象,以小区试验为基础,使用高光谱图像仪获取受稻瘟病菌侵染后不同发病程度的水稻叶片高光谱图像并提取光谱数据。首先,通过SG平滑方法对光谱数据进行预处理,然后运用主成分分析(PCA)、Pearson相关系数分析法(PCCs)、PLS-VIP方法对光谱数据进行降维,并提出了一种基于Logistic混沌映射PSO寻优的SVM分级检测模型(LMPSO-SVM)。为了验证提出方法的有效性,以不同降维方法提取的特征变量为输入,分别建立基于人工神经网络(ANN)、支持向量机(SVM)和PSO-SVM的分级模型并进行对比分析。仿真结果表明,各模型对4级病害的识别效果最好,综合5种级别病害,SVM和ANN分级模型的预测准确率波动相对较大,对于病害预测效果不太理想;而在不同特征选择下建立的LMPSO-SVM分级模型对各级病害预测准确率均较高,准确率波动较小,其中基于PCA提取特征变量和全波段作为输入的模型平均准确率非常相近,分别为96.49%和96.12%,PCA提取的输入变量仅为5个,大大简化了模型复杂性,降低了训练...  相似文献   

17.
针对兽药致病知识图谱构建过程中,关于兽药命名实体识别使用传统方法依赖人工设计特征耗时耗力以及兽药致病语料数据量较少的问题,提出一种引入注意力机制(Attention)与辅助层分类(Auxiliary layer)相结合兽药文本命名实体识别模型(Att-Aux-BERT-BiLSTM-CRF).通过BERT预处理模型进行...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号