首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于word2vec和LSTM的饮食健康文本分类研究   总被引:2,自引:0,他引:2  
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。  相似文献   

2.
基于BiGRU_MulCNN的农业问答问句分类技术研究   总被引:4,自引:0,他引:4  
“中国农技推广”问答社区每天新增提问数据近万条,对提问的有效分类是实现智能问答的关键技术环节。海量提问数据具有特征稀疏性强、噪声大、规范性差的特点,制约了文本分类效果。为了改善农业问答问句短文本分类性能,提出了BiGRU_MulCNN分类模型,运用TFIDF算法拓展文本特征,并加权表示文本词向量,利用双向门控循环单元神经网络获取输入词向量的上下文特征信息,构建多尺度并行卷积神经网络,进行多粒度的特征提取。试验结果表明,基于混合神经网络的短文本分类模型可以优化文本表示和文本特征提取,能够准确地对用户提问进行自动分类,正确率达95.9%,与其他9种文本分类方法相比,分类性能优势明显。  相似文献   

3.
为解决文本特征提取不准确和因网络层次加深而导致模型分类性能变差等问题,提出基于深度卷积神经网络的水稻知识文本分类方法.针对水稻知识文本的特点,采用Word2Vec方法进行文本向量化处理,并与One-Hot、TF-IDF和Hashing方法进行对比分析,得出Word2Vec方法具有较高的分类精度,正确率为86.44%,能...  相似文献   

4.
郑丽敏  乔振铎  田立军  杨璐 《农业机械学报》2021,52(7):244-250,158
在食品安全法规问答系统中,食品安全法规问题的单标签文本分类不能完全概括问题所包含的有效信息,为了改进单标签文本分类效果,根据问题所涉及食品安全角度和层次的不同,提出一种基于BERT-LEAM(Bidirectional encoder representational from transformers-label embedding attentive model)的多标签文本分类方法。采用多角度、分层次的多标签标注方法将单个问题文本赋予多个标签,并引入BERT预训练语言模型表示上下文特征信息, 通过Attention机制学习标签与文本的依赖关系,进行Word embedding的聚合,将标签应用到文本分类过程中。实验表明,在粗粒度多标签数据集上的分类效果明显优于细粒度多标签数据集上的分类效果,BERT进行文本特征表示的方法优于Word2Vec方法,采用BERT-LEAM模型的分类方法在粗粒度多标签数据集与细粒度多标签数据集的F1-W值分别为93.35%和79.81%,其分类效果优于其他分类模型。  相似文献   

5.
针对畜禽疫病文本语料匮乏、文本内包含大量疫病名称及短语等未登录词问题,提出了一种结合词典匹配的BERT-BiLSTM-CRF畜禽疫病文本分词模型。以羊疫病为研究对象,构建了常见疫病文本数据集,将其与通用语料PKU结合,利用BERT(Bidirectional encoder representation from transformers)预训练语言模型进行文本向量化表示;通过双向长短时记忆网络(Bidirectional long short-term memory network, BiLSTM)获取上下文语义特征;由条件随机场(Conditional random field, CRF)输出全局最优标签序列。基于此,在CRF层后加入畜禽疫病领域词典进行分词匹配修正,减少在分词过程中出现的疫病名称及短语等造成的歧义切分,进一步提高了分词准确率。实验结果表明,结合词典匹配的BERT-BiLSTM-CRF模型在羊常见疫病文本数据集上的F1值为96.38%,与jieba分词器、BiLSTM-Softmax模型、BiLSTM-CRF模型、未结合词典匹配的本文模型相比,分别提升11.01、1...  相似文献   

6.
当前农业实体识别标注数据稀缺,部分公开的农业实体识别模型依赖手工特征,实体识别精度低。虽然有的农业实体识别模型基于深度学习方法,实体识别效果有所提高,但是存在模型推理延迟高、参数量大等问题。本研究提出了一种基于知识蒸馏的农业实体识别方法。首先,利用互联网的海量农业数据构建农业知识图谱,在此基础上通过远程监督得到弱标注语料。其次,针对实体识别的特点,提出基于注意力的BERT层融合模型(BERT-ALA),融合不同层次的语义特征;结合双向长短期记忆网络(BiLSTM)和条件随机场CRF,得到BERT-ALA+BiLSTM+CRF模型作为教师模型。最后,用BiLSTM+CRF模型作为学生模型蒸馏教师模型,保证模型预测耗时和参数量符合线上服务要求。在本研究构建的农业实体识别数据集以及两个公开数据集上进行实验,结果显示,BERT-ALA+BiLSTM+CRF模型的macro-F1相对于基线模型BERT+ BiLSTM+CRF平均提高1%。蒸馏得到的学生模型BiLSTM+CRF的macro-F1相对于原始数据训练的模型平均提高3.3%,预测耗时降低了33%,存储空间降低98%。试验结果验证了基于注意力机制的BERT层融合模型以及知识蒸馏在农业实体识别方面具有有效性。  相似文献   

7.
基于Spark框架XGBoost的林业文本并行分类方法研究   总被引:1,自引:0,他引:1  
针对当前互联网+技术与林业的交叉融合,涌现出海量待挖掘的涉林文本,而林业文本分类的相关研究尚不成熟的问题,使用网络爬虫技术面向互联网采集涉林文本,基于丰富的语料重新构建分类标签,提出基于Spark计算框架的XGBoost并行化方法,对林业文本进行分类。经由交叉验证,构建的XGBoost并行分类算法准确率为0. 923 4,在各类别中最低F1为0. 860 4,最高为0. 998 4;其在2. 1万条、4. 2万条、8. 4万条数据集上的训练加速比分别为2. 13、3. 47、3. 82。结果表明,基于该标签设定的分类模型对现存互联网中涉林文本的适应性较好;Spark环境下实现的XGBoost并行化算法的准确率显著优于其他4种机器学习(朴素贝叶斯、GBDT决策树、BP神经网络和ELM神经网络算法)的并行化算法,算法执行效率远高于单机版本,且数据量越大,其加速比越高,能有效应对海量林业文本的实时、准确分类。  相似文献   

8.
基于Attention_DenseCNN的水稻问答系统问句分类   总被引:1,自引:0,他引:1  
为了解决中国农技推广APP问答社区中水稻提问数据快速自动分类的问题,提出一种基于Attention_DenseCNN的水稻文本分类方法.根据水稻文本具备的特征,采用Word2vec方法对文本数据进行处理与分析,并结合农业分词词典对文本数据进行向量化处理,采用Word2vec方法能够有效地解决文本的高维性和稀疏性问题...  相似文献   

9.
基于卷积模型的农业问答语性特征抽取分析   总被引:1,自引:0,他引:1  
互联网农技推广社区每秒增衍问答数据近万组,这些海量数据具有隐性的词性、情感和冗余向量特征,实现数据聚合与数据块消减是该领域的难题。提出了一种基于卷积神经网络的农业问答情感极性特征抽取分析模型,结合农业分词字典,对数据集进行分词后使用Skip-gram模型转换为256维的词向量,利用批规范后的卷积神经网络对数据集进行训练,从而得到用于识别农技推广社区问答词性情感相似性的神经网络模型参数。试验结果表明,该方法能够准确识别测试样例集中的冗余队列,与其他5种文本分类方法进行比较,各项指标优势明显,针对测试集的语性特征抽取准确率达到82.7%。  相似文献   

10.
基于径流分类的日径流量预测神经网络模型   总被引:2,自引:0,他引:2  
王玲  黄国如 《灌溉排水》2002,21(4):45-48
利用聚类分析法将径流序列分解为若干个子径流序列,对这些子径流序列分别建立局部神经网络模型,而后把这些局部模型合并成一个混合模型。当新的信息进入该模型时,首先用分类器判别其类别,以确定用混合模型中的何种局部模型加以模拟。通过与不加分类的总体神经网络模型的模拟结果加以对比,结果表明这种基于径流分类的降雨-径流模型表现出了更优良的性能,可以较大地提高径流模拟精度。  相似文献   

11.
基于支持向量机的中文农业文本分类技术研究   总被引:1,自引:0,他引:1  
高效地组织、分类信息,是提供个性化农业信息推荐服务的基础。根据农业文本信息特点,提出了一种基于线性支持向量机(Support vector machine,SVM)的中文农业文本分类模型,首先构建农业行业分类关键词库,通过特征词选择和权重计算,构建分类器模型,实现信息的自动分类。实验选取了1 071个测试文档,并按照种植业、林业、畜牧业、渔业进行分类。结果表明,分类准确率为96.5%,召回率为96.4%。实验结果高于贝叶斯、决策树、KNN、SMO等分类算法,将该模型应用于农业物联网行业信息综合服务平台,运行结果表明,该方法能够实现中文农业文本信息的自动分类,响应时间满足系统要求。  相似文献   

12.
利用聚类分析法将径流序列分解为若干个子径流序列 ,对这些子径流序列分别建立局部神经网络模型 ,而后把这些局部模型合并成一个混合模型。当新的信息进入该模型时 ,首先用分类器判别其类别 ,以确定用混合模型中的何种局部模型加以模拟。通过与不加分类的总体神经网络模型的模拟结果加以对比 ,结果表明这种基于径流分类的降雨 -径流模型表现出了更优良的性能 ,可以较大地提高径流模拟精度。  相似文献   

13.
“中国农技推广APP”农业问答社区存在提问数据量大、规范性差、涉及面广、噪声多、特征稀疏等影响文本语义匹配的问题,为了改善农业提问数据相似性判断的性能,提出了融合多语义特征的文本匹配模型Co_BiLSTM_CNN,从深度语义、词语共现、最大匹配度3个层面提取短文本特征,并利用共享参数的孪生网络结构,分别运用双向长短期记忆网络、卷积神经网络和密集连接网络构建文本匹配模型。试验结果表明,该模型可以更全面提取文本特征,文本相似性判断的正确率达94.15%,与其他6种模型相比,文本匹配效果优势明显。  相似文献   

14.
棉花市场价格指数波动是一个非常复杂的非线性系统,具有随机波动特性,容易受到气象、金融、政策和国际环境影响.在现有研究棉花价格的数据集特征的基础上如政策、国际环境、进出口、产量等,增加气候因素对棉花价格影响的数据特征如降水、日照、湿度等,并对数据进行收集、整理及预处理.基于棉花价格的波动特性,采用双向长短期记忆网络BiL...  相似文献   

15.
随着我国贺兰山东麓地区葡萄园的大量兴建和大规模引种,各个葡萄园内出现了以霜霉病为典型的严重的病虫害问题。针对目前酿酒葡萄霜霉病精确预测手段缺乏的问题,提出一种基于遗传算法改进长期和短期记忆神经网络的预测模型。将遗传算法(GA)加入长短期记忆神经网络(LSTM)预测模型的参数调节环节中,通过优化算法代替人工手动调参在超参数搜索空间中不断迭代得到最优超参数组合最终确定模型。再建立基于霜霉病—气象时序数据的手动调参LSTM模型和BP神经网络模型,将三种模型在测试集上进行对比试验。GA-LSTM模型的预测结果均方根误差、均方误差、平均绝对误差分别为0.410 3、0.168 4、0.245 0,均小于LSTM模型和BP神经网络模型。预测结果表明LSTM在时间序列问题的应用中预测性能优于BP神经网络模型,使用遗传算法对LSTM模型的超参数选择环节进行优化,最终得到的超参数组合优于手动调参的LSTM模型得到的超参数组合。  相似文献   

16.
针对传统实体关系抽取方法中主体特征与句向量难以有效融合、现有BIO标注策略难以有效处理重叠关系的问题,提出一种基于BERT和双重指针标注的家禽疾病诊疗文本实体关系联合抽取模型(Joint extraction of entity relationship of poultry disease diagnosis and...  相似文献   

17.
当前电池健康状态估算与预测在处理大量电池数据、时间间隔较长存在一定缺陷。长短期记忆神经网络算法在解决该问题时效果明显。在完成电池循环充放电实验基础之上,分析和提取电池放电过程中外部信号变化的特征指标,以电池放电数据中放电容量、放电时间、循环次数训练并建立了长短期记忆神经网络预测模型,采用3种不同的自适应学习率优化算法对学习训练部分进行优化,最后对比分析模型预测的准确程度。结果表明,长短期记忆神经网络估算电池健康状态的误差小于5%,证明预测模型的有效性。  相似文献   

18.
为实现茶树叶片种类的准确、无损、快速分类,以复杂背景下6个品种的茶树叶片图像作为研究对象,通过卷积神经网络实现茶树叶片品种分类。选择经典轻量级卷积神经网络SqueezeNet,通过在Fire模块中增加批归一化处理,实现网络参数不显著增加的前提下大幅提升网络对多品种茶树叶片分类的准确率;通过将Fire模块中的3×3标准卷积核替换为深度可分离卷积,进一步缩小网络模型,降低网络对硬件资源的要求;通过在每个Fire模块中引入注意力机制,增强网络对重要特征信息的提取能力,提升模型分类性能。试验结果表明,原始SqueezeNet模型对多品种茶树叶片分类准确率为82.8%,增加批归一化处理后模型在测试集的准确率达到86.0%,参数量只有7.31×105,相对于改进前参数量仅增加0.8%,运算量与改进前基本相同;将Fire模块中的3×3标准卷积核替换成深度可分离卷积后的模型在测试集的准确率为86.8%,准确率提高0.8个百分点,参数量下降至2.46×105,模型参数量减小66.3%,运算量下降60.4%;引入注意力机制后的模型测试集分类准确率达到90.5%,...  相似文献   

19.
针对传统方法难以揭示机床多轴插补动态误差的序列产生机制,各时间维度上的误差时序特征存在相互关联的问题,提出一种融合混沌表示(Chaotic representation, CR)和特征注意力机制(Feature attention mechanism, FA)的级联动态误差预测模型。首先,在证明多元动态误差时变演化具有混沌特性的基础上,对其进行相空间重构,将动态误差参数时间序列背后隐藏的信息在相空间中进行表达。然后,融合特征注意力机制在时间维度上动态分配相点特征权重的同时降低高维演化相空间信息冗余,进一步重塑原系统的动力学状态向量空间。最后,考虑到混沌时变演化具有长程相关性,采用双向长短期记忆(Bi-directional long short-term memory, Bi-LSTM)网络模型逼近混沌相空间内的动力学特性,实现动态误差混沌时间序列信息的有效预测。通过XK-L540型数控铣床实测数据的算例表明,相较于CRFA-LSTM模型,以及单一级联模型CR-Bi-LSTM、FA-Bi-LSTM,本文算法的均方根误差分别降低约35%、16%和43%。  相似文献   

20.
王圆  毕玉革 《农业机械学报》2022,53(11):236-243
荒漠草原植被稀疏、裸土细碎化分布对遥感数据空间分辨率和光谱分辨率的指标精度提出更高要求,目前应用于遥感场景的深度学习模型隐藏层较多、模型结构复杂,且采用经典深度学习模型未考虑遥感数据内在特点,导致模型训练普遍存在计算过度、耗时增加等问题。本文利用低空无人机(Unmanned aerial vehicle,UAV)遥感平台搭载高光谱成像光谱仪采集荒漠草原地物高光谱数据,发挥高空间分辨率与高光谱分辨率相结合的优势,并基于三维卷积神经网络(Three-dimensional convolutional network,3D-CNN)方法提出一种适合荒漠草原地物植被、裸土、标记物识别的精简学习分类模型,进行参数组合调优,在调整学习率、批量规模、卷积核尺寸及数量后,最高总体分类精度(Overall accuracy,OA)可达到99.746%。研究结果表明,精简学习分类模型的优化建立在超参数选择基础上,为获得精度高、耗时短、性能稳定的最优模型,需不断调整超参数并对比不同组合分类效果。基于无人机高光谱技术的精简学习分类模型在荒漠草原地物的分类识别应用中具有较大优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号