首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
特征提取方法在文本分类过程中起着重要作用,文本分类的效果受特征提取方法选择的直接影响。采取信息增益和文档频率2种特征提取方法,对朴素贝叶斯分类模型的查全率和准确率进行验证比较。研究表明,朴素贝叶斯分类器的分类效果随着维数的增加先增加后减少;在维数一定时,信息增益(IG)的分类效果明显好于文档频率(DF)的分类效果。  相似文献   

2.
一种基于粗糙集理论的特征选择方法   总被引:3,自引:3,他引:0  
目的 特征集中特征质量的好坏能够影响到文本分类的精度,所以选择一种好的特征选择方法对于文本分类的效果起着重要的作用.方法 粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具.提出了一种基于粗糙集的特征选择方法.结果 通过实验结果表明该方法利用粗糙集的约简理论降低了特征维数,同时保证了分类性能.使用该方法进行特征选择时比目前常用的特征选择方法获得较好的分类效果.结论 粗糙集的属性约简理论可以用在规则提取和特征选择上,利用粗糙集的属性约简理论进行特征选择时能够获得较理想的分类效果.  相似文献   

3.
为探究农产品消费者在线评论数据对消费者满意度决策的重要影响,选取具有体验性的富硒茶作为研究对象,使用机器学习分类算法对富硒茶评论文本进行情感分类,使用TF-IDF和LDA模型进行文本特征词与主题可视化挖掘,识别消费者对富硒茶的满意度影响因素.研究发现,消费满意度主要体现在对产品的信任感知、营销感知、质量感知、物流服务和...  相似文献   

4.
杨秋霞  罗传文 《安徽农业科学》2014,(30):10777-10779
为了实现森林火灾的智能识别,提出一种基于稀疏表示的林火火焰自动识别方法.以林火火焰和5类干扰物体为研究对象,每类对象从视频图像中随机选取50帧作为训练样本,150帧作为测试样本.对每幅图像提取疑似火焰区域,求取面积变化率、颜色、纹理和形状特征参数.所有训练样本的特征向量构建训练样本特征字典,对每个测试样本利用l1最小化范数计算其在训练字典上的投影系数,根据最小重构残差进行分类识别.结果表明,稀疏表示方法的识别率可达到93.56%,为林火火焰识别提供了一个有效的解决方案.  相似文献   

5.
中文农业网站多元线性回归识别研究   总被引:1,自引:1,他引:0  
在对中文网页分类中几种典型特征词选取方法研究基础上,提出了互联网农业网站识别中特征词提取方法,设计了农业网站最小二乘多元线性回归识别模型。为检测不同分词器对模型性能的影响,分别使用JE分词器、IK分词器、庖丁解牛分词器、中科院分词器等中文分词工具进行了对比实验。结果表明,当特征词在160~200时,使用IK分词器、庖丁解牛分词器、中科院分词器,模型识别精确度可达96%以上,当特征词个数达到200个以后,农业网站识别精确度基本趋于稳定。  相似文献   

6.
文本分类中特征提取方法的比较与研究   总被引:1,自引:0,他引:1  
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.  相似文献   

7.
在基于图像分析的火焰目标检测判别函数中,判别特征的选取会显著影响判别的准确率,为了提高检测的准确率并且降低火焰目标特征向量的维数,本文提出了基于逐步判别法与BP神经网络的火焰目标检测方法,该方法对火焰目标的颜色、亮度和纹理特征及其检测算法进行了研究,然后利用逐步判别法筛选出区分能力强的特征向量子集并作为BP神经网络的输入端分量完成火焰目标的识别,该方法的漏报率为6.7%,准确率为93.3%,火焰目标检测效果最佳。  相似文献   

8.
潜在语义分析(LSA)是一种知识提取和表示的理论和方法.它通过对大量文本集进行统计分析,消除同义词和多义词影响,提高了文本分类处理的精度.本文将主要介绍LSA方法的基本思想和实现方法并讨论LSA在中文文本分类中的应用.  相似文献   

9.
以川麦冬叶部黑斑病、炭疽病、叶枯病3种病害图像为研究对象,对比分析了双峰法、Otsu阈值分割法以及K-means聚类分割算法对麦冬病斑图像的分割效果。结果表明,K-means聚类算法结合数学形态学方法能满足病斑分割要求;提取病斑图像颜色、形状、纹理信息融合成病斑特征向量;运用方差分析与主成分分析法剔除了病害表征能力较差的特征参数并将特征向量维数降至10维;运用支持向量机设计出分类器进行病害识别,经试验识别率达到了90%。该方法具有成本低、算法简单、运行高效等优势,基本符合实际应用要求。  相似文献   

10.
提出了一种基于多尺度特征向量的输电线路无人机LiDAR点云数据分类方法,可以有效对线路走廊中的地物进行分类。首先提取三维点云数据的多尺度局部特征作为特征参数构成特征向量,主要包括高程特征、连通特征、张量特征和平面特征。然后将多尺度特征向量输入到多分类相关向量机分类器中,在完成分类器训练之后,对无人机LiDAR点云数据进行分类。试验结果表明,该方法可以有效区分地面、植物、建筑物、杆塔和电力线5类线路走廊地物LiDAR点云数据,分类整体精度达到96.63%。  相似文献   

11.
鲍彤  罗瑞  郭婷  贵淑婷  任妮 《南方农业学报》2022,53(7):2068-2076
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93....  相似文献   

12.
Remote diagnose of fish diseases for farmers is unrealized in China, but use of mobile phones and remote analysis based on image processing can be feasible due to the widespread use of mobile phones with camera features in rural areas. This paper presents a novel method of classifying species of fish based on color and texture features and using a multi-class support vector machine (MSVM). Fish images were acquired and sent by smartphone, and the method utilized was comprised of the following stages. Color and texture subimages of fish skin were obtained from original images. Color features, statistical texture features and wavelet-based texture features of the color and texture subimages were extracted, and six groups of feature vectors were composed. LIBSVM software was tested using leave-one-out cross validation to find the best group for classification in feature selection procedure. Two multi-class support vector machines based on a one-against-one algorithm were constructed for classification. The feature selection results showed that the Bior4.4 wavelet filter in HSV color space achieved greater accuracy than the other feature groups. The classification results indicate that only the DAGMSVM meets the requirement of time efficiency for the system. The results of this study suggest that the best classification model for fish species recognition is composed of a wavelet domain feature extractor with Bior4.4 wavelet filter in HSV color space and a one-against-one algorithm based DAGMSVM classifier.  相似文献   

13.
针对棉花异性纤维(棉花采摘、摊晒、收购、储存、运输及加工过程中混入棉花中的非棉纤维)识别问题,提出了一种基于联盟博弈和极限学习机相融合的棉花异性纤维识别方法,该方法利用基于联盟博弈的特征选择方法确定最优的特征集,随后利用极限学习机进行棉花异性纤维识别并与支持向量机、k近邻法进行了试验比较.试验结果表明,该方法、支持向量机和k近邻法可以实现的准确率分别为90.15%、88.46%和86.30%.相对于另两种方法,该方法具有最高的识别准确率,并使特征集的特征数由75个降为25个.  相似文献   

14.
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。  相似文献   

15.
基于机载激光雷达和高光谱数据的树种识别方法   总被引:1,自引:1,他引:1  
训练样本的选取是影响监督分类精度的直接原因之一,数据空间分辨率越高,训练样本要求越准确,而人机交互训练样本选取推广力有限。利用机载高光谱(AISA)和激光雷达(LiDAR)主被动遥感数据,探讨基于高分辨率影像的训练样本自动提取技术以及适合树种识别的遥感变量。根据树木的结构和高度差异,开展树高分层掩膜试验,并计算光谱间夹角,在每个高度层中自动化优选树种的高纯度训练样本。计算植被指数、主成分分析等特征变量,基于支持向量机分类器对研究区进行树种精细分类。实验表明:通过对阔叶林、马尾松Pinus massoniana,毛竹Phyllostachys edulis,杉木Cunninghamia lanceolata,油茶Camellia oleifera的训练样本分层自动提取后再进行分类,激光雷达和不敏感色素指数变量能有效提高树种分类精度。其中高光谱+激光雷达+结构不敏感色素指数变量组合的分类精度最高,其总体精度和Kappa系数分别为89.12%和0.86,阔叶林、马尾松、毛竹、杉木、油茶的用户精度分别为75.00%,100.00%,86.36%,90.91%和96.55%。该方法对本研究区森林树种的识别是有效的。  相似文献   

16.
基于机器视觉的核桃仁动态分级研究   总被引:1,自引:0,他引:1  
【目的】基于机器视觉技术研究出一种适合新疆核桃仁动态分级处理的方法。【方法】利用实时采集且已经完成图像预处理的样品核桃图像得到核桃仁特征集合,运用mRMR特征选择算法筛选原始特征集并对特征的重要性进行排列,通过对支持向量机、决策树和朴素贝叶斯三种机器学习算法进行模型训练和测试,得出最佳分级方法,设计核桃仁自动追踪方法和动态分级流程,构建的核桃仁自动分级系统。【结果】在使用特征bin19、K1和bin15训练朴素贝叶斯分类器时,核桃仁的分级正确率达到最大为97.33%,在动态条件下运用构建的核桃仁自动分级系统对150个核桃仁进行分级测试,正确率为81.33%。【结论】基于机器视觉研究出的核桃仁特征提取与分级方法、核桃仁动态分级处理动作方法,可以有效完成对核桃颜色和完整度的分级。  相似文献   

17.
[目的/意义]开展面向数字人文的古籍触发动词识别及分类研究,对于古籍文本的深层次挖掘和内容揭示具有重大的意义.本文利用深度学习分类算法,探索依据古籍触发词进行事件句文本多元分类的自动化方法.[方法/过程]在构建了典籍事件触发词分类体系和触发词典的基础上,选取4个不同类别的事件句文本作为实验数据,利用Onehot和Tok...  相似文献   

18.
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.  相似文献   

19.
基于支持向量机的小麦条锈病和叶锈病图像识别   总被引:2,自引:2,他引:2  
为了解决生产中小麦条锈病和叶锈病症状难以区分的问题,提高识别率和精度,提出了一种基于支持向量机和多特征参数的小麦条锈病和叶锈病图像分类识别方法。利用图像裁剪方法获取典型症状的子图像,采用中值滤波算法对图像进行去噪,利用K_means硬聚类算法实现病斑分割,提取病斑区域的形状、颜色和纹理特征空间的50个特征参数,设计支持向量机分类器进行分类识别。根据优选的26个特征参数,利用以径向基函数作为核函数的支持向量机对这2种小麦锈病图像进行识别。结果表明:训练样本识别率均为96.67%,测试样本识别率均为100%;与其他核函数相比,径向基核函数最适合于这2种小麦锈病的识别。所提出的基于支持向量机的方法可有效地进行小麦条锈病和叶锈病的图像识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号