首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善.  相似文献   

2.
从数字图书馆应用文本分类的重要性入手, 介绍了文本分类的含义及基本技术, 重点分析了文本分类中常用的两种特征提取方法:互信息算法和 统计量算法, 指出两种算法存在的不足并提出相应的改进措施。  相似文献   

3.
在文本分类系统中,特征选择方法是一种有效的降维方式,针对互信息方法存在负相关和对低频词倚重的不足,文中对互信息方法进行了改进并用于类内特征提取。在SVM和KNN分类器下,将互信息和改进后的互信息方法用于特征提取实验,实验结果表明改进后的互信息方法简单可行,能够提高所选特征子集的有效性。  相似文献   

4.
设计并实现了文本信息自动分类系统ITC98的核心模块──基于BP网络的文本分类子系统。介绍系统的分类策略及根据分类问题需求确定BP网络结构和参数的方法。实例测试表明,系统分类精度和效率均达到要求。  相似文献   

5.
针对信息挖掘中的文本自动分类问题,提出了一种基于自组织特征映射网络的分类方法。网络由输入层和竞争层组成。输入层节点与竞争层节点实行全互连接。输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来。分无监督和有监督两个阶段完成对网络的分类训练。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

6.
对基于向量空间模型的文本分类所涉及的关键技术:特征选取、特征向量表示方法、特征向量的维数、文本分类的评价标准进行了分析和研究.为了对比和验证文本分类在特征词选取方法,特征向量表示方法以及在不同维数下对分类的影响,选择了1 600篇中文农业网页进行正交实验,并对这些因素进行比较和分析,选出分类效果最好的组合.研究表明,当使用综合文档频(DFD)特征词选取方法选取特征词,用词频表示特征向量,特征向量维数为300维时,有较好的分类效果,平均查准率可以达到92.63%,平均召回率可以达到91.5%.  相似文献   

7.
面对海量、异构、动态的文本信息,对文本进行自动分类具有重要的意义。近年来,逐步发展起来的群集智能理论和方法为文本分类提供了一种新的智能化手段。笔者将群集智能中发展较为成熟的粒子群智能算法尝试性地引入到文本分类领域。构建了文本预处理模型,该模型是文本分类模型的基础。构建了基于PSO的文本分类模型Text PSO-Miner,并在文本集的向量空间矩阵上进行测试和比较。Text PSO-Miner的各项性能指标都优于经典的分类模型(SVM,KNN,NB)和基于ACO的文本分类模型。结果表明:Text PSO-Miner文本分类模型能够更好地应用于文本分类。  相似文献   

8.
The BPN-based Text Classifying Subsystem, the core module of ITC98, is designed and carried out. The overview of the classifying algorithm and technique which regulate BPN structure and parameters are put forward. The example testing result show that the accuracy and efficiency of system classifying is satisfied.  相似文献   

9.
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

10.
文本分类中特征提取方法的比较与研究   总被引:1,自引:0,他引:1  
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础.  相似文献   

11.
KNN和SVM算法在中文文本自动分类技术上的比较研究   总被引:3,自引:0,他引:3  
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。  相似文献   

12.
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。  相似文献   

13.
为高效估算草地生物量,需要一种方法来提高草地分类精度和降低数据处理时间。该研究基于原始RGB图像采用IHS变换,进行绿度波段图像的融合,并对融合后的图像进行Mean Shift算法分类。结果表明,1)基于IHS图像的草地分类,在视觉上与实际地物更为吻合;2)与其他文献方法对比,本研究方法性能优越,精度达到95%以上;3)可以批量处理多张图像,提高了数据处理效率。  相似文献   

14.
1淡水浮游生物特征提取 1.1颜色特征提取由于红虫、剑水蚤、猛水蚤图像在颜色上有明显区别,所以先提取图像颜色信息,将其作为分类的一项重要特征。颜色直方图以及其组成的空间可以作为图像识别的训练集(数据库)中颜色特征的表示。利用信息论的方法扩展基于颜色信息的图像属性特征。根据颜色直方图的定义可以推出该图像的概率密度函数如公式(1)所示:  相似文献   

15.
基于小波分析及改进KNN的红虫识别研究   总被引:1,自引:0,他引:1  
赵晶莹  郭海  孙兴滨 《安徽农业科学》2009,37(29):14191-14193
提出了一种小波分析与改进KNN相结合的红虫图像识别方法。该方法采用多辨识小波分解提取图像的小波能量特征,同时结合生物图像颜色特征构造特征向量,然后选择加权改进KNN分类器进行识别,分类器根据特征与分类相关度确定权重,修改距离函数,有效提高了分类精度。通过对红虫、剑水蚤、猛水蚤样本进行分类试验证明,平均识别准确率达到95.41%,验证了该方法的有效性。  相似文献   

16.
潜在语义分析(LSA)是一种知识提取和表示的理论和方法.它通过对大量文本集进行统计分析,消除同义词和多义词影响,提高了文本分类处理的精度.本文将主要介绍LSA方法的基本思想和实现方法并讨论LSA在中文文本分类中的应用.  相似文献   

17.
自动分类是数据挖掘和机器学习中非常重要的研究领域。针对难以获得大量有类标签的训练集问题,提出了基于小规模训练集的增量式贝叶斯Bayes分类,给出增量式Bayes分类机理参数计算及其算法。对算法分两种情况处理,第一种情况是新增样本有类别标签,利用现有分类器检验其类标签,如果匹配则保留当前分类器,否则利用新样本修正分类器;第二种情况是新增样本无类别标签,则利用现有分类器为其训练类标签,然后利用新样本来修正分类器。试验结果表明,该算法是可行有效的,比Naive Bayes分类算法有更高的精度。增量式Bayes分类算法的提出为分类器的更新提供了一条新途径。  相似文献   

18.
随着信息技术的快速发展和市场竞争的日益激烈,竞争情报逐渐成为企业生存与发展的重要因素。针对传统的竞争情报分析模型在进行竞争情报分类分析过程中,由于缺乏合理完善的分类指标体系所产生的分类效率与质量问题,提出了构建企业竞争情报分类指标体系,并利用该体系构建竞争情报分类分析模型,同时对该模型的执行过程进行了详细分析。  相似文献   

19.
数据挖掘中关联规则的小生境遗传算法   总被引:1,自引:0,他引:1  
谭永红 《安徽农业科学》2007,35(24):7392-7393
根据关联规则挖掘的要求与特点,提出了一种新的基于小生境遗传算法的关联规则挖掘方法,该算法可以有效解决传统遗传算法搜索过早收敛的缺陷,实验结果显示,该方法能高效地解决关联规则挖掘问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号