共查询到20条相似文献,搜索用时 15 毫秒
1.
论文利用层次分析法(AHP)的原理和方法,探讨了中文文本分类系统影响因素的评价问题。首先提出了影响文本分类系统性能的指标体系,建立了文本分类系统评价的层次结构模型;其次,根据专家调查的结果,构建比较判断矩阵;最后利用AHP专用软件Expert Choice计算各层次评价指标的权重,并对结果进行了分析说明。 相似文献
2.
针对目前基于规则和基于统计的文本分类方法存在的不足,提出了一种新颖的基于规则和K-近邻分类相融合的文本分类方法。首先,对描述文本特征的传统向量空间模型进行了扩充,给出了具体的扩展模型。然后,基于扩展模型提出了一种规则的表示方法,并为每一条规则赋予了一个强弱系数,根据这个系数可以对识别的文本按级别排序。最后,通过设定一个阀值,将级别低于阀值的文本过滤掉。该方法可有效地排除被K-近邻分类误识别的那些文本,从而在一定程度上提高了分类的正确率。通过小数据集测试实验结果表明,该方法是有效的、可行的。 相似文献
3.
罗新 《农业图书情报学刊》2016,(11):50-54
文本分类作为处理大量文本数据的关键技术,可以在较大程度上解决"信息爆炸"所带来的问题。Breiman提出的随机森林算法具有良好的泛化性和鲁棒性、对噪声不敏感、能处理连续属性的特点,很适合用来建立文本分类模型。笔者将随机森林算法尝试性引入文本分类领域,构建基于随机森林的文本分类模型,并在标准文本测试集Reuters-21578进行测试和比较,结果表明:(1)该模型可以较好地应用于文本分类;(2)与基于CART、REPTree和J48的文本分类模型的结果相比较,基于随机森林的文本分类模型的效果最好,F1-Measure达到了0.777;(3)基于随机森林的文本分类模型操作方便、直观有效、评价结果可靠,为文本分类研究提供了新思路。 相似文献
4.
朱秀华 《农业图书情报学刊》2009,21(8):26-29
针对信息挖掘中的文本自动分类问题,提出了一种基于自组织特征映射网络的分类方法。网络由输入层和竞争层组成。输入层节点与竞争层节点实行全互连接。输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来。分无监督和有监督两个阶段完成对网络的分类训练。该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。 相似文献
5.
罗新 《农业图书情报学刊》2018,(4):18-22
面对海量、异构、动态的文本信息,对文本进行自动分类具有重要的意义。近年来,逐步发展起来的群集智能理论和方法为文本分类提供了一种新的智能化手段。笔者将群集智能中发展较为成熟的粒子群智能算法尝试性地引入到文本分类领域。构建了文本预处理模型,该模型是文本分类模型的基础。构建了基于PSO的文本分类模型Text PSO-Miner,并在文本集的向量空间矩阵上进行测试和比较。Text PSO-Miner的各项性能指标都优于经典的分类模型(SVM,KNN,NB)和基于ACO的文本分类模型。结果表明:Text PSO-Miner文本分类模型能够更好地应用于文本分类。 相似文献
6.
基于eEP的文本分类算法在农家书屋数字化平台中的应用 总被引:1,自引:1,他引:0
根据农家书屋数字化平台建设的系统要求,利用目前技术相对成熟的基于eEP的分类算法,对超星数据库里的农业类文本进行分类,在大量数字文本中挑选出符合农家书屋数字平台建设的文本。研究表明,基于eEP的文本分类算法良好的分类准确率对于农家书屋数字化平台的内容建构有积极的作用。 相似文献
7.
鲍凌云 《农业图书情报学刊》2014,26(7):33-35
从数字图书馆应用文本分类的重要性入手, 介绍了文本分类的含义及基本技术, 重点分析了文本分类中常用的两种特征提取方法:互信息算法和 统计量算法, 指出两种算法存在的不足并提出相应的改进措施。 相似文献
8.
文本分类中特征提取方法的比较与研究 总被引:1,自引:0,他引:1
介绍了进行文本分类的关键技术,着重介绍了常用的文本特征提取方法.选取支持向量机方法作为文本分类器方法,选取不同特征提取方法应用于文本分类,通过实验,比较和分析了由不同的提取方法所构成的分类器的分类性能,确定了信息增益(IG)法和文本证据权(WET)为两种性能优异的特征提取方法.该结论可为分类性能进一步的优化研究奠定理论和实践基础. 相似文献
9.
介绍文本信息自动分类系统ITC98(IntelligentTextClassify)的总体结构及特点,对借鉴人类文本分类方式设计的启发式编码子系统作了讨论。 相似文献
10.
潜在语义分析(LSA)是一种知识提取和表示的理论和方法.它通过对大量文本集进行统计分析,消除同义词和多义词影响,提高了文本分类处理的精度.本文将主要介绍LSA方法的基本思想和实现方法并讨论LSA在中文文本分类中的应用. 相似文献
11.
介绍文本信息自动分类系统ITC98的总体结构及特点,对借鉴人类文本分类方式设计的启发式编码子系统作了讨论。 相似文献
12.
KNN和SVM算法在中文文本自动分类技术上的比较研究 总被引:3,自引:0,他引:3
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。 相似文献
13.
张申亚 《信阳农业高等专科学校学报》2007,17(3):125-127
特征选择(Feature Selection)是基于向量空间模型的文本分类的首要任务和关键。本文对常用的七种特征选择算法进行了深入研究和比较,并提出今后特征选择研究的方向和目标。 相似文献
14.
15.
遥感影像分类是遥感信息提取的重要手段,是目前遥感技术中的热点研究内容,有效地选择合适的分类方法是提高遥感影像分类精度的关键。BP神经网络具有收敛快和自学习、自适应性强的特点。在遥感图像分类中,BP神经网络能充分利用样本集的信息,自动建立分类模型,但由于BP神经网络的权值和阀值能直接影响BP神经网络模型的分类精度,因此该研究通过遗传算法来确定BP神经网络的最优权值和阀值,从而提高BP神经网络的分类精度。以LandsatTM遥感图像作为数据源,以长江中游一武汉市为研究地区,建立了基于BP神经网络模型的遥感分类模型和基于遗传算法改进BP神经网络模型的分类模型,对分类结果进行了定量分析。结果表明:在样本相同的情况下,基于遗传算法改进BP神经网络的遥感影像分类精度要高于BP神经网络的遥感影像分类精度。 相似文献
16.
在文本分类系统中,特征选择方法是一种有效的降维方法,在分析了几种常用的特征选择评价函数之后,根据其算法特点,对算法进行改进从而实现类内特征提取。实验结果证明改进后的类内特征选择方法简单可行、有助于提高所选特征子集的有效性。 相似文献
17.
18.
在文本分类系统中,特征选择方法是一种有效的降维方式,针对互信息方法存在负相关和对低频词倚重的不足,文中对互信息方法进行了改进并用于类内特征提取。在SVM和KNN分类器下,将互信息和改进后的互信息方法用于特征提取实验,实验结果表明改进后的互信息方法简单可行,能够提高所选特征子集的有效性。 相似文献
19.
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善. 相似文献
20.
基于改进BP神经网络的多分辨率遥感图像分类及对比分析 总被引:1,自引:1,他引:0
在遥感图像分类的研究中,传统的分类方法对“同物异谱”、“异物同谱”现象识别能力较差。此外,常用的BP神经网络分类存在时间长、易陷入局部极小等不足。将BP网络中的激励函数添加偏置参数、学习率进行自适应调整,并与最大似然、BP神经网络分类比较,结果表明改进的BP神经网络分类精度为89.69%,比最大似然提高了15.35%,比BP神经网络提高了23.81%。另一方面,基于改进的BP神经网络分类,对分辨率为16 m的高分一号卫星(GF-1)图像和分辨率为5.8 m的资源三号卫星(ZY-3)图像进行分类比较,并以ZY-3分类图作为检验图像,GF-1图像的分类精度达到了88.02%,各类地物的用户精度和制图精度在70%~99%之间,说明成本较低、宽幅较广的GF-1图像在地物信息获取方面可基本实现ZY-3卫星图像效果,为遥感图像地物信息提取提供了一定的参考。 相似文献