共查询到16条相似文献,搜索用时 62 毫秒
1.
在文本分类系统中,特征选择方法是一种有效的降维方式,针对互信息方法存在负相关和对低频词倚重的不足,文中对互信息方法进行了改进并用于类内特征提取。在SVM和KNN分类器下,将互信息和改进后的互信息方法用于特征提取实验,实验结果表明改进后的互信息方法简单可行,能够提高所选特征子集的有效性。 相似文献
2.
KNN和SVM算法在中文文本自动分类技术上的比较研究 总被引:3,自引:0,他引:3
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。 相似文献
3.
《信阳农业高等专科学校学报》2021,(1):121-126
针对传统支持向量机(support vector machine,SVM)对时间序列数据分类,仅通过样本在空间中的几何距离判别样本的类别,提出了一种基于改进核函数的支持向量机算法(SVM_IK,SVM with improved kernel function)。该算法计算样本与空间基数据的时间序列互相关距离,将样本数据映射到新的特征空间中,实现对线性核函数改进,最终根据改进的线性核函数SVM算法对样本数据进行分类。算法通过25组UCR数据集的验证,实验结果显示与1-NN算法和传统SVM算法相比,SVM_IK算法对时间序列数据具有较好的分类效果。 相似文献
4.
5.
在文本分类系统中,特征选择方法是一种有效的降维方法,在分析了几种常用的特征选择评价函数之后,根据其算法特点,对算法进行改进从而实现类内特征提取。实验结果证明改进后的类内特征选择方法简单可行、有助于提高所选特征子集的有效性。 相似文献
6.
黄志艳 《山东农业大学学报(自然科学版)》2013,44(2)
本文提出了一种基于信息增益改进的信息增益特征选择选择方法.首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响.其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰.最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集.通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力. 相似文献
7.
针对SVM法线特征筛选算法仅考虑法线对特征筛选的贡献,而忽略了特征分布对特征筛选的贡献的不足,在对SVM法线算法进行分析的基础上,基于特征在正、负例中出现概率的不同提出了加权SVM法线算法,该算法考虑到了法线和特征的分布。通过试验可以看出,在使用较小的特征空间时,与SVM法线算法和信息增益算法相比,加权SVM法线算法具有更好的特征筛选性能。 相似文献
8.
基于MERSI和MODIS数据的2种监督分类方法比较研究 总被引:4,自引:0,他引:4
在VC++6.0环境下实现2种监督分类方法,即最小距离法和最大似然法对250mMERSI和MODIS数据进行分类。并对分类结果进行分析。通过分析可看出,将250m分辨率数据增加到5通道的MERSI数据在2种分类方法下分类效果都要好于MODIS数据。 相似文献
9.
10.
目的 特征集中特征质量的好坏能够影响到文本分类的精度,所以选择一种好的特征选择方法对于文本分类的效果起着重要的作用.方法 粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具.提出了一种基于粗糙集的特征选择方法.结果 通过实验结果表明该方法利用粗糙集的约简理论降低了特征维数,同时保证了分类性能.使用该方法进行特征选择时比目前常用的特征选择方法获得较好的分类效果.结论 粗糙集的属性约简理论可以用在规则提取和特征选择上,利用粗糙集的属性约简理论进行特征选择时能够获得较理想的分类效果. 相似文献
11.
王艳春 《青岛农业大学学报(自然科学版)》2009,26(3):242-245
基因表达式编程(GEP)是基于遗传算法和遗传编程的具有更强数据处理和知识发现的进化算法。介绍了传统GEP算法的基本原理和关键技术,针对求解问题时传统GEP存在未成熟收敛和进化后期收敛速度慢等问题,提出了GEP算法的改进方法,并将改进算法应用于函数发现问题中。与传统GEP算法的对比试验表明改进的GEP算法具有更好的求解能力和更高的性能。 相似文献
12.
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度。 相似文献
13.
14.
随着科技的飞速发展,数据分类日益重要。在改进粒子群算法基础上,结合最近邻分类,形成混合粒子群算法,并在分类基准数据集Iris上试验。试验结果表明:所提出的算法在收敛速度、稳定性和可信度上具有一定的优越性。 相似文献
15.
16.
为研究黄皮果实中查尔酮合成酶(CHS)的功能,以黄皮果实的 cDNA 和 DNA 为模板,采用同源克隆的方法克隆得 CHS 基因后进行序列比对和聚类分析。结果表明:该基因的开放阅读框为1032 bp,编码343个氨基酸。基因组扩增得到了1100 bp 的片段,不含内含子。该基因主要在果实中表达,而叶片中表达较其他组织低,初步推断该基因可能与果实和花朵中的黄酮类物质合成有密切的关系。该基因编码的蛋白与柑桔的 CHS 蛋白序列亲缘关系较近,可与柑桔、葡萄、芍药、牡丹、荔枝、龙眼等聚为一类。 相似文献