首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
关联规则中的Apriori挖掘算法改进   总被引:3,自引:0,他引:3  
关联规则挖掘是数据挖掘研究的一项重要内容。然而基于候选集的Apriori算法效率低下。针对此缺陷,提出了一种NApriori算法,该算法利用频繁1项集重新组织事务数据库来挖掘关联规则。此方法仅需扫描数据库2次,且避免了Apriori算法繁琐的连接和删除步骤,从而提高了挖掘效率。  相似文献   

2.
本文利用模式矩阵对Apriori算法进行改进,提出一种基于模式矩阵匹配的新算法。它使扫描数据库的次数降为一次,同时小产生候选项目集而直接产生频繁项目集,并且存放辅助信息所需要的空间也少,从而使算法的时间复杂度和空间复杂度大大降低。试验结果表明算法正确高效。  相似文献   

3.
关联分析是数据挖掘的本质体现,关联规则挖掘就是寻找给定的大量数据项集之间存在的某种规律的过程。Apriori算法是关联规则中最重要的一种挖掘频繁项集的算法,但是它也存在一定的不足。目的为了提高挖掘效率。方法采用实验的方法,在经典Apriori算法的基础上进行改进。结果证明改进的Apriori算法性能优于经典的Apriori算法,尤其是在交易事务条数比较多的情况下,效果更加明显。结论是改进的算法在计算支持度个数时,每次不需要扫描全部数据库,只需要在精简的数据库表中扫描各项所在的行就可以了,大大节省了时间;支持度计数的统计也比较容易,也不会产生过多的冗余,可以在很大程度上降低挖掘的复杂度,提高挖掘算法的效率。  相似文献   

4.
针对Apriori算法的性能瓶颈问题,提出了一种双压缩Apriori(Apriori double compression,Apriori_DC)算法.该算法通过不断压缩事务数据库,减少事务记录数和数据项,并通过缩减频繁项集从而减少下一步候选频繁项集的数量,最终实现提高算法效率.试验验证表明:在支持度相同而数据量不同,以及数据量相同而支持度不同时,Apriori_DC算法均优于Apriori算法,且在Apriori_DC算法执行过程中,事务数据库的数据量不断缩小.  相似文献   

5.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法.  相似文献   

6.
关联规则挖掘在课程相关分析中的应用   总被引:1,自引:0,他引:1  
本研究介绍了关联规则挖掘的基本概念,分析了经典的Apriori算法,提出一种改进的关联规则挖掘算法,解决了挖掘课程相关性关联规则的问题。改进算法的基本思想:①采用位图数据格式;②系统中会永久保留支持度为0的候选1项集和候选2项集,当系统需要运行时,首先采用数据库的过滤技术,可以很快得到频繁2项集。突破了这一瓶颈,系统运行速度将得到较大的提升。将该算法应用于课程相关性分析,实验结果表明改进的算法性能优于Apriori算法。  相似文献   

7.
关联规则挖掘技术是一种新兴的数据处理技术,其算法及应用在图书馆中起着非常重要的作用。Apriori算法是关联规则挖掘的经典算法,在分析Apriori算法的基础上,提出利用FP-tree生成树技术来减少候选集的数量,克服Apriori算法的弱点,以提高图书馆个性化服务的效率。  相似文献   

8.
一种新的关联规则抽样算法   总被引:1,自引:0,他引:1  
针对目前经典的关联规则挖掘Apriori算法需对数据库多次扫描费时多计算量大,而抽样扫描会造成挖掘精确度下降等问题,采用控制样本频繁项目集的方法,利用频繁1项集进行抽样处理,对关联规则挖掘的抽样操作和精度控制进行研究,提出了基于抽样操作的关联规则挖掘算法——HAC算法。理论分析及性能试验结果表明:HAC算法能够有效缩减数据库规模,至少少扫描数据库1次,提高了关联规则挖掘的效率,同时其计算精度不受影响。  相似文献   

9.
基于改进Apriori算法的农业病虫害诊断   总被引:1,自引:0,他引:1  
介绍了Apriori算法的基本方法,并从数据项的建立、频繁项集的连接以及规则生成三个方面对Apriori算法进行了改进,并利用改进后的算法挖掘出了可用于农作物病害诊断的决策规则。  相似文献   

10.
数据挖掘中的关联规则应用广泛,而频繁项集的产生又是关联规则挖掘最重要的一步。讨论了关系数据库中利用Apriori算法实现频繁项集挖掘的问题,并借助AprioriTid算法思想,提出了一种改进的基于SOL的频繁项集挖掘算法。试验证明,在事务数据量和支持度变化的情况下,此算法性能稳定且执行效率较好。  相似文献   

11.
基于分布式系统下的快速关联规则挖掘算法   总被引:1,自引:0,他引:1  
随着分布式技术的发展,基于分布式系统下关联规则挖掘算法的研究显得非常重要.分布式系统下关联规则挖掘算法的时间开销主要体现在两方面:一是频繁项目集的确定;二是网络的通讯量.为解决第一个问题,文章提出了一种基于二进制形式的候选频繁项目集生成算法,该算法只需对挖掘对象进行逻辑与操作,提高了频繁项目集的生成效率,将该算法结合FDM算法应用于实验挖掘,实验结果表明,算法提高了挖掘效率,是可行的.  相似文献   

12.
针对传统Apriori算法在生成频繁项目集时出现的瓶颈问题以及难以对非精确的或者模糊的概念进行挖掘的不足,给出了一种高效的关联规则挖掘算法。算法首先利用模糊集知识对数据库中的数值属性进行了合理的非精确语义转换,然后通过高效剪枝的挖掘方法对频繁项集进行挖掘,并将其应用到农业气象数据库的灾害分析中。试验结果表明,该算法在时间性能上有很大的提高。  相似文献   

13.
针对采用频繁模式树构造的最长频繁闭项集的聚类算法,提出该算法在一些特殊环境下可能产生的误差,因而建议在一些应用情况下,不宜采用该算法进行数据挖掘中的数据分类.  相似文献   

14.
为了识别用户浏览模式,实现利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则。关联规则挖掘结果对网站管理员重新调整网站结构、通过预测用户浏览模式提供推送服务来提高用户的访问效率和网站资源的利用率有一定的指导作用。  相似文献   

15.
针对现阶段对已出现森林虫害数据未能完成全面、及时地统计,以及难以准确预测森林虫害爆发的潜在外来诱因的问题,提出使用面向Web挖掘的主题网络爬虫搜集病虫害相关数据,并利用大数据挖掘频繁模式与关联规则的Apriori算法,挖掘结果得到满足最小支持度阈值的频繁2项集,并进一步从中筛选2种重要的特征子集,包括害虫与寄主之间的频繁模式,寄主与外来树种之间的频繁模式。解决了已出现的病虫害数据难以统计的难题;同时预测出针对某一地区害虫可能诱发森林虫害的外来树种。结果表明该方法能达到可靠、有效的森林虫害预测目的。  相似文献   

16.
提出一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项集。通过引入核函数,样本点被非线性变换映射到高维特征空间进行聚类,提高聚类性能。通过矩阵加权关联规则算法进行聚类。通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K-mean算法;在处理大型文档时,该算法的时间复杂度小于传统的K-mean算法。  相似文献   

17.
由于大数据具有多样性的特点,在数据挖掘过程中采用单一最小支持度会出现较多冗余规则,造成挖掘效率不高等问题,该文提出一种基于多最小支持度关联规则改进算法.通过给每一项目设置单独的支持度阈值,构建多最小支持度模式树,利用最小频繁项目作为节点筛选标准,进行冗余节点删除;在挖掘频繁项集的过程中利用排序向下闭合的性质,删除冗余的候选项集,同时能够自动停止向下挖掘,从而快速直接地得到所有频繁项集,并且不需要多次扫描数据库.实验结果表明,改进算法能够提高挖掘效率,节省计算时间.  相似文献   

18.
本文将数据挖掘应用到学生成绩分析中,通过用户给定的最小支持度,利用Apriori算法得出频繁项集,结合最小置信度,确定各门课程之间的联系,以达到有针对性地帮助学生顺利完成学业的目的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号