首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
数据挖掘中的关联规则应用广泛,而频繁项集的产生又是关联规则挖掘最重要的一步。讨论了关系数据库中利用Apriori算法实现频繁项集挖掘的问题,并借助AprioriTid算法思想,提出了一种改进的基于SOL的频繁项集挖掘算法。试验证明,在事务数据量和支持度变化的情况下,此算法性能稳定且执行效率较好。  相似文献   

2.
关联分析是数据挖掘的本质体现,关联规则挖掘就是寻找给定的大量数据项集之间存在的某种规律的过程。Apriori算法是关联规则中最重要的一种挖掘频繁项集的算法,但是它也存在一定的不足。目的为了提高挖掘效率。方法采用实验的方法,在经典Apriori算法的基础上进行改进。结果证明改进的Apriori算法性能优于经典的Apriori算法,尤其是在交易事务条数比较多的情况下,效果更加明显。结论是改进的算法在计算支持度个数时,每次不需要扫描全部数据库,只需要在精简的数据库表中扫描各项所在的行就可以了,大大节省了时间;支持度计数的统计也比较容易,也不会产生过多的冗余,可以在很大程度上降低挖掘的复杂度,提高挖掘算法的效率。  相似文献   

3.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法.  相似文献   

4.
应用数据挖掘中关联规则的Apriori算法对玉米产量信息进行数据分析。利用最小支持度和最小置信度挖掘出频繁项集,从而寻找其中存在的关系和规则。挖掘的信息为:玉米生育期内降水量高,平均气温高,则产量高;反之,平均气温偏低,总降水量偏低,则产量低,十分可信。  相似文献   

5.
一种新的关联规则抽样算法   总被引:1,自引:0,他引:1  
针对目前经典的关联规则挖掘Apriori算法需对数据库多次扫描费时多计算量大,而抽样扫描会造成挖掘精确度下降等问题,采用控制样本频繁项目集的方法,利用频繁1项集进行抽样处理,对关联规则挖掘的抽样操作和精度控制进行研究,提出了基于抽样操作的关联规则挖掘算法——HAC算法。理论分析及性能试验结果表明:HAC算法能够有效缩减数据库规模,至少少扫描数据库1次,提高了关联规则挖掘的效率,同时其计算精度不受影响。  相似文献   

6.
关联规则挖掘在课程相关分析中的应用   总被引:1,自引:0,他引:1  
本研究介绍了关联规则挖掘的基本概念,分析了经典的Apriori算法,提出一种改进的关联规则挖掘算法,解决了挖掘课程相关性关联规则的问题。改进算法的基本思想:①采用位图数据格式;②系统中会永久保留支持度为0的候选1项集和候选2项集,当系统需要运行时,首先采用数据库的过滤技术,可以很快得到频繁2项集。突破了这一瓶颈,系统运行速度将得到较大的提升。将该算法应用于课程相关性分析,实验结果表明改进的算法性能优于Apriori算法。  相似文献   

7.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率.  相似文献   

8.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率.  相似文献   

9.
为了解决负关联规则挖掘中海量项集问题和一级剪枝策略效率不高的问题,本文在研究关联规则相关性和兴趣度的基础之上,提出了一种计算项集兴趣度的数学模型,引入了有趣2项集的概念,设计了基于兴趣度的项集剪枝和关联规则剪枝的二级剪枝策略及实现二级剪枝的正负关联规则挖掘算法。  相似文献   

10.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集.基于FP-tree的最大频繁项集挖掘算法要多次生成大量的FP-tree,并且需要对其多次遍历,消耗了大量的时间.针对以上缺点,提出一种基于FP-tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset,简称MMFI),它既减少创建FP-tree的数量,又节省遍历FP-tree的时间,实验证明本算法是有效的.  相似文献   

11.
为了识别用户浏览模式,实现利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则。关联规则挖掘结果对网站管理员重新调整网站结构、通过预测用户浏览模式提供推送服务来提高用户的访问效率和网站资源的利用率有一定的指导作用。  相似文献   

12.
针对现阶段对已出现森林虫害数据未能完成全面、及时地统计,以及难以准确预测森林虫害爆发的潜在外来诱因的问题,提出使用面向Web挖掘的主题网络爬虫搜集病虫害相关数据,并利用大数据挖掘频繁模式与关联规则的Apriori算法,挖掘结果得到满足最小支持度阈值的频繁2项集,并进一步从中筛选2种重要的特征子集,包括害虫与寄主之间的频繁模式,寄主与外来树种之间的频繁模式。解决了已出现的病虫害数据难以统计的难题;同时预测出针对某一地区害虫可能诱发森林虫害的外来树种。结果表明该方法能达到可靠、有效的森林虫害预测目的。  相似文献   

13.
频繁项集挖掘是关联规则挖掘的核心部分,目前大多数关于关联规则挖掘的研究都集中于如何提高频繁项集挖掘的效率,然而在实际应用中,决策者面对的是最终从频繁项集中生成的规则集,因此优化规则的生成过程及生成规则同样值得重视。本文提出频繁项集的子集树这一模式来生成关联规则,不仅简化规则的生成过程还可缩小决策者面对的规则集,更便于规则的增量更新。  相似文献   

14.
聚类、粗糙集与决策树的组合算法在地力评价中的应用   总被引:4,自引:1,他引:3  
陈桂芬  马丽  董玮  辛敏刚 《中国农业科学》2011,44(23):4833-4840
 【目的】地力评价方法大多数有一定的主观性,较少考虑土壤各属性间的依赖关系。论文旨在采用数据挖掘方法,寻求地力等级划分的新方法。【方法】结合农安县耕地调查数据,应用K-means聚类方法、Johnson粗糙集属性约简算法与C4.5决策树算法相结合的优化算法评价地力等级。【结果】使用K-means聚类方法,得到最佳学习样本数;使用粗糙集属性约简和决策树相结合的方法,去掉了冗余属性7个,决策树模型共有节点317个,其中叶节点个数为159个,生成规则159条,模型准确率为82.08%。与未聚类和未约简的方法相比,决策树结点个数减少41.62%。【结论】使用该组合算法,在保证模型准确率的同时,降低了算法的时间和空间复杂性,提高了挖掘效率。  相似文献   

15.
一个不需要产生候选集频繁集挖掘算法的研究   总被引:2,自引:0,他引:2  
FP-growth算法是一个频繁集产生算法,与一般的类似于Apriori的频繁集产生算法相比。FP-growth的优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率。从不同角度对FP-growth算法进行了详细的研究,并与经典算法Apriori在性能上作了分析对比。  相似文献   

16.
基于分布式系统下的快速关联规则挖掘算法   总被引:1,自引:0,他引:1  
随着分布式技术的发展,基于分布式系统下关联规则挖掘算法的研究显得非常重要.分布式系统下关联规则挖掘算法的时间开销主要体现在两方面:一是频繁项目集的确定;二是网络的通讯量.为解决第一个问题,文章提出了一种基于二进制形式的候选频繁项目集生成算法,该算法只需对挖掘对象进行逻辑与操作,提高了频繁项目集的生成效率,将该算法结合FDM算法应用于实验挖掘,实验结果表明,算法提高了挖掘效率,是可行的.  相似文献   

17.
基于改进蚁群算法的分类规则挖掘   总被引:1,自引:0,他引:1  
数据分类是数据挖掘中的一个重要课题,研究各种高效的分类算法是数据挖掘的重要问题之一.本文将蚁群算法与分类规则抽取问题相结合,提出了一种基于蚁群算法的具有自适应和变异杂交特征的分类规则挖掘方法,自适应地调整信息素增量,在规则构造中进行杂交变异,有效地节省了计算时间,并优化了生成的分类规则.实验结果表明:该算法可以有效克服停滞,提高搜索效率,有效地挖掘出简洁分类规则.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号