首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于分布式系统下的快速关联规则挖掘算法   总被引:1,自引:0,他引:1  
随着分布式技术的发展,基于分布式系统下关联规则挖掘算法的研究显得非常重要.分布式系统下关联规则挖掘算法的时间开销主要体现在两方面:一是频繁项目集的确定;二是网络的通讯量.为解决第一个问题,文章提出了一种基于二进制形式的候选频繁项目集生成算法,该算法只需对挖掘对象进行逻辑与操作,提高了频繁项目集的生成效率,将该算法结合FDM算法应用于实验挖掘,实验结果表明,算法提高了挖掘效率,是可行的.  相似文献   

2.
时态数据库周期规律与关联规则的挖掘   总被引:6,自引:0,他引:6  
提出了一种简单有效、抗干扰的周期规律挖掘算法;研究了关联规则提取过程中的连续属性离散化,并用Apriori算法发现有效的规则。对电信话务量时态数据库的挖掘测试结果表明,该算法实现较简单,执行效率较高,具有实用性和有效性。  相似文献   

3.
图结构挖掘已成为当前数据挖掘的研究重点之一.在文本结构分析、生物信息处理以及网络结构分析等领域,图结构挖掘都有着广泛的应用.该文通过引入子图同构和结构同构的概念,借助贪婪搜索算法和完全级别搜索算法的思想,结合图论和频繁项目集的挖掘算法,提出了一种新的频繁子图挖掘算法——FSM(frequent subgraph mining).FSM算法降低了寻找频繁子图的复杂度,提高了图结构挖掘的效率.  相似文献   

4.
数据挖掘是指从海量的、无规则的数据中发现潜在的、有用的知识的过程。提出了基于Apriori原理的改进算法,主要包括:通过对被扫描数据库事务的缩减来提高算法对频繁项集的挖掘效率;通过优化寻找频繁项集的方法来缩小算法的挖掘时间。对超市的销售记录进行挖掘,找出其中商品的相关性,输入一个用户的购物记录对此用户进行推荐。通过多次实验证实,此算法比传统的算法在寻找全部频繁项集时花费的时间更少。  相似文献   

5.
针对大规模复杂网络社团挖掘的效率较低问题,提出一种基于边链接权重的局部社团探测算法.该算法以边两端节点所共有的邻居占其邻居的比值作为该边的链接权重,从某一节点出发通过给定的阈值进行遍历,由此得到该节点所在的局部社团.实验结果表明,算法发现的局部社团能够获得满意的结果,而且时间复杂度趋于线性时间复杂度.  相似文献   

6.
由于大数据具有多样性的特点,在数据挖掘过程中采用单一最小支持度会出现较多冗余规则,造成挖掘效率不高等问题,该文提出一种基于多最小支持度关联规则改进算法.通过给每一项目设置单独的支持度阈值,构建多最小支持度模式树,利用最小频繁项目作为节点筛选标准,进行冗余节点删除;在挖掘频繁项集的过程中利用排序向下闭合的性质,删除冗余的候选项集,同时能够自动停止向下挖掘,从而快速直接地得到所有频繁项集,并且不需要多次扫描数据库.实验结果表明,改进算法能够提高挖掘效率,节省计算时间.  相似文献   

7.
FSM——基于子图同构和结构同构的频繁子图挖掘算法   总被引:1,自引:0,他引:1  
图结构挖掘已成为当前数据挖掘的研究重点之一.在文本结构分析、生物信息处理以及网络结构分析等领域,图结构挖掘都有着广泛的应用.该文通过引入子图同构和结构同构的概念,借助贪婪搜索算法和完全级别搜索算法的思想,结合图论和频繁项目集的挖掘算法,提出了一种新的频繁子图挖掘算-- FSM(frequent subgraph mining).FSM算法降低了寻找频繁子图的复杂度,提高了图结构挖掘的效率.  相似文献   

8.
基于改进蚁群算法的分类规则挖掘   总被引:1,自引:0,他引:1  
数据分类是数据挖掘中的一个重要课题,研究各种高效的分类算法是数据挖掘的重要问题之一.本文将蚁群算法与分类规则抽取问题相结合,提出了一种基于蚁群算法的具有自适应和变异杂交特征的分类规则挖掘方法,自适应地调整信息素增量,在规则构造中进行杂交变异,有效地节省了计算时间,并优化了生成的分类规则.实验结果表明:该算法可以有效克服停滞,提高搜索效率,有效地挖掘出简洁分类规则.  相似文献   

9.
关联规则中的Apriori挖掘算法改进   总被引:3,自引:0,他引:3  
关联规则挖掘是数据挖掘研究的一项重要内容。然而基于候选集的Apriori算法效率低下。针对此缺陷,提出了一种NApriori算法,该算法利用频繁1项集重新组织事务数据库来挖掘关联规则。此方法仅需扫描数据库2次,且避免了Apriori算法繁琐的连接和删除步骤,从而提高了挖掘效率。  相似文献   

10.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法.  相似文献   

11.
针对传统关联规则挖掘算法没有考虑空间数据的"空间自相关性"和空间关联规则挖掘的自身特点,提出了新的基于频度的空间关联规则挖掘算法,提高了空间关联规则挖掘的效率,并以广州市南沙地区的遥感图像分类结果为例进行关联规则挖掘实验,结果证明新的算法可行性.  相似文献   

12.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集.基于FP-tree的最大频繁项集挖掘算法要多次生成大量的FP-tree,并且需要对其多次遍历,消耗了大量的时间.针对以上缺点,提出一种基于FP-tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset,简称MMFI),它既减少创建FP-tree的数量,又节省遍历FP-tree的时间,实验证明本算法是有效的.  相似文献   

13.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率.  相似文献   

14.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率.  相似文献   

15.
针对复杂的水稻病害数据存储和高效检索问题,提出了基于知识图谱的关联特征挖掘模型.将水稻病害数据清洗后存储在Neo4j图数据库中,构建水稻病害知识图谱(Rice diseases knowledge graph,RDKG).在图挖掘算法中引入了Skip List跳跃表多维索引算法,从联系链路、社群划分、相似病害发现3个维...  相似文献   

16.
针对目前的质量评估的挖掘模型和算法不能保证得到决策表的最佳约简集,影响了后续挖掘的效率.利用粗糙集提出质量评估的粗挖掘模型,该模型的算法不仅能计算决策表的最佳约简集,而且能简化最佳约简集的生成,减少计算机的大量运算,有效地促进粗挖掘的实施.并以教学质量评估为例,验证了该算法的可行性、有效性.  相似文献   

17.
FP-Growth算法的效率约比Apriori快一个数量级,但存在FP-tree可能过大和串行处理等两大缺点,为此提出了基于局部FP-tree的并行关联规则挖掘算法P-FP-Growth。为实现基于云计算的并行关联规则挖掘,用MapReduce计算模型描述了P-FP-Growth算法,在Hadoop下进行了编程实现,得出了频繁模式挖掘结果,验证了该算法在云计算平台进行部署和执行的可行性。对比了算法分别在局域网多节点并行处理和在Hadoop平台执行的所需时间。  相似文献   

18.
关联分析是数据挖掘的本质体现,关联规则挖掘就是寻找给定的大量数据项集之间存在的某种规律的过程。Apriori算法是关联规则中最重要的一种挖掘频繁项集的算法,但是它也存在一定的不足。目的为了提高挖掘效率。方法采用实验的方法,在经典Apriori算法的基础上进行改进。结果证明改进的Apriori算法性能优于经典的Apriori算法,尤其是在交易事务条数比较多的情况下,效果更加明显。结论是改进的算法在计算支持度个数时,每次不需要扫描全部数据库,只需要在精简的数据库表中扫描各项所在的行就可以了,大大节省了时间;支持度计数的统计也比较容易,也不会产生过多的冗余,可以在很大程度上降低挖掘的复杂度,提高挖掘算法的效率。  相似文献   

19.
在复杂性理论中,复杂性分析主要是针对算法的效率进行分析.通常地,在复杂性分析中更多的是研究算法的渐近效率.近年来,拟度量在复杂性分析中的应用受到学者们的广泛研究,但是它也存在着一定的局限性,例如拟度量并不适合刻画算法渐近效率的高低.为了解决这个问题,本文引入了复杂性函数集上的模糊拟度量,并以此刻画了算法渐近效率的高低.同时,通过研究它的基本性质,建立了一个不动点定理,并应用该不动点定理研究了与分治算法相关的递归方程的解的存在性和唯一性,以及与快速排序算法相关的递归方程的解的存在性和唯一性.以上结果构建起了模糊拟度量和算法的渐近效率之间的联系,为模糊拟度量在算法应用方面的进一步研究提供了一种新的有效途径.  相似文献   

20.
一种新的关联规则抽样算法   总被引:1,自引:0,他引:1  
针对目前经典的关联规则挖掘Apriori算法需对数据库多次扫描费时多计算量大,而抽样扫描会造成挖掘精确度下降等问题,采用控制样本频繁项目集的方法,利用频繁1项集进行抽样处理,对关联规则挖掘的抽样操作和精度控制进行研究,提出了基于抽样操作的关联规则挖掘算法——HAC算法。理论分析及性能试验结果表明:HAC算法能够有效缩减数据库规模,至少少扫描数据库1次,提高了关联规则挖掘的效率,同时其计算精度不受影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号