共查询到16条相似文献,搜索用时 125 毫秒
1.
关联规则中的Apriori挖掘算法改进 总被引:3,自引:0,他引:3
关联规则挖掘是数据挖掘研究的一项重要内容。然而基于候选集的Apriori算法效率低下。针对此缺陷,提出了一种NApriori算法,该算法利用频繁1项集重新组织事务数据库来挖掘关联规则。此方法仅需扫描数据库2次,且避免了Apriori算法繁琐的连接和删除步骤,从而提高了挖掘效率。 相似文献
2.
由于大数据具有多样性的特点,在数据挖掘过程中采用单一最小支持度会出现较多冗余规则,造成挖掘效率不高等问题,该文提出一种基于多最小支持度关联规则改进算法.通过给每一项目设置单独的支持度阈值,构建多最小支持度模式树,利用最小频繁项目作为节点筛选标准,进行冗余节点删除;在挖掘频繁项集的过程中利用排序向下闭合的性质,删除冗余的候选项集,同时能够自动停止向下挖掘,从而快速直接地得到所有频繁项集,并且不需要多次扫描数据库.实验结果表明,改进算法能够提高挖掘效率,节省计算时间. 相似文献
3.
频繁项集挖掘是关联规则挖掘的核心部分,目前大多数关于关联规则挖掘的研究都集中于如何提高频繁项集挖掘的效率,然而在实际应用中,决策者面对的是最终从频繁项集中生成的规则集,因此优化规则的生成过程及生成规则同样值得重视。本文提出频繁项集的子集树这一模式来生成关联规则,不仅简化规则的生成过程还可缩小决策者面对的规则集,更便于规则的增量更新。 相似文献
4.
一种新的关联规则抽样算法 总被引:1,自引:0,他引:1
针对目前经典的关联规则挖掘Apriori算法需对数据库多次扫描费时多计算量大,而抽样扫描会造成挖掘精确度下降等问题,采用控制样本频繁项目集的方法,利用频繁1项集进行抽样处理,对关联规则挖掘的抽样操作和精度控制进行研究,提出了基于抽样操作的关联规则挖掘算法——HAC算法。理论分析及性能试验结果表明:HAC算法能够有效缩减数据库规模,至少少扫描数据库1次,提高了关联规则挖掘的效率,同时其计算精度不受影响。 相似文献
5.
6.
7.
针对目前上下文规则生成方法通常是依靠人工定义的,提出一种修正的ID3算法用于虚拟环境上下文规则的自动生成.该算法先构建上下文决策树,然后再将此树自动转换成规则集.实验结果验证该算法在生成规则的有效性与计算效率上具有良好性能. 相似文献
8.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集.基于FP-tree的最大频繁项集挖掘算法要多次生成大量的FP-tree,并且需要对其多次遍历,消耗了大量的时间.针对以上缺点,提出一种基于FP-tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset,简称MMFI),它既减少创建FP-tree的数量,又节省遍历FP-tree的时间,实验证明本算法是有效的. 相似文献
9.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率. 相似文献
10.
11.
随着数据库规模的增加或支持度阈值的减少,频繁模式的数量将以指数形式增长,FP-growth算法运行的时空效率将大为降低.本文提出一种基于格的快速频繁项集挖掘算法LFP-growth,算法利用等价关系将原来的搜索空间(格)划分成若干个较小的子空间(子格),通过子格间的迭代分解,将对网格P(I)的频繁项集挖掘转化为对多个子格的并集进行的约束频繁项集挖掘.实验结果和理论分析表明,在挖掘大型数据库时,LFP-growth算法的时间和空间性能均优于FP-growth算法. 相似文献
12.
一个不需要产生候选集频繁集挖掘算法的研究 总被引:2,自引:0,他引:2
FP-growth算法是一个频繁集产生算法,与一般的类似于Apriori的频繁集产生算法相比。FP-growth的优点在于它不需要产生大量的候选集,因而在时间和空间上都有很好的效率。从不同角度对FP-growth算法进行了详细的研究,并与经典算法Apriori在性能上作了分析对比。 相似文献
13.
针对采用频繁模式树构造的最长频繁闭项集的聚类算法,提出该算法在一些特殊环境下可能产生的误差,因而建议在一些应用情况下,不宜采用该算法进行数据挖掘中的数据分类. 相似文献
14.
针对现阶段对已出现森林虫害数据未能完成全面、及时地统计,以及难以准确预测森林虫害爆发的潜在外来诱因的问题,提出使用面向Web挖掘的主题网络爬虫搜集病虫害相关数据,并利用大数据挖掘频繁模式与关联规则的Apriori算法,挖掘结果得到满足最小支持度阈值的频繁2项集,并进一步从中筛选2种重要的特征子集,包括害虫与寄主之间的频繁模式,寄主与外来树种之间的频繁模式。解决了已出现的病虫害数据难以统计的难题;同时预测出针对某一地区害虫可能诱发森林虫害的外来树种。结果表明该方法能达到可靠、有效的森林虫害预测目的。 相似文献
15.
为了识别用户浏览模式,实现利用关联规则挖掘算法Apriori对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行挖掘的模块,该模块针对用户选定的若干页面产生满足最小支持度和最小置信度的页面之间的强关联规则。关联规则挖掘结果对网站管理员重新调整网站结构、通过预测用户浏览模式提供推送服务来提高用户的访问效率和网站资源的利用率有一定的指导作用。 相似文献