首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对高校用户对图书的个性化需求,运用用户对图书的评分,构建了基于Hadoop和Mahout的图书推荐系统。通过Hadoop中分布式文件系统(HDFS)和Map/Reduce计算模型的应用,发现当Hadoop中节点数不断增加时,计算时间不断减少,实时响应效率得到了提高;通过对Mahout中传统的Item-Based聚类协同过滤推荐算法进行改进,利用MAE值对传统和改进后的协同过滤算法进行比较,发现图书推荐的精度进一步提高。总体来说,推荐系统改善了传统单机运行内存严重不足和推荐结果不精确的问题。  相似文献   

2.
在数据密集型计算环境中,数据的海量、高维、分布存储等特点,为数据挖掘算法的设计与实现带来了新的挑战。基于MapReduce模型提出网格技术与基于密度的方法相结合的离群点挖掘算法,该算法分为两步:Map阶段采用网格技术删除大量不可能成为离群点的正常数据,将代表点信息发送给主节点;Reduce阶段采用基于密度的聚类方法,通过改进其核心对象选取,可以挖掘任意形状的离群点。实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘。  相似文献   

3.
为农产品生产和经营者提供精准智能决策支持,采用Hadoop分布式架构,开发基于大数据的农产品精准智能辅助决策系统。该系统包括以分布式文件系统和HBase分布式数据库构成的数据存储层,以Map/Reduce并行计算模型作为基础,结合运用分类和回归树算法构建的数据处理层;系统能够对农业数据进行精准的数据分析和数据挖掘,可为农产品生产和经营者提供精准智能决策支持。  相似文献   

4.
针对如何高效地发现农业舆情话题,提出了一种基于叙词表的舆情话题发现算法。该算法首先基于《农业叙词表》和综合性词表及网络新词构建叙词词典,作为中文分词软件的词典;然后运用TF-IDF计算特征词的权值,选取前P个特征词表示文本,并基于叙词间的关系计算词语相似度;最后,以叙词为节点构建无向图,通过对无向图聚类实现网络热点话题的发现。分析结果表明,该算法的最小识别代价为0.3534,算法运行效率相比传统算法较高。  相似文献   

5.
为了方便读者能在海量的图书资源中快速有效的找到需要的书籍,利用Map Reduce框架分块处理,结合关联分析Apriori算法,将数据挖掘技术应用到图书管理系统中。但需要多次扫描数据库和产生大量候选集,对Hadoop平台处理速度带来了巨大挑战,因此,针对传统的Apriori算法,提出基于内存计算、弹性分布式数据集处理的Spark平台为读者推荐书籍,指引读者的借阅行为。  相似文献   

6.
本文对云计算背景下气象大数据的服务架构进行了介绍。Map Reduce处理技术能够高效完成分布型处理服务,也是用于气象大数据服务的运算架构。基于Map Reduce技术对气温与降水量的统计方法做了阐述,希望对气象行业工作者有所启发。  相似文献   

7.
目前现有业务过程模型研究的共同特点便是基于单机环境来构建业务过程库,并基于传统关系数据库来管理业务过程模型,完成相关的检索、存储等操作。为提高大规模业务过程模型检索与存储的效率,本文提出一种新的业务过程模型管理方法。该方法采用基于Hadoop大数据处理平台对业务过程模型进行管理,并采用Map/Reduce编程框架和HDFS文件系统分别对业务过程模型进行检索和存储,提高了业务过程模型存储效率,减少了模型检索匹配的时间。通过原型系统进行试验验证评估,证明了所提方法在存储和检索效率方面高于单机环境。  相似文献   

8.
针对微博、论坛等社会网络媒体产生的大量涉农信息,以及舆论监测所带来的挑战,提出建立云环境下农业网络舆情监测系统。重点描述了舆情监测的模型,包括舆情信息采集、舆情分析和舆情服务三个方面。该系统能够对大规模数据采集数据进行挖掘、分析,实现对舆情敏感话题识别、热点话题发现与追踪,并且分析结果可视化展示。为农业相关部门和决策者及时发现热点信息、敏感信息、舆情趋势分析提供科学依据,在农业应用领域具有重要意义。  相似文献   

9.
微博作为一种近年出现的新型网络媒体形式,已经成为网络舆论的强磁场。通过微博自身的特点,分析其对网络舆情的价值,然后设计基于微博的网络舆情分析系统,包括文本预处理、微博文本的向量表示与提取、话题发现以及微博的传播态势和倾向性分析等过程,微博特征提取采用了TF-IDF模型,话题发现采用MBT形式化表述,最后展望该系统的前景。  相似文献   

10.
在匿名隐私保护系统中增量式匿名化隐私保护数据具有容量大和分散性强的特点,导致挖掘的聚类性不好。提出一种基于互信熵特征提取的增量式匿名化隐私保护数据的挖掘算法,在云计算平台下分析增量式匿名化隐私保护数据的存储结构模型,结合闭频繁项集特征重组方法进行增量式匿名化隐私保护数据的离散化特征重构,在重构的Hadoop云计算平台中进行增量式匿名化隐私保护数据的关联特征提取,采用增量式支持向量机算法对提取的数据特征进行分类识别,根据分类结果实现增量式匿名化的隐私保护数据挖掘。仿真结果表明,采用该方法进行匿名化的隐私保护数据挖掘的准确性较高,特征提取精度较好,收敛性较强。  相似文献   

11.
目的社交网络是DTNs网络的一种,该网络是一种特殊的无线自组织网络,缺乏端到端的持续连接,具有较高的丢包率和传输延迟。研究目的是克服上述缺点,实现数据的高效转发。方法针对社交网络中节点与社区以及节点与目的节点的关系进行研究分析,提出一种基于节点影响力和累积效应的数据转发算法:DFNS算法。结合C++软件进行实验模拟,与DTNs网络中的Epidemic算法和Label算法进行对比分析。结果随着网络中发包数目的增加,DFNS算法的传递率略低于Epidemic算法,高于Label算法,其平均延迟却高于其他2种算法。拷贝数目方面,DFNS算法比Epidemic算法最高减少44.38%,相比于Label算法最高减少39.47%。随着网络中数据包的存在时间的改变,3种算法的传递率先迅速增长,之后基本不发生改变,且3种算法平均延迟的变化趋势基本相同。在拷贝数目方面,DFNS算法比Epidemic算法平均少了45.16%,比Label算法平均少了40.25%。结论 DFNS算法在传递率方面优于Label算法,略低于Epidemic算法,相比其它2种算法能明显降低网络中数据包的拷贝数目,减少资源的能量消耗。在提高网络性能,降低网络成本方面优于其它两种算法。  相似文献   

12.
[目的/意义]从海量微博舆情用户评论文本中快速挖掘用户关注内容,能够帮助舆情管控主体更高效得对微博舆情演进和发展态势进行管理。[方法/过程]本文以新浪微博为例,基于主题图谱理论和文本挖掘方法构建微博舆情用户评论主题图谱,使用CiteSpace进行可视化分析,通过应用不同文本相似度算法、网络优化算法和文本聚类算法构建二维主题图谱并分析图谱的结构特征。[结果/结论]构建的微博舆情主题图谱能够帮助舆情管理者快速准确识别用户关注内容,同时对社交媒体上用户发布文本管理,预测舆情演化趋势,防止不良舆情滋生和扩散都具有重要作用。  相似文献   

13.
FP-Growth算法的效率约比Apriori快一个数量级,但存在FP-tree可能过大和串行处理等两大缺点,为此提出了基于局部FP-tree的并行关联规则挖掘算法P-FP-Growth。为实现基于云计算的并行关联规则挖掘,用MapReduce计算模型描述了P-FP-Growth算法,在Hadoop下进行了编程实现,得出了频繁模式挖掘结果,验证了该算法在云计算平台进行部署和执行的可行性。对比了算法分别在局域网多节点并行处理和在Hadoop平台执行的所需时间。  相似文献   

14.
微博是一个基于关系的信息分享、传播以及获取的平台。随着微博应用日益快速发展,如何从海量的微博数据信息中自动提取出用户感兴趣的热点话题,成为该研究领域内一个富有挑战性的课题,当前的许多研究基于扩展的话题模型提出了中文微博话题抽取算法。先对以Twitter为代表的微博研究现状进行综述,然后概述了中文微博的研究现状。针对中文微博的特点,总结出当前研究方法的局限性,并指出当前微博研究中存在的问题,对下一步微博信息挖掘及其相关技术进行了展望。  相似文献   

15.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率.  相似文献   

16.
在关联规则挖掘研究中,为了在产生候选频繁项时减少算法存在的重复计算和冗余候选项,为了在计算支持数时减少扫描事务数据库的次数,提出了一种基于序列数的关联规则挖掘算法,其关联规则适合挖掘任何长度.该算法用事务属性的布尔约简法,将传统事务数据转换成二进制数,然后用数字的递增和递减两种方式双向搜索候选频繁项;算法通过序列数的度来计算支持数,实现一次扫描数据库,有效地提高了算法的效率.  相似文献   

17.
[目的]针对广佛手在田间真实环境下病虫害识别较为困难的问题,提出一种基于改进SSD(single shot MultiBox detector)算法——SSD-Res50-3C的广佛手病虫害检测方法。[方法]SSD-Res50-3C算法主干网络部分用ResNet50网络替换原有的VGG16网络,增加模型在田间真实环境下对广佛手病虫害特征的提取能力;在预测特征层之前加入一种轻量高效的特征融合模块提升SSD算法的多尺度特征融合能力,进一步提高SSD算法在田间真实环境下的抗干扰能力。[结果]SSD-Res50-3C算法平均精度均值达到92.86%,相较原始的SSD算法提升6.61%,FPS(frames per second)达到64.1。相比YOLO v3、YOLO v4、YOLO v5x6、Faster R-CNN和EfficientDet-D3模型,SSD-Res50-3C算法的平均精度均值分别高6.41%、2.01%、0.79%、0.58%和5.10%,FPS分别高16.20、40.280、24.40、36.20和54.84。[结论]基于改进SSD算法的广佛手病虫害检测方法能够弱化田...  相似文献   

18.
基于大规模生物分子网络的信息挖掘是近年来生物信息学研究领域的一个重要研究课题,频率子图在生物分子网络中代表具有特定功能的稳定结构,基于频率子图的挖掘是生物信息学的一个重要研究方向,对分子网络中的频率子图挖掘算法进行研究,主要对三种经典频率子图挖掘算法(AGM、FSG、gSpan)进行详细的研究和比较,并对生物分子网络中频率子图挖掘存在的问题及解决这些问题的方法进行研究,其目的是为研究更高效的频率子图挖掘算法提供参考和借鉴.  相似文献   

19.
[目的]小麦麦穗表型获取涉及麦穗到籽粒不同几何尺度的参数精确测量,本文针对麦穗籽粒图像分割粘连现象,研究达到像素级别的精准分割算法,并基于该方法给出籽粒的基本几何参数。[方法]田间随机采集小麦麦穗,对采集的麦穗标本获取表型信息并采集图像,进行数据增广和标注,构建1个包括深度残差网络(deep residual network,Res Net)、区域建议网络(region proposal networks,RPN)和全卷积网络(fully convolutional networks,FCN)的实例分割算法Mask R-CNN,对训练集图片进行迭代训练获得模型。[结果]测试集测量结果表明,在测试麦粒上获得的籽粒像素测量平均精度(averageprecision,AP)值为0.85,F_1(F_1-measure)值为0. 830,对麦穗长度测量穗长的平均绝对误差为3. 30 mm,平均相对误差为3.40%,宽度测量的平均绝对误差为0.72 mm,平均相对误差为4.10%,综合测量误差为3.75%,试验结果显著优于最大类间方差法(OTSU)以及全卷积网络。通过对特征提取网络层数的修改在处理速度上达到4.26 FPS(frames per second),对比FCN处理速度提升了8.5倍。[结论]利用Mask R-CNN分割方法得到1个对整株麦穗和单个籽粒进行目标定位、目标检测和实例分割为一体的端到端、像素级的分割模型,可以对麦穗及部分籽粒进行精确的几何表型测量。  相似文献   

20.
针对目前对于网络入侵检测准确率不高的问题,本文提出一种基于深度置信网络(Deep Belief Networks,DBN)和SOFTMAX的入侵检测模型。该模型可以自动地对网络信息进行拦截、处理并进行入侵检测。为了验证该模型的有效性,本文将KDD CUP 99-10%和KDD CUP 99-Correct数据集作为实验对象,总正确率分别达到了99.67%和99.42%。通过对比实验,将DBN和BP神经网络,TANN等算法进行对比,实验结果证明DBN-SOFTMAX相较于其他算法具有更高的检测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号