首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  免费   1篇
综合类   1篇
  2021年   1篇
排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
解决高寒草地的退化问题需要对高寒草地退化现状进行综合评价,而这需要相关数据作为支撑,本研究设计并实现了一个基于Hive的高寒草地海量数据高效分析系统,能对高寒草地的海量数据进行可靠、高效地存储分析。首先,平台设计基于Hadoop、Hive、Sqoop环境,通过节点和集群配置等步骤搭建完成;然后,通过期望最大化(EM)算法进行数据填充、数据导入、数据分区存储等步骤,完成数据抽取、转换、加载(ETL)及数据存储;最后,系统通过混合函数编码实现模糊查询功能,实验测试表明系统达到了预定的效果。随着文件大小的增加和总体数据规模的增大,系统整体存储和读取时间一直处于增长的状态,但平均运行时间(平均处理1 MB数据所使用的时间)处于降低的趋势,说明随着数据量的增加,系统并行处理海量数据的能力得到体现。使用2014年青海省称多县高寒草地样方监测数据和部分虚拟数据(总数据量约为3 958万条,7.56 GB),对Hive集群以及关系型数据库SQL Server的数据查询效率进行对比。结果显示,当查询数据量为3 958万条时,Hive集群数据查询的时间为SQL Server查询时间的67.8%。说明在数据量较大时,系统数据查询的效率比SQL Server更高。通过HiveQL对高寒草地生态数据进行分析处理,并开展相应的对照实验,对比发现,Hive数据分析技术与对照实验的处理结果相同。综上,将分布式数据仓库技术应用于高寒草地海量数据的存储与分析,较传统的数据存储与分析技术相比有明显的进步。本系统对海量数据处理效率高、可开发性强,可以很好地满足海量高寒草地数据的存储和分析要求。  相似文献   
1
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号