期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

免费

1篇

专业分类

综合类

1篇

出版年

2021年

1篇

排序方式： 共有1条查询结果，搜索用时 0 毫秒

基于Hive的高寒草地海量数据高效分析系统设计研究

下载免费PDF全文

李亮丹晔沙谢夏胡月明谢健文周悟游小敏《农业资源与环境学报》2021,38(6):1152-1163

解决高寒草地的退化问题需要对高寒草地退化现状进行综合评价，而这需要相关数据作为支撑，本研究设计并实现了一个基于Hive的高寒草地海量数据高效分析系统，能对高寒草地的海量数据进行可靠、高效地存储分析。首先，平台设计基于Hadoop、Hive、Sqoop环境，通过节点和集群配置等步骤搭建完成；然后，通过期望最大化（EM）算法进行数据填充、数据导入、数据分区存储等步骤，完成数据抽取、转换、加载（ETL）及数据存储；最后，系统通过混合函数编码实现模糊查询功能，实验测试表明系统达到了预定的效果。随着文件大小的增加和总体数据规模的增大，系统整体存储和读取时间一直处于增长的状态，但平均运行时间（平均处理1 MB数据所使用的时间）处于降低的趋势，说明随着数据量的增加，系统并行处理海量数据的能力得到体现。使用2014年青海省称多县高寒草地样方监测数据和部分虚拟数据（总数据量约为3 958万条，7.56 GB），对Hive集群以及关系型数据库SQL Server的数据查询效率进行对比。结果显示，当查询数据量为3 958万条时，Hive集群数据查询的时间为SQL Server查询时间的67.8%。说明在数据量较大时，系统数据查询的效率比SQL Server更高。通过HiveQL对高寒草地生态数据进行分析处理，并开展相应的对照实验，对比发现，Hive数据分析技术与对照实验的处理结果相同。综上，将分布式数据仓库技术应用于高寒草地海量数据的存储与分析，较传统的数据存储与分析技术相比有明显的进步。本系统对海量数据处理效率高、可开发性强，可以很好地满足海量高寒草地数据的存储和分析要求。相似文献