首页 | 本学科首页   官方微博 | 高级检索  
     检索      

森林生态站大数据快速存储与索引方法
引用本文:王新阳,贾相宇,陈志泊,崔晓晖,许福.森林生态站大数据快速存储与索引方法[J].农业机械学报,2021,52(8):195-204,212.
作者姓名:王新阳  贾相宇  陈志泊  崔晓晖  许福
作者单位:北京林业大学
基金项目:中央高校基本科研业务费专项资金项目(BLX201923)和国家自然科学基金项目(32071775)
摘    要:针对森林生态站中大量图像、视频、GIS数据等非结构化数据以及生态指标等结构化数据存储效率低、检索性能差的问题,提出了基于Hadoop和HBase的森林生态站大数据存储框架。基于所提出的框架,给出了森林生态数据存储业务流程,并对森林生态大数据平台涉及的核心技术进行了优化:①设计预分区算法保证数据在集群中均匀分布。②根据生态数据特点科学设计了RowKey,实现生态数据的快速检索。③针对原生HBase不支持多条件查询问题,设计基于索引数据和服务器性能评估的ElasticSearch索引分片放置策略,以此基于ElasticSearch的二级非主键索引技术优化多条件检索HBase生态数据库。④针对生态站海量小图像存储困难问题,提出基于数据站点及时间关联性的打包合并策略。⑤解析GIS数据使之进行高效存储。通过实验对以上理论进行验证。结果表明,ElasticSearch索引分片放置策略比默认分片策略的查询时间平均减少20 ms,比基于改变ElasticSearch评分策略的查询时间平均减少20 ms。结构化数据规模为1×108条时,系统的检索时间为1.045 s,比原生HBase检索速度提升3.99倍,在非结构化数据为1×107条时,采用数据站点及时间关联性的打包小图像策略是基于SequenceFile合并效率的1.15倍,是原生HBase的1.79倍;在1×104次并发用户的情况下,优化后的每秒查询数是原来的1.88倍,每秒吞吐量是优化前的1.74倍,系统响应时间比优化前降低69.5%。结果表明,本文所提出的方案在集群负载均衡、海量结构化和非结构化数据检索效率以及系统吞吐量等方面都有了明显的性能提升,为森林生态数据的存储和管理提供了必要的理论基础和技术实现。

关 键 词:森林生态  大数据  快速存储  数据索引  分布式平台
收稿时间:2021/2/8 0:00:00

Fast Storage and Indexing Method of Big Data in Forest Ecological Station
WANG Xinyang,JIA Xiangyu,CHEN Zhibo,CUI Xiaohui,XU Fu.Fast Storage and Indexing Method of Big Data in Forest Ecological Station[J].Transactions of the Chinese Society of Agricultural Machinery,2021,52(8):195-204,212.
Authors:WANG Xinyang  JIA Xiangyu  CHEN Zhibo  CUI Xiaohui  XU Fu
Institution:Beijing Forestry University
Abstract:
Keywords:forest ecological  big data  fast storage  data index  distributed platform
点击此处可从《农业机械学报》浏览原始摘要信息
点击此处可从《农业机械学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号