排序方式: 共有33条查询结果,搜索用时 93 毫秒
1.
网络爬虫主要受到网络延迟和本地运行效率的限制,传统的基于多线程的网络爬虫架构主要为了消除网络延迟而没有考虑到本地运行效率。在高并发的条件下,多线程架构爬虫由于上下文切换开销增大而导致本地运行效率降低,同时使得网络利用率下降,如何能够在最大化利用网络资源的情况下减小系统本地开销是一个需要研究的问题。针对以上问题,本文提出基于协程的分布式网络爬虫框架来解决,从开销、资源利用率、网络利用率上对协程框架和多线程框架进行了分析,并基于协程实现了一个分布式网络爬虫。实验表明该框架无论从开销、资源利用率和网络利用率上相对于多线程框架有比较明显的优势。 相似文献
2.
4.
5.
果汁鉴伪技术正成为全球食品营养安全领域的研究热点,其发展对果汁质量与安全控制至关重要.结合机器学习联合网络爬虫算法检索文献技术,本文综述了近年来果汁鉴伪技术的研究进展与应用领域,并着重阐述了非靶向/靶向代谢组学鉴伪技术的研究进展.结合多学科交叉和计算机技术发展趋势,对检测方法耦合发展、监督型机器学习统计工具开发、无人监... 相似文献
6.
近年来发生的多起运用网络爬虫技术恶意爬取网络数据的案件,这些案件涉及公民个人信息保护、网络数据权属界定等诸多法律问题,引发了网络从业人员和法律人士的广泛关注。善意爬虫会促进网络数据的有效流通和运用,进而促进互联网产业的健康快速发展。恶意爬虫则会影响被爬取方网站的正常运行,攫取被爬取网站的重要数据,甚至构成刑事犯罪。网络从业人员必须遵守相关法律规定、按照机器人协议的要求合法合理地进行公开数据爬取,防范爬虫行为可能带来的法律风险。 相似文献
7.
随着农业新闻数据日益膨胀,保证以农业为主题的增量爬虫成为爬取农业信息的相关手段,增量爬虫的原理可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除出已经爬取的重复内容[[]]。文章结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。通过实验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆同时能有效提高增量爬取农业信息的效率,在增量信息爬取的过程中具有很好的应用价值[[]]。 相似文献
8.
针对农户对现代农业信息的网络化需求,以及为更好地指导农户进行生产,提出一种基于移动终端的农业信息服务平台。通过对系统需求方面的分析,设计了系统整体架构平台及移动互联终端功能模块,并引入聚焦爬虫算法和基于时间序列与ARMA的价格预测算法,对农业信息进行抓取、对农产品进行预测。该平台可以发布相关的农产品信息,并让广大农户了解不同产品种植技术,加快了农业信息化最后一公里建设。 相似文献
9.
湖北省历年由洪涝灾害造成农作物受损严重,对湖北省进行洪涝风险评估十分必要。本文提出了一种定量化风险评估的模型建立方法,通过多源数据(气象、社会经济、地理特征等数据)提取到15个指标,采取主成分分析法确定各因子对于洪涝灾害的影响权重,建立风险评估模型,并运用地理信息系统(GIS)分析技术得出洪涝灾害风险区划图。在现有评估指标体系的基础上,通过网络爬虫方式获取更能反映防减灾能力的灾害应急指标;采用主成分分析方法降低模型建立中的主观因素。结果表明:(1)通过模型得到降雨与地势为湖北省洪灾发生的最主要因素;(2)湖北省中东部地区多为高风险区,其中东部武汉、黄石等长江干流途经地区处于重风险区;西南部多为中风险区,西北部在全省为低风险区。综上,该模型可为湖北省开展综合减灾、调整区域可持续发展结构、进行准确农情监测提供科学支撑和决策依据,具有重要的科学和实践意义。 相似文献
10.