首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 562 毫秒
1.
随着农业新闻数据日益膨胀,以农业为主题的增量爬虫成为爬取农业信息的重要手段。增量爬虫可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除已经爬取的重复内容。本文结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。试验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆的同时能有效提高增量爬取农业信息的效率,在增量信息爬取过程中具有很好的应用价值。  相似文献   

2.
随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林产品贸易Web信息的基于优先级增量爬取方法,网页更新的优先级伴随着抓取而动态改变。最后通过实验证明随着抓取信息的增加该方法在保证网页质量的同时能有效的降低系统的资源使用,在海量信息爬取的过程中具有很好的应用价值。  相似文献   

3.
本文设计并实现了一个食品安全新闻的爬虫。为了提高爬虫爬取食品安全新闻数据的准确率,建立了本体模型,并用向量空间模型去除主题相关度小的新闻。结果表明该食品安全爬虫爬取有关食品安全新闻的准确率较高,达到了预期要求。  相似文献   

4.
近年来发生的多起运用网络爬虫技术恶意爬取网络数据的案件,这些案件涉及公民个人信息保护、网络数据权属界定等诸多法律问题,引发了网络从业人员和法律人士的广泛关注。善意爬虫会促进网络数据的有效流通和运用,进而促进互联网产业的健康快速发展。恶意爬虫则会影响被爬取方网站的正常运行,攫取被爬取网站的重要数据,甚至构成刑事犯罪。网络从业人员必须遵守相关法律规定、按照机器人协议的要求合法合理地进行公开数据爬取,防范爬虫行为可能带来的法律风险。  相似文献   

5.
该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。  相似文献   

6.
随着信息技术的发展,农业信息化成为现代农业发展的必然需求。针对目前农业信息化服务信息整合度低、实时性信息不够等问题,提出了基于聚焦爬虫的农业信息服务平台。聚焦爬虫按照既定需求,实时提取各类相关网页信息,通过信息服务平台进行整合,以友好的方式展示给用户。平台的建设使得用户能够在庞杂的信息中获取全面、适用和及时的农业信息,提高了农业信息服务水平。  相似文献   

7.
汪斌  张云伟  刘健  陈晶 《安徽农业科学》2009,37(20):9699-9700
针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。  相似文献   

8.
应用网络爬虫技术、Bomb后端云和移动应用开发技术设计了一套移动农业信息服务系统。从农业数据获取、农业数据存储和农业数据显示3个方面分析了移动农业信息服务系统中数据传输处理的过程,得到了通过网络爬虫技术获取农业数据,借助Bmob移动云平台存储农业数据和通过移动终端将农业数据可视化具有一定优势的结论。  相似文献   

9.
随着我国科学技术水平的提升,网络的发展速度逐渐的变快,在这一时代发展背景下,不管是网页的预处理数量,还是网页的搜索引擎品质都产生了很大的变化,其水平有着极为显著化的提高。在设计搜索引擎时期,设计人员需要对网页的便利性进行分析,进一步的去优化网络爬虫。本文主要就网络爬虫的特征进行探究,制定出较为完善且合理的网站优化措施,使得数据信息的预处理工作可以进展的更为顺畅。为了更为深入的探究面向网络爬虫的网站优化措施,本文以我国,某一农业企业网站优化为例,对企业网站的更新频率以及网站链接等要素进行综合性的探究,进一步的优化设计方案的内容。  相似文献   

10.
森林资源档案管理系统主要对森林资源的档案信息进行管理,是林业信息管理中的重要内容。森林资源档案数据具有易变性和时效性,森林资源档案数据的及时更新将有助干林业主管部门对森林资源状况的掌握。本文综合了时空数据模型中基态修正模型、生命周期模型和面向对象模型的特点,建立了增量存储数据更新模型,提出了增量存储数据更新方法,并以甘肃省小陇山林业局党川林场的部分数据为基础,利用增量存储数据更新方法,对数据更新实现过程进行了探讨。  相似文献   

11.
朱学芳  冯曦曦 《安徽农业科学》2011,39(35):22183-22186
以农业网站作为抓取对象,在其特点分析基础上,基于J2EE设计并实现了面向农业主题搜索引擎,主要实现了网页信息抓取、处理、检索模块,完成农业信息网站内容的有效抓取,并实现数据输入、处理和输出的分离。在实现快速、分类、高级搜索等功能时,给出网页评分和信息分类,较好地表示搜索结果。系统的快速精确检索、开发周期短、维护成本低等性能特点不仅对农业信息主题检索有帮助,对其他领域信息检索以及对信息检索技术本身的应用研究也具有较好的参考价值。  相似文献   

12.
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。  相似文献   

13.
魏晓华  王振智  李源  屠星月 《安徽农业科学》2014,(30):10801-10803,10807
随着农业信息化的迅速发展,我国不断兴起各类农业产业专业信息平台和产品,从而为农业从业人员提供了海量的农业资讯、政策新闻、种养殖管理技术及市场行情等农业信息,然而由于目前各类农业产业专业信息平台和产品存在风格各异、内容参差不齐等问题,难以对此类信息进行整合和共享,造成了资源浪费.因此通过研究分析现有信息共享模式,提出了基于中间库和WebService农业信息共享模式,并以农业供求信息类平台为例进行了设计与实现,为我国农业信息共享提供了参考.  相似文献   

14.
Data-delivery of agricultural information is a very tedious work, traditional data-delivery patterns and methods can not meet the requirements of the practical work. This paper provided the design idea and implement method for data-delivery system of agricultural information based on Web. Report and data will be separated in this system, and the person can change template and data at any time on demand. The problem that report template and data fixed together would be solved. The agricultural information resources sharing would be also implemented.  相似文献   

15.
Imaging spectroscopy is widely used in weed recognition, pest monitoring, agricultural product quality control and other precision agricultural fields. In the present study, an in-house-designed/developed field imaging spectroscopy system (FISS, 380–870 nm) was used to obtain the imaging spectra of soybean leaves at 344 wavelengths. The spatial and spectral information including the entropy, mean reflectivity and standard deviation of the leaf images at different wavelengths were extracted; the chlorophyll content was retrieved using multiple linear regression (MLR) together with the spatial information and spectral information, and the results were compared with the results derived with the Analytical Spectral Devices (ASD, FieldSpecFR spectrometer, Analytical Spectral Devices Inc., USA) data that were generated using conventional single sensor spectrometers. The results demonstrated that the entropy, standard deviation and other features of the image were very good indicators of the leaf chlorophyll content, confirming the idea that spatial information can be used to retrieve chlorophyll content, with an accuracy equivalent to that of spectral information, and can provide information that spectral reflectivity cannot provide. Thus, integrating spatial information and spectral information can greatly improve the chlorophyll content retrieval accuracy and reduce the estimation errors by 20 %. Due to the unique measurement method and image-spectrum-in-one feature, the field imaging spectroscopy system (FISS) data can be conveniently used to achieve accurate chlorophyll content retrieval, and the retrieval error was reduced by 30–45 % compared with that for the ASD data. FISS data and the proposed method of integrating both spectral and spatial information of imaging spectroscopy have potential advantages in quantitative spectral analysis applied in agricultural biochemistry related fields.  相似文献   

16.
阐述了云计算的概念、相关技术及云服务的相关内容,详细论述了云计算环境下农业信息服务的模式,简单介绍云计算与农业信息服务结合的一个实践探索—农科云,并对云计算环境下农业信息服务进行了展望。  相似文献   

17.
在对Web信息采集技术做了深入研究的基础上,提出了一个基于Agent的用户个性化信息采集与处理系统.对该系统的体系结构、工作原理以及功能部件进行了详尽的介绍,重点分析了个性化信息采集模型.从初步试验得出的结果来看,该系统具有很好的采集处理效果.  相似文献   

18.
新形势下基层农业信息服务的探讨   总被引:7,自引:0,他引:7  
本文对基层农业信息服务的内容及信息服务系统的构成与实现途径作了讨论,并针对当前存在的认识误区,提出加速农业信息服务建设的若干措施,指出应该从实际出发,在不同地区,不同阶段选择合适的技术手段,积极、有效地开展农业信息服务工作。  相似文献   

19.
网络农业新闻信息源浅探   总被引:3,自引:1,他引:2  
从信息学基本原理出发,结合新闻传播学的有关知识,探讨了网络农业新闻信息源的类型、特点以夏如何利用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号