首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 247 毫秒
1.
随着农业新闻数据日益膨胀,保证以农业为主题的增量爬虫成为爬取农业信息的相关手段,增量爬虫的原理可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除出已经爬取的重复内容[[]]。文章结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。通过实验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆同时能有效提高增量爬取农业信息的效率,在增量信息爬取的过程中具有很好的应用价值[[]]。  相似文献   

2.
随着互联网信息的快速增长和大数据掀起的热潮,如何保证主题数量的增量爬取再次成为获取信息的必要手段,增量爬虫能够以较少的资源实现信息的快速更新,从而提高信息检索的准确率。文章结合林产品贸易Web信息的特点,提出了一种适用于林产品贸易Web信息的基于优先级增量爬取方法,网页更新的优先级伴随着抓取而动态改变。最后通过实验证明随着抓取信息的增加该方法在保证网页质量的同时能有效的降低系统的资源使用,在海量信息爬取的过程中具有很好的应用价值。  相似文献   

3.
本文设计并实现了一个食品安全新闻的爬虫。为了提高爬虫爬取食品安全新闻数据的准确率,建立了本体模型,并用向量空间模型去除主题相关度小的新闻。结果表明该食品安全爬虫爬取有关食品安全新闻的准确率较高,达到了预期要求。  相似文献   

4.
近年来发生的多起运用网络爬虫技术恶意爬取网络数据的案件,这些案件涉及公民个人信息保护、网络数据权属界定等诸多法律问题,引发了网络从业人员和法律人士的广泛关注。善意爬虫会促进网络数据的有效流通和运用,进而促进互联网产业的健康快速发展。恶意爬虫则会影响被爬取方网站的正常运行,攫取被爬取网站的重要数据,甚至构成刑事犯罪。网络从业人员必须遵守相关法律规定、按照机器人协议的要求合法合理地进行公开数据爬取,防范爬虫行为可能带来的法律风险。  相似文献   

5.
该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。  相似文献   

6.
随着信息技术的发展,农业信息化成为现代农业发展的必然需求。针对目前农业信息化服务信息整合度低、实时性信息不够等问题,提出了基于聚焦爬虫的农业信息服务平台。聚焦爬虫按照既定需求,实时提取各类相关网页信息,通过信息服务平台进行整合,以友好的方式展示给用户。平台的建设使得用户能够在庞杂的信息中获取全面、适用和及时的农业信息,提高了农业信息服务水平。  相似文献   

7.
汪斌  张云伟  刘健  陈晶 《安徽农业科学》2009,37(20):9699-9700
针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。  相似文献   

8.
随着我国科学技术水平的提升,网络的发展速度逐渐的变快,在这一时代发展背景下,不管是网页的预处理数量,还是网页的搜索引擎品质都产生了很大的变化,其水平有着极为显著化的提高。在设计搜索引擎时期,设计人员需要对网页的便利性进行分析,进一步的去优化网络爬虫。本文主要就网络爬虫的特征进行探究,制定出较为完善且合理的网站优化措施,使得数据信息的预处理工作可以进展的更为顺畅。为了更为深入的探究面向网络爬虫的网站优化措施,本文以我国,某一农业企业网站优化为例,对企业网站的更新频率以及网站链接等要素进行综合性的探究,进一步的优化设计方案的内容。  相似文献   

9.
应用网络爬虫技术、Bomb后端云和移动应用开发技术设计了一套移动农业信息服务系统。从农业数据获取、农业数据存储和农业数据显示3个方面分析了移动农业信息服务系统中数据传输处理的过程,得到了通过网络爬虫技术获取农业数据,借助Bmob移动云平台存储农业数据和通过移动终端将农业数据可视化具有一定优势的结论。  相似文献   

10.
森林资源档案管理系统主要对森林资源的档案信息进行管理,是林业信息管理中的重要内容。森林资源档案数据具有易变性和时效性,森林资源档案数据的及时更新将有助干林业主管部门对森林资源状况的掌握。本文综合了时空数据模型中基态修正模型、生命周期模型和面向对象模型的特点,建立了增量存储数据更新模型,提出了增量存储数据更新方法,并以甘肃省小陇山林业局党川林场的部分数据为基础,利用增量存储数据更新方法,对数据更新实现过程进行了探讨。  相似文献   

11.
基于微博内容对用户进行分类,为建设健康绿色的社交平台提供技术参考。改进支撑向量基算法(SVM)实现多分类支持向量基模型,基于微博内容将用户分为4类,利用新浪微博API使用网络爬虫获取微博内容数据;然后对文本进行分词降维和特征词权重计算;最后设计一个微博内容实时爬取和识别系统,实现了基于支撑向量基算法的水军实时检测。研究结果表明,提出的方法能够成功识别出正常用户和3类水军。  相似文献   

12.
存在的问题 1农业信息来源单一,网站服务功能弱 虽然已经建成一些农业网站,但总体来看网站内容缺乏行业特色或本地特色,内容更新主要集中在"农业新闻",并且大部分为转载,内容重复率高.农民关注的"农业技术"、"农业新品种新技术"、"农业市场供求"等方面的信息更新较慢.  相似文献   

13.
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。  相似文献   

14.
为动态监测农业网络空间信息,需采用农业网络空间信息动态监测算法,设计农业网络空间信息动态监测系统。借助系统中信息采集层,从网络中各种信息源和Scrapy网络爬虫,采集所需农业网络空间信息。信息采集层通过构建的基于Scrapy框架建立对网页的请求响应,分析网页布局后循环抓取所需农业网络空间信息。采用正则表达式将抓取的农业网络空间信息剔除为格式化数据,将采集到的数据存储到农业网络空间信息处理模块数据库中。农业网络信息处理模块通过合理方法净化信息所在网页,将从数据库中提取的内容传输到农业网络空间信息分析模块中。分析模块通过文本聚类、特征选取等技术,发掘网络中农业空间信息,形成话题列表并设置关键字信息,建立相关领域的农业网络空间信息词库。采用WM算法处理同音字、拆分字和干扰符号,实现对所需农业网络空间信息的精准匹配,达到动态监测农业网络空间信息的目的。经过实验分析发现,随着年份的增加,全国地区农业种植作物产量也在小幅度增加,且本文算法动态监测效果和实际地区农业作物产量变化情况相符程度较高。随着广州市城市化进程不断加剧,2009年到2014年广州市斑块密度和形状指数不断增加,2015年以后广州市植被覆盖率逐渐提升,与实际变化情况相符程度较高。  相似文献   

15.
1基层团场农业信息化建设中存在的问题1.1信息渠道过于单一兵团基层团场职工获得信息的渠道主要是电视、广播,信息渠道单一,价值较高的农业信息,如新技术、新品种、分析预测、价格行情等信息不多,专门为农业服务的数据库更少。团场农业电视栏目除了本团的农业新闻外,介绍信息、技术的内容较少。许多偏远连队有线电视普及率低,相关农技信息获取、更新速度更慢,无法满足广大职工对信息日益多元化、深层次的需求。  相似文献   

16.
随着互联网的高速发展,在互联网搜索服务中,搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,这些页面用于建立索引,从而为搜索引擎提供支持。面对当前极具膨胀的网络信息,集中式的单机爬虫早已无法适应目前的互联网信息规模,因此高性能的分布式网络爬虫系统成为目前信息采集领域研究的重点。本文对网络爬虫原理、分布式架构设计以及网络爬虫中的关键模块、瓶颈问题及解决办法进行了相关研究。  相似文献   

17.
农业生物质材料种类繁多,在送检过程中对于属性的检测要求也不尽相同,因此这对农业信息命名实体识别技术提出了一定的要求。本文通过爬取各大检测平台的生物质材料相关信息,针对生物质材料的检测机构、检测内容及检测设备作为命名实体识别的实体对象;通过引入对抗训练和自注意力机制并与传统神经网络模型进行对比。实验结果表明,本文所提出的基于对抗训练和自注意力机制的网络模型效果均优于其余对比模型,其中效果最优标签为检测内容,其准确率、召回率、F1值分别可达到78.99%、76.43%、77.69%。  相似文献   

18.
农业大数据开放共享对于推进农业部门间的互连互通、协作协同和科学决策具有重要意义。梳理了当前我国农业大数据开放共享的现状,基础环境不断优化,一批信息共享和发布平台已经建立,但受体制约束、标准技术缺乏和法律法规滞后等影响,农业大数据的开放共享还存在总量偏低、可读性差、数据更新比例低等问题。鉴于此,在顶层设计、技术条件、内容标准、共享机制和法律规范等方面提出促进农业大数据共享的相关措施,以期加快农业数据的开放共享和资源整合,提升现代农业治理能力。  相似文献   

19.
针对网络新闻传播的特性,文章从聚焦爬虫的角度,重点分析了新闻实时搜索方法与技巧,同时也对新闻中的图片和音视频文件提取方法以及文本分类法进行简要论述。并针对网络爬虫易受到网站屏蔽的问题,给出一些解决方法。  相似文献   

20.
将大数据技术全面应用于农业信息服务领域,既可以为农业信息服务技术的完善发展提供基础条件,又可以为农业产业的发展提供物质条件,具有一定的应用意义。针对此,本文主要阐明现阶段农业信息服务中存在的问题,并在此基础上,结合农业大数据的相关要求,提出农业信息服务应该创新的技术内容。最后,根据目前的发展现状,阐述优化大数据时代农业服务信息的相关建议。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号