共查询到20条相似文献,搜索用时 247 毫秒
1.
随着农业新闻数据日益膨胀,保证以农业为主题的增量爬虫成为爬取农业信息的相关手段,增量爬虫的原理可以依据农业新闻数据的更新爬取数据相关更新的内容,剔除出已经爬取的重复内容[[]]。文章结合农业新闻数据信息的特点,提出了一种适用于农业新闻信息的基于Redis的布隆过滤器的增量去重方法,摆脱超大的持久化文件撑爆内存的问题。通过实验证明随着抓取相关农业信息的增加,该方法在保证内存不被撑爆同时能有效提高增量爬取农业信息的效率,在增量信息爬取的过程中具有很好的应用价值[[]]。 相似文献
2.
3.
4.
近年来发生的多起运用网络爬虫技术恶意爬取网络数据的案件,这些案件涉及公民个人信息保护、网络数据权属界定等诸多法律问题,引发了网络从业人员和法律人士的广泛关注。善意爬虫会促进网络数据的有效流通和运用,进而促进互联网产业的健康快速发展。恶意爬虫则会影响被爬取方网站的正常运行,攫取被爬取网站的重要数据,甚至构成刑事犯罪。网络从业人员必须遵守相关法律规定、按照机器人协议的要求合法合理地进行公开数据爬取,防范爬虫行为可能带来的法律风险。 相似文献
5.
《农业工程技术:农产品加工》2021,(3)
该文从各大网页中采集到农作物生长信息的数据,特征数据主要包括农作物生长信息、种植环境、生长周期等。为了更好地完成网络爬取的任务,收集到更多符合条件的网页信息,该文主要运用架构方式实现农作物生长数据的爬取,采用Nutch框架实现分布式网络爬虫,并运用二级哈希算法完成两次URL映射计算。实验结果表明,随着时间的推移,相对于单机,分布式网络爬取能够获取更大的数据信息量,工作效率更高。 相似文献
6.
7.
8.
9.
10.
11.
《金陵科技学院学报》2017,(2)
基于微博内容对用户进行分类,为建设健康绿色的社交平台提供技术参考。改进支撑向量基算法(SVM)实现多分类支持向量基模型,基于微博内容将用户分为4类,利用新浪微博API使用网络爬虫获取微博内容数据;然后对文本进行分词降维和特征词权重计算;最后设计一个微博内容实时爬取和识别系统,实现了基于支撑向量基算法的水军实时检测。研究结果表明,提出的方法能够成功识别出正常用户和3类水军。 相似文献
12.
存在的问题
1农业信息来源单一,网站服务功能弱
虽然已经建成一些农业网站,但总体来看网站内容缺乏行业特色或本地特色,内容更新主要集中在"农业新闻",并且大部分为转载,内容重复率高.农民关注的"农业技术"、"农业新品种新技术"、"农业市场供求"等方面的信息更新较慢. 相似文献
13.
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍。为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果。[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19 847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试。[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升。其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求。 相似文献
14.
为动态监测农业网络空间信息,需采用农业网络空间信息动态监测算法,设计农业网络空间信息动态监测系统。借助系统中信息采集层,从网络中各种信息源和Scrapy网络爬虫,采集所需农业网络空间信息。信息采集层通过构建的基于Scrapy框架建立对网页的请求响应,分析网页布局后循环抓取所需农业网络空间信息。采用正则表达式将抓取的农业网络空间信息剔除为格式化数据,将采集到的数据存储到农业网络空间信息处理模块数据库中。农业网络信息处理模块通过合理方法净化信息所在网页,将从数据库中提取的内容传输到农业网络空间信息分析模块中。分析模块通过文本聚类、特征选取等技术,发掘网络中农业空间信息,形成话题列表并设置关键字信息,建立相关领域的农业网络空间信息词库。采用WM算法处理同音字、拆分字和干扰符号,实现对所需农业网络空间信息的精准匹配,达到动态监测农业网络空间信息的目的。经过实验分析发现,随着年份的增加,全国地区农业种植作物产量也在小幅度增加,且本文算法动态监测效果和实际地区农业作物产量变化情况相符程度较高。随着广州市城市化进程不断加剧,2009年到2014年广州市斑块密度和形状指数不断增加,2015年以后广州市植被覆盖率逐渐提升,与实际变化情况相符程度较高。 相似文献
15.
1基层团场农业信息化建设中存在的问题1.1信息渠道过于单一兵团基层团场职工获得信息的渠道主要是电视、广播,信息渠道单一,价值较高的农业信息,如新技术、新品种、分析预测、价格行情等信息不多,专门为农业服务的数据库更少。团场农业电视栏目除了本团的农业新闻外,介绍信息、技术的内容较少。许多偏远连队有线电视普及率低,相关农技信息获取、更新速度更慢,无法满足广大职工对信息日益多元化、深层次的需求。 相似文献
16.
17.
18.
农业大数据开放共享对于推进农业部门间的互连互通、协作协同和科学决策具有重要意义。梳理了当前我国农业大数据开放共享的现状,基础环境不断优化,一批信息共享和发布平台已经建立,但受体制约束、标准技术缺乏和法律法规滞后等影响,农业大数据的开放共享还存在总量偏低、可读性差、数据更新比例低等问题。鉴于此,在顶层设计、技术条件、内容标准、共享机制和法律规范等方面提出促进农业大数据共享的相关措施,以期加快农业数据的开放共享和资源整合,提升现代农业治理能力。 相似文献
19.
20.
将大数据技术全面应用于农业信息服务领域,既可以为农业信息服务技术的完善发展提供基础条件,又可以为农业产业的发展提供物质条件,具有一定的应用意义。针对此,本文主要阐明现阶段农业信息服务中存在的问题,并在此基础上,结合农业大数据的相关要求,提出农业信息服务应该创新的技术内容。最后,根据目前的发展现状,阐述优化大数据时代农业服务信息的相关建议。 相似文献