首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
农产品价格主题搜索引擎的研究与实现   总被引:1,自引:0,他引:1  
当前农业垂直搜索引擎无法预测农产品价格趋势,难以满足农业生产者行情分析需要。文章设计农产品价格主题搜索引擎。首先网络爬虫从农业综合网站搜集网页,对网页进行转码、去重、提取内容等处理;使用主题相关度算法计算网页的主题相关度,用分类器对网页分类,将与主题相关的网页解析、存储;最后提取农产品价格及其影响因素信息。结果表明,系统可搜集农产品价格信息及影响农产品价格因素信息,为后续农产品价格预测提供数据支持。  相似文献   

2.
本文设计并实现了一个食品安全新闻的爬虫。为了提高爬虫爬取食品安全新闻数据的准确率,建立了本体模型,并用向量空间模型去除主题相关度小的新闻。结果表明该食品安全爬虫爬取有关食品安全新闻的准确率较高,达到了预期要求。  相似文献   

3.
针对网络新闻传播的特性,文章从聚焦爬虫的角度,重点分析了新闻实时搜索方法与技巧,同时也对新闻中的图片和音视频文件提取方法以及文本分类法进行简要论述。并针对网络爬虫易受到网站屏蔽的问题,给出一些解决方法。  相似文献   

4.
随着互联网的高速发展,在互联网搜索服务中,搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,这些页面用于建立索引,从而为搜索引擎提供支持。面对当前极具膨胀的网络信息,集中式的单机爬虫早已无法适应目前的互联网信息规模,因此高性能的分布式网络爬虫系统成为目前信息采集领域研究的重点。本文对网络爬虫原理、分布式架构设计以及网络爬虫中的关键模块、瓶颈问题及解决办法进行了相关研究。  相似文献   

5.
针对如何在互联网上准确获取森林经营知识的问题,提出研建森林经营知识采集系统来解决这一问题。在分析森林经营知识采集问题的基础上,设计系统流程、系统模块、数据库,改进网络爬虫规则并加以限定,论述爬虫工作流程和算法。该系统总结分析了森林经营主题网页的特点,通过建立森林经营特征向量对采集内容进行识别,并对森林经营知识去噪处理,智能匹配规则提取知识,使用欧氏距离识别指纹去除重复的森林经营知识。实验结果表明,该系统采集的森林经营知识具有高主题相关度、高准确率、低重复度的特点,满足服务于森林经营决策支持系统的要求。  相似文献   

6.
汪斌  张云伟  刘健  陈晶 《安徽农业科学》2009,37(20):9699-9700
针对用户在进行农业信息主题或相关领域的网络查询时,通用搜索引擎返回的信息过多且主题相关性不强等不足,提出了一种面向农业信息的主题爬虫的设计方案,详细讨论了该主题爬虫的爬行策略、结构设计、原理及实现。初步试验结果表明,基于该设计方案的主题爬虫在抓取农业信息主题网页时的准确率、全面率及成功率明显优于普通爬虫。  相似文献   

7.
提出了启发式搜索应用于搜索引擎来获取特定的信息的策略。通过引入智能代理系统,自动完成搜索到的页面类型的判断,更快更准确地命中目标网页。试验结果表明,引入智能代理后的启发式搜索算法与传统的深度优先和宽度优先算法相比,获取信息的准确性更高。  相似文献   

8.
采用聚焦爬虫可以提高搜索引擎的检索效率,聚焦爬虫经常使用正则表达式来进行有效的信息检索,着重分析了网页检索中常用的正则表达式,为搜索引擎的构建提供帮助。  相似文献   

9.
详细阐述了基于扩展SKOS模型的简单农业本体系统建设方法.应用主题相关度计算和改进Pagerank算法,设计开发了在线服务的搜索引擎系统,实现了带语义查询扩展.测试结果表明,应用该方法建立的搜索引擎获得了较好的网页相关度排名.  相似文献   

10.
为了解决养殖投入品的质量信息匮乏、监管效率低下等问题,结合网络舆情信息发布与获取的特点,引入了信息抽取和行政监管并存的理念,构建了基于B/S架构的养殖投入品质量的信息发布与舆情监管系统。采用主题爬虫算法作为抓取网络舆情的信息关键步骤,避免下载大量与主题不相关的网页,提高了信息抓取的效率和准确率。并利用向量空间模型对主题爬虫算法中的内容相似度进行计算与评价,提高了该算法爬行的准确性,并在实际系统中得到了验证。同时该系统还提供了用户信息管理、质量安全信息管理、养殖投入品供求信息管理等功能。系统测试和应用结果表明,该系统具有功能丰富、运行稳定、信息抓取准确、可扩展性强等优点,能较好地满足不同角色对养殖投入品质量信息的需求。  相似文献   

11.
信息检索是当今社会的热点话题,但是一般的搜索引擎涵盖面太广,个性化、专业化程度不够.本文利用潜在语义索引(LSI)的最新技术SDD(半离散矩阵分解)算法来解决大规模网页索引计算的问题,利用SDD算法建立起语义索引,成功构建了一个中文农业搜索引擎,本文介绍了"农搜"系统的结构、功能、关键算法和应用情况.  相似文献   

12.
大数据是当前企业界、政府部门研究的热点,学术界也对其在科学研究中的应用开展了大量研究。尤其是,随着经济的发展和科技的进步,海量的医疗信息数据为医疗信息化带来了新的挑战。以上海市为例,基于区域卫生信息平台建设过程中存在的主要问题,探究在大数据模式下,完成结构化、半结构化和非结构化数据的医学信息数据爬虫、可扩展的海量存储、基于健康搜索引擎的高性能检索应用服务,满足高效率、高并发的健康信息检索服务新模式,完善现有信息体系,实现跨部门、跨专业的信息协同。  相似文献   

13.
随着农业信息化、智能化的不断发展,农业信息量呈现井喷式增长,为广大农业从业者和农业科研人员提供便捷有效的信息检索方法是目前农业搜索引擎亟需解决的问题.为此,本文提出了基于Heritrix+Solr的农业信息垂直搜索引擎框架,并设计了适用于农业信息垂直搜索引擎的隐马尔科夫Web信息抽取模块和基于词典的mmseg4j中文分词模块,同时改进了页面排序算法,对进一步提升农业垂直搜索引擎的用户体验和工作效率具有一定的参考价值.  相似文献   

14.
系统主要研究智能搜索系统在动物医学领域中的应用。该系统包括3个模块,分别是数据采集模块、数据预处理模块、数据应用模块。在数据处理的不同阶段,采用不同的处理技术和算法,有向量空间模型算法、SDD改进算法、网页自动分类技术、中文分词技术、数据压缩和搜索技术。  相似文献   

15.
兰富军  李春霆  高海忠 《安徽农业科学》2010,38(9):4918-4919,4927
借助垂直搜索引擎技术,可以在海量的农业知识资源中快速、准确地查询到符合用户需求的信息。当前的农业主题垂直搜索引擎过滤技术存在着忽略WEB内容、易发生主题漂移等缺点,在详细分析当前算法特点的基础上,结合其中的PageRank算法,对其进行改进,形成针对农业信息的垂直搜索引擎过滤算法,对农业信息化的建设和农业数据资源的共享具有重要意义。  相似文献   

16.
目的改进标准遗传算法以提高蛋白质结构的预测效率。方法在标准遗传算法的基础上引入蒙特卡罗局部优化策略、克隆体过滤策略、多胎竞争选择策略等,在均匀变异的基础上,引入一系列结构突变算子。利用改进的遗传算法对标准蛋白质序列进行二维折叠模拟。结果与其他算法相比,利用改进的遗传算法搜索到了HP60和HP64序列能量更低的构型。结论引入的遗传策略和突变算子增强了遗传算法的寻优能力。改进的遗传算法是个极具潜力的蛋白质结构预测方法。  相似文献   

17.
本文首先介绍Win Help主题文件的控制编码即分页符、控制符、下划线和隐藏文字的含义及其使用的方法。然后,以生物统计分析平台为例说明Win Help主题文件的撰写技巧及其存在的问题。图1参3  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号