首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 218 毫秒
1.
对双数组Trie树(Double—ArrayTrie)分词算法进行了优化:在采用Trie树构造双数组Trie树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列;将冲突的结点放入Hash表中,不需要重新分配结点.然后,利用这些方法构造了一个中文分词系统,并与其他几种分词方法进行对比,结果表明,优化后的双数组Trie树插入速度和空间利用率得到了很大提高,且分词查询效率也得到了提高.  相似文献   

2.
渔业信息分词对渔业信息系统处理的速度和效率有很大的影响。对汉语词典查询算法进行了分析,用基于双数组Trie树机制的汉语词典实现了渔业信息的分词,并与基于双字Hash机制词典的分词方法进行了试验对比,证明双数组Trie树机制的词典比基于双字Hash机制的词典有更高的查询速度。  相似文献   

3.
随着农业信息化、智能化的不断发展,农业信息量呈现井喷式增长,为广大农业从业者和农业科研人员提供便捷有效的信息检索方法是目前农业搜索引擎亟需解决的问题.为此,本文提出了基于Heritrix+Solr的农业信息垂直搜索引擎框架,并设计了适用于农业信息垂直搜索引擎的隐马尔科夫Web信息抽取模块和基于词典的mmseg4j中文分词模块,同时改进了页面排序算法,对进一步提升农业垂直搜索引擎的用户体验和工作效率具有一定的参考价值.  相似文献   

4.
针对农业垂直搜索中中文分词要求的特殊性,提出-5基于词典和全切分的中文分词算法。该算法首先对经过预处理的网页进行基于词典的机械式切分,对未识别的字串再进行基于贝叶斯(Bayes)方法的全切分概率计算,通过计算字串的最大切分可信度确定最合理的切分,并更新词典。实验从120万张农业中文网页中随机抽取14组生成测试集,测试结果表明,该算法与正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)相比具有更高的召回率,F1测度平均达到88%。  相似文献   

5.
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.  相似文献   

6.
农业信息化建设的飞速发展,使得互联网上农业信息迅速增长,但由于使用通用搜索引擎检索出的信息庞杂无序,农业主题信息的获取仍十分困难。因此,搜索引擎有向专业化、领域化方向发展的趋势。本文设立了一种基于特征词匹配算法的垂直搜索引擎设计方案,该方案通过建立农业信息特征词词典,采用向量空间模型来对网页主题进行识别,从而提高信息检索的准确率。并采用基于超级链接分析的方法,使主题相关的URL优先得到访问,提高了搜索引擎的效率。  相似文献   

7.
分析大陆和台湾的在农业方面的语言差异、简繁体的编码问题和两岸文字的语义差别,在此基础上提出两岸文字转化的规则。研究中文分词、多目标字词消歧和人工辅助转换等主要转换技术,重点研究语境模糊匹配消歧,即设立语境库并通过语境模糊匹配算法,来减少单字转换时出现的歧义现象。采用双数组Trie树的索引结构和逆向最大匹配的分词算法、KMP模式匹配算法等,提出面向两岸农产品物流信息的汉字转换系统设计方案,并在基于物联网的海峡两岸农产品物流商务平台中予以实现,取得较好效果。  相似文献   

8.
中文农业信息垂直搜索引擎的设计与实现   总被引:1,自引:0,他引:1  
本研究以用户对农业信息搜索需求为研究背景,设计实现了1个中文农业信息垂直搜索引擎,该系统采用向量空间模型对农业主题进行识别,并采用网页内容和链接分析相结合的方法,使排序结果更加合理,从而提高信息检索的效率和准确率.  相似文献   

9.
针对当前农业搜索引擎存在的查不全、查不准、死链等问题,在分析中国使用率比较高的农搜、搜农、华农在线和中国农业信息网站等搜索引擎的基础上,提出了基于Nutch框架的农业信息垂直搜索引擎。该搜索引擎对农业词语进行分类,并构建专门的农业词典,提高查询速度。此外,基于Nutch框架的搜索引擎采用了改进的Page Rank算法对网页进行排序得到权值最高的网页,呈现出具有价值搜索结果,达到初步的搜索结果的预期目标。  相似文献   

10.
事件抽取是信息抽取领域的重要研究方向,针对目前网页文档中文事件抽取的关键问题,提出利用开源的通用文本处理框架(GATE)进行中文事件抽取的方法,设计GATE中文事件处理流程,开发GATE插件,解决中文分词与词性标注、领域词典、中文抽取规则设计等关键技术,实现了中文事件的类型识别和元素抽取。并以四类政治事件为例,进行中文事件抽取实验。实验结果表明,基于GATE的中文事件抽取具有良好的通用性,能够取得了较好的抽取效果。  相似文献   

11.
【目的】为具备时空感知能力的农业专业信息搜索引擎的研制提供关键技术与原型系统,并最终实现更高的查全率、查询效率和用户体验。【方法】以“农搜”为研究对象,通过对搜索引擎系统结构、关键技术和数据结构的研究与分析,并借鉴现有的中分分词和搜索技术、地名搜索技术和地名词典等关键技术,向“农搜”加入独立于农业主题搜索的位置索引和位置查询的方法以实现对位置(区域)的检索。【结果】应用此项技术形成了具备时空感知能力的农业信息搜索原型系统,经测试该原型系统能使位置搜索的查准率达到80%以上。【结论】基于时空感知能力的农业信息搜索技术的应用和推广必将能够提高农业信息系统的使用效率,进而取得较好的用户使用效果。  相似文献   

12.
以木材材性表为研究对象,建立基于木材材性表的检索系统,该检索系统能够根据木材材性表中的木材特征对木材标本进行快速检索.该系统基于ASP.NET MVC框架和ADO.NET技术的三层架构设计解决方案,使用感知哈希算法对木材标本图像进行识别;系统采用树形结构和图片混合的方式展示检索结果,实现对木材材性表数据的信息维护、信息统计、数据字典查询、用户管理、手机检索等功能.  相似文献   

13.
国外农业搜索引擎评析   总被引:4,自引:0,他引:4  
本文简要介绍了国外几种主要农业信息搜索引擎的数据库规模和范围、信息采集方式、检索功能和结果显示等方面。并对国外农业信息搜索引擎的现状进行分析,为当前国内的农业搜索引擎建设及发展提供了思路。  相似文献   

14.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率.  相似文献   

15.
提出了中文搜索引擎的评价指标:索引库、检索功能、检索效果、用户交互以及站点流行度,并据此从用户体验的角度对常用中文搜索引擎进行了分析比较,进而指出中文搜索引擎存在着自然语言搜索、版权、个性化搜索和协作搜索等方面的问题。  相似文献   

16.
本文根据图书馆信息服务的发展趋势,详细阐述了中国农业大学图书馆信息服务的开拓性工作实践,例如设立信息服务咨询台、电话咨询、读者留言咨询、虚拟咨询台实时问答咨询、电子邮件咨询、数据库导航系统、教师论文收录与引用服务、馆际互借与文献传递服务、相关课题研究服务等。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号