共查询到18条相似文献,搜索用时 93 毫秒
1.
针对农业科技人员和其他农业信息用户面对海量异构农业信息文档缺乏高校检索方法的问题,提出基于中文分词的信息检索平台系统构架,以倒排文档方式来处理各种农业信息文档,采用TF/IDF相似度计算作为评分排序的标准,构建基于中文分词的信息检索系统应用于农业信息领域,取得较好效果。 相似文献
2.
为了提高Dspace系统的检索性能,本文对DSpace机构知识库系统中的检索工具包Lucene进行了详细分析和研究,对多种常用的中文分词方法通过对比实验,最终确定使用JE - analyzer(极易)方法作为DSpace检索工具包的中文分词方法. 相似文献
3.
中文分词作为中文信息处理最重要的预处理手段被广泛应用.该文对医学领域文献全文检索的中文分词进行分析研究.提出了一种如何解决同义词,近义词的方法;并对传统正向最大匹配算法进行改进.更全面地实现了“长词优先”的系统功能。本方法应用于医学文献全文检索系统中.取得了很好的效果.具有一定的实用性。 相似文献
4.
5.
在农业垂直搜索引擎研究过程中,中文分词是重要的研究方向。针对传统农业垂直搜索引擎搜索信息抽取不准确、速度慢等缺点,采用双数组Trie树为基本模型,利用中文词条首字区位码与数据库表行号相对应的方式,并根据农业垂直搜索引擎的需要设置了农业词汇的词性编码,以My SQL数据库为例设计了农业领域专用的分词词典。该分词词典可充分利用数据库的优势进行词典组织,并且可以进行词库的远程共享和共同维护,方便不同的系统进行访问;词条按首字分类存放构造双数组Trie树,可有效减少构造过程的内存空间。该农业分词词典结构对其他领域和行业也具有借鉴意义。 相似文献
6.
李玉峰 《内蒙古农业大学学报(自然科学版)》2012,33(3):245-249
随着电子邮件在人们生活中的广泛应用,垃圾邮件的防范也日益引起人们的重视.本文详细介绍了在linux下基于SpamAssassin中文垃圾邮件过滤系统的设计与实现. 相似文献
7.
针对农业垂直搜索中中文分词要求的特殊性,提出-5基于词典和全切分的中文分词算法。该算法首先对经过预处理的网页进行基于词典的机械式切分,对未识别的字串再进行基于贝叶斯(Bayes)方法的全切分概率计算,通过计算字串的最大切分可信度确定最合理的切分,并更新词典。实验从120万张农业中文网页中随机抽取14组生成测试集,测试结果表明,该算法与正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)相比具有更高的召回率,F1测度平均达到88%。 相似文献
8.
中文水产搜索引擎的研究与探索 总被引:1,自引:0,他引:1
搜索引擎是人们检索Web信息资源的有效途径,专业搜索引擎能理我好地满足专业信息检索的需要。水产搜索引擎普遍存在数据库规模较小但简洁实用等特点。大多数以分类集合网站网址为主,采用主题目录索引方式实现搜索。“猎渔搜索”是“中国水产网”开发的中文水产搜索引擎,其主题目录的编排采用主题分类法,共分为16个类目,并选择NT+ⅡS+SQL Sever作为开发平台,由后台索引数据库和前台搜索界面组成。 相似文献
9.
搜索引擎是人们检索Web信息资源的有效途径,专业搜索引擎能理我好地满足专业信息检索的需要。水产搜索引擎普遍存在数据库规模较小但简洁实用等特点。大多数以分类集合网站网址为主,采用主题目录索引方式实现搜索。“猎渔搜索”是“中国水产网”开发的中文水产搜索引擎,其主题目录的编排采用主题分类法,共分为16个类目,并选择NT+ⅡS+SQL Sever作为开发平台,由后台索引数据库和前台搜索界面组成。 相似文献
10.
为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率上有了进一步的提高,对使用机械分词算法的中小型搜索引擎在提高分词精度方面具有一定的实用价值。 相似文献
11.
对双数组Trie树(Double—ArrayTrie)分词算法进行了优化:在采用Trie树构造双数组Trie树的过程中,优先处理分支节点多的结点,以减少冲突;构造一个空状态序列;将冲突的结点放入Hash表中,不需要重新分配结点.然后,利用这些方法构造了一个中文分词系统,并与其他几种分词方法进行对比,结果表明,优化后的双数组Trie树插入速度和空间利用率得到了很大提高,且分词查询效率也得到了提高. 相似文献
12.
根据汉语中二字词较多的特点,提出了一种新的分词词典机制.该机制在词典数据结构中添加二字词检测位图表,在分词时,利用位图表可快速判断二字词优化分词速度.选取人民日报语料片断进行了实验测试.实验结果表明,基于二字词检测位图表的分词词典机制有效地提高了汉语自动分词的速度和效率. 相似文献
13.
本文描述了一个基于Lucene和Nutch实现的林业垂直搜索引擎,给出了系统框架,其可以为林业用户提供专业的资源检索服务. 相似文献
14.
15.
点云分割是根据空间、几何和纹理等特征对点云进行划分,使得同一划分内的点云具有相似的特征。首先对获取的散乱点云数据进行去噪、填补空洞和畸变等预处理,然后计算最小包围立方体分割点云空间并构建八叉树加速邻域点的搜索,为每个点构造最小二乘邻域,分析散乱点云数据的高斯曲率和平均曲率,再通过区域生长法得到低噪声的精确分块,自适应、智能化地对点云进行分块。经实验验证,该方法可以获得较好的分割效果。 相似文献
16.
基于SDD算法的中文农业搜索引擎设计与实现 总被引:1,自引:0,他引:1
信息检索是当今社会的热点话题,但是一般的搜索引擎涵盖面太广,个性化、专业化程度不够.利用潜在语义索引(LSO的最新技术SDD(半离散矩阵分解)算法来解决大规模网页索引计算的问题,利用SDD算法建立起语义索引,成功构建了一个中文农业搜索引擎. 相似文献
17.
提出了一种基于支持向量机的中文新词识别算法.该算法结合新词内部模式以及词长等提出了基于词内部模式的改进字符位置似然概率,并综合新词的邻接类别等特征对新词进行识别.经过小说语料测试,实验结果表明:该算法的微F1值为0.583 3,宏F1值为0.775 7,分别比不考虑词内部模式的基准算法提高约63%和30%. 相似文献
18.