首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
以《同义词词林》为基础,结合云南种子植物特有属领域知识补充了《同义词词林》中该领域的词语,并提出了一种基于同义词词林的词语相似度改进算法。经过测试对比,在植物检索领域该计算方法比一般的基于同义词词林的词语相似度算法更加准确,而且召回率得到了明显提升,更适用于云南种子植物特有属领域信息的检索。  相似文献   

2.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

3.
句子相似度度量在自然语言处理领域中有着广泛的应用。针对现有的句子相似度计算方法不能充分捕捉句子的语义结构特征信息的问题,提出一种基于字向量和LSTM (long-short term memory,长短期记忆)网络的句子相度计算方法。首先,通过Word2Vec模型对中文维基百科语料进行训练,得到中文字向量词典;然后根据字向量词典将句子映射为句向量,并输入LSTM网络,获得句子的特征向量;最后,通过相似度算法计算2个句子特征向量之间的相似度。通过在2个数据集上的试验结果表明,该方法能够提高句子相似度计算的准确性,效果好于传统的语句相似度计算方法和基于词向量的相似度计算方法。  相似文献   

4.
根据肤色相似度判断是否肤色点后仅对肤色点进行AdaBoost算法的人脸跟踪进行了试验,同时改进了肤色相似度的计算速度.结果表明,该方法人脸检测速度快,识别率高.  相似文献   

5.
针对基于XML的农产品溯源平台中的数据集成问题,提出一种XML Schema模式匹配方法。该方法同时考虑元素的语义性和结构性,结合文档元素的名称、数据类型以及基数约束3个方面,通过相应的度量标准计算出元素的语义相似度,实现语义匹配;通过计算模式树中元素节点的祖先相似度,同时考元素本身的语义相似度,实现结构匹配。阐述了匹配算法的设计过程和试验评估结果。结果表明,相比较现有的几种方法,该方法能实现全自动化的匹配过程,提供更精确的匹配结果。  相似文献   

6.
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.  相似文献   

7.
微博搜索排序是近年来微博研究的热点之一。对于任意一个话题,它内容的生产者很容易达到成千上万个,甚至更多,产生的微博数更是不计其数,同时,也给关键字搜索的微博排序提出了更大的挑战。因此,本文提出了基于话题的用户权威值计算方法、基于WordNet的内容语义相似度方法,以及基于LDA的方法将输入关键词和所召回微博与其所属话题相关联,使用LearningToRank监督学习方法,学习一种排序策略。在此基础上,对提出的方案在实际数据集上分别对用户话题权威性、微博内容语义相似度、以及综合排序因素进行验证。  相似文献   

8.
提出一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项集。通过引入核函数,样本点被非线性变换映射到高维特征空间进行聚类,提高聚类性能。通过矩阵加权关联规则算法进行聚类。通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K-mean算法;在处理大型文档时,该算法的时间复杂度小于传统的K-mean算法。  相似文献   

9.
[目的]水稻FAQ(frequently asked question,常问问题集)问答系统对农户在水稻种植过程中遇到的问题进行解答,问句相似度计算是其核心,用来匹配用户问题和FAQ中的问题。针对传统句子相似度算法准确率普遍较低的问题,本研究旨在用深度学习计算问句相似度,以提高系统回答的准确性。[方法]构建一个基于word2vec和LSTM(long-short term memory,长短期记忆)神经网络,包括输入层、嵌入层、LSTM层、全连接层和输出层的句子相似度模型。对水稻FAQ中的3 007个问题进行归类和组合得到32 072个问题对,并标注其相似性作为训练和测试数据。使用基于农业领域语料库训练得到的word2vec模型对训练数据向量化后作为输入,训练句子相似度模型。[结果]在测试集上对模型进行验证,并与基于How Net、基于词向量的余弦距离以及基于word2vec和卷积神经网络(convolutional neural network,CNN)的3种句子相似度算法进行对比。对句子相似度的计算结果进行抽样检查,该模型的计算结果更符合人的直观印象。从准确率和ROC(receiver operating characteristic curve)曲线进行分析,该模型也明显优于其他3种方法,准确率达到了93.1%。[结论]本研究构建的模型显著提升了句子相似度计算的准确率,基于该模型开发的水稻FAQ问答系统,能够准确匹配用户问题和水稻FAQ中的问题,帮助农户更好地解决水稻生产中遇到的问题。  相似文献   

10.
目的为了对在线考试系统中主观题进行更合理的评分,提出一种基于中文分词的算法对主观题进行评分。方法对中文分词进行了详细介绍,并对已有的算法进行研究和改进,利用基于中文分词技术并结合文本相似度对主观题进行自动评分,从文本串长度相似度、文本串词形相似度和文本串词序相似度,再结合影响因子,形成最终的综合相似度。结果通过综合考虑考试科目的特征,合理的设置3个相对影响因子的值,对试卷通过4个实验进行测试,试卷题目分别为4个Office简答题,标准答案控制在100字内,每个实验回收电子试卷50份,与使用原算法的实验结果进行比对。实验测试表明,优化后的算法准确率有了很大提高。结论优化后的算法准确率有明显提高,在词形相似度较高的情况下评分效果与原算法差距不大,依然有改进的空间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号