首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 744 毫秒
1.
随着社交软件的普及,社交软件中社会关系分析日益凸显。中文分词是社会关系分析的一种重要手段,但是现有中文分词方法的效果不好。提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的中文分词优化算法。它们是将基于词典分词算法产生的结果作为附加信息,添加到HMM模型中,在不改动HMM模型的情况下,有效地增加了HMM模型的分词效果。实验结果表明,改进HMM算法能显著提高中文分词的准确率、召回率和F值。  相似文献   

2.
分析了几种典型的文本分类算法的特点,并基于中文文本数据集和英文文本数据集对算法性能进行了综合评价.实验结果表明:对于英文文本数据,支持向量机具有最优的性能,但时间开销最大,贝叶斯算法速度较快;对于中文文本数据,由于分词的困难,使得算法性能普遍低于同等规模下在英文数据集上的性能.几种算法性能均随训练集规模的增大而有改善.  相似文献   

3.
在互联网技术日益发展的今天,如何快速对海量的文本进行归类是数据挖掘的一项重要课题。提出了一种改进型的文本聚类算法,计算句子相似度时综合考虑基于词频统计的特征向量表示法和关键词之间的关系,减少了相似度对于输入次序和频数的敏感度,有效地提高了计算小文档和简单句子相似度的准确度和文本聚类结果的准确率、召回率。  相似文献   

4.
针对如何高效地发现农业舆情话题,提出了一种基于叙词表的舆情话题发现算法。该算法首先基于《农业叙词表》和综合性词表及网络新词构建叙词词典,作为中文分词软件的词典;然后运用TF-IDF计算特征词的权值,选取前P个特征词表示文本,并基于叙词间的关系计算词语相似度;最后,以叙词为节点构建无向图,通过对无向图聚类实现网络热点话题的发现。分析结果表明,该算法的最小识别代价为0.3534,算法运行效率相比传统算法较高。  相似文献   

5.
张文慧  张冉 《安徽农业科学》2011,39(20):12586-12587
针对农业科技人员和其他农业信息用户面对海量异构农业信息文档缺乏高校检索方法的问题,提出基于中文分词的信息检索平台系统构架,以倒排文档方式来处理各种农业信息文档,采用TF/IDF相似度计算作为评分排序的标准,构建基于中文分词的信息检索系统应用于农业信息领域,取得较好效果。  相似文献   

6.
基于用户的协同过滤推荐算法(User CF)从用户的历史操作记录中分析用户的兴趣,找到每个用户的k个相似近邻,然后基于这k个近邻集合实施推荐。皮尔森相关系数能够根据用户的历史评分计算用户间的相似度。本文加入流行项目惩罚系数、共同评分项目惩罚系数δ和评分差异惩罚系数λ,对皮尔森相关系数实施了改进和修订。实验结果表明,改进后的皮尔森相似度的推荐效果好于原始皮尔森相似度。  相似文献   

7.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

8.
针对农业垂直搜索中中文分词要求的特殊性,提出-5基于词典和全切分的中文分词算法。该算法首先对经过预处理的网页进行基于词典的机械式切分,对未识别的字串再进行基于贝叶斯(Bayes)方法的全切分概率计算,通过计算字串的最大切分可信度确定最合理的切分,并更新词典。实验从120万张农业中文网页中随机抽取14组生成测试集,测试结果表明,该算法与正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)相比具有更高的召回率,F1测度平均达到88%。  相似文献   

9.
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.  相似文献   

10.
中文医疗领域分词比较困难,导致现有算法对于医疗问题特征提取不充分,针对中文分词的特点,提出基于LCN(Lattice CNN,格子卷积神经网络)的医疗知识问答模型.首先,利用某三甲医院提供的15 000份电子住院记录,基于电子住院记录利用Glove模型训练医学词向量.其次,通过各大医疗网站获得大量医学名词及名词间的关系,构建医学知识图谱,并提取知识图谱中的关系词,结合已训练的词向量获取关系向量.最终,以医学词向量作为模型输入端并利用LCN神经网络提取医疗问题特征,计算问题特征与关系向量的相似度,进而训练医疗知识问答模型.实验表明, LCN模型准确率可达89.0%,与同类问答模型比较,提高了2%.  相似文献   

11.
为提高逆向最大匹配算法的分词精度,本研究利用词频阙值,单字函数等方法取得了较好的消歧效果。实验结果表明:该分词算法既能遵循长词优先的原则,又能进一步识别和消除覆盖歧义。改进的RMM不仅在速度上仍保持较大优势而且在分词准确率上有了进一步的提高,对使用机械分词算法的中小型搜索引擎在提高分词精度方面具有一定的实用价值。  相似文献   

12.
Smith-Waterman算法是1种精确度最高、广泛应用于文本搜索的生物学序列比对算法。在对Smith-Waterman算法深入研究的基础上,从减少计算任务量和降低计算复杂度两个方面对算法进行优化改进,将优化改进算法基于Spark平台进行算法并行化设计,并通过准确性测试、算法运行速度测试、算法速度比较测试、算法可扩展性测试等实验分析优化改进算法和并行化算法的性能。实验结果表明:优化改进和并行化后的算法在保证准确性的前提下,极大地提高了算法运行速度和可扩展性。  相似文献   

13.
根据项目之间的相似性预测用户对未评分项目的评分,解决协同过滤推荐的数据稀疏性问题。在此基础上,分别从用户评分、用户属性、用户历史行为等角度对用户的相似度进行衡量,并综合各种相似度用来计算目标用户的最近邻居。最后,综合利用项目评分预测和用户多相似度,提出一种改进的协同过滤推荐算法。  相似文献   

14.
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.  相似文献   

15.
为提高区域性煤与瓦斯突出预测模型的预测准确度并减小预测均方误差,提出了一种基于改进的粒子群优化(PSO)算法优化的广义回归神经网络(GRNN)。以网络的光滑因子为自变量、网络误差为目标函数,通过改进PSO算法搜索出误差的全局最小值,找出网络的最优光滑因子,用优化后的GRNN进行煤与瓦斯突出预测,并以淮南矿区的实测数据训练和检验该模型。试验结果表明,基于改进粒子群优化算法优化的GRNN模型预测准确率为95%,实际突出数据的预测准确率为100%,实际不突出数据的预测准确率为93.3%。相较于PSO算法和果蝇优化算法(FOA)优化的GRNN预测结果,该模型的预测准确率最高,均方误差最小,具有更好的泛化能力,为煤与瓦斯突出智能预测提供了新的方案。  相似文献   

16.
提出一种基于过渡像素的视频流人工文本检测与定位算法.该算法在水平和垂直方向上提取过渡像素点,生成过渡图.通过块滤波器抑制背景的过渡像素,采用基于密度的快速区域生长算法形成候选文本区域;再利用改进的局部二进制模型(LBP)验证候选文本区.仿真实验结果表明,本文的改进算法相对于Kim算法,字符定位的准确率更高.  相似文献   

17.
传统的文本查重算法是对文本作分词以构建关键词向量,而对于某些特殊应用的网络盗版检测,分词的开销则未必合理和必要。因此,本文提出一种基于汉语音位信息的文本查重方法。文本被表达为声、韵、调三个空间向量,以余弦距离作相似性度量。提出两种相似性判断公式,一种假定三向量独立分布;一种取其线性组合,系数可由音位元素的信息熵算出,通过大文本统计得出信息熵的估计值,以传统的关键词向量/Sim Hash方法做参照产生语料,对其作统计得到模型参数。实验结果表明该方法有一定的精确率和很好的召回率,计算开销低于传统的方法,适合需要过滤大量TN类型文本的场合。  相似文献   

18.
针对基于叶片特征进行树种识别的问题,本文在结合叶片纹理、不变矩以及传统形状共25维传统特征的基础上,自定义了叶尖角、边角均值等2个叶片轮廓特征,并以相似多边形定义及其推论作为理论依据,提出了一种基于叶片轮廓构建距离矩阵与角点矩阵进行树种识别的分类方法。该方法首先对树木叶片图像进行预处理,提取出归一化的叶片特征向量,然后利用KNN最近邻分类器筛选出相似度最高的前20个结果集(Top 20),然后构建距离矩阵和角点矩阵进行更为精确的识别匹配。在图像预处理阶段,为获取更为准确的叶片轮廓特征,利用叶片在HSV颜色空间中饱和度特征以及色度特征方面的显著差异性,设计了一种消除叶片阴影的图像预处理算法。在识别匹配阶段,利用Douglas Peucker approximation算法提取叶片轮廓的近似多边形,定义了距离矩阵、角点矩阵、矩阵中元素间相似度、矩阵相似度以及综合相似度计算方法,设计了全局匹配与局部匹配相结合的算法。该算法在Android系统的手机平台上进行了实现和运行验证,结果表明:在Flavia数据集中,对32种共1 907个正常叶片样本的识别准确率为99.61%,对32种共851个残叶样本的准确率为94.92%;在Leafsnap数据集中,对185种共23 147个Lab样本前5个结果集(Top 5)的识别准确率为98.26%。相对其他算法,该算法识别准确率更高,对叶片外形描述能力更强,对残叶、扭曲叶、阴影叶具有更好的鲁棒性,算法的实用性和适应性更强。   相似文献   

19.
[目的]水稻FAQ(frequently asked question,常问问题集)问答系统对农户在水稻种植过程中遇到的问题进行解答,问句相似度计算是其核心,用来匹配用户问题和FAQ中的问题。针对传统句子相似度算法准确率普遍较低的问题,本研究旨在用深度学习计算问句相似度,以提高系统回答的准确性。[方法]构建一个基于word2vec和LSTM(long-short term memory,长短期记忆)神经网络,包括输入层、嵌入层、LSTM层、全连接层和输出层的句子相似度模型。对水稻FAQ中的3 007个问题进行归类和组合得到32 072个问题对,并标注其相似性作为训练和测试数据。使用基于农业领域语料库训练得到的word2vec模型对训练数据向量化后作为输入,训练句子相似度模型。[结果]在测试集上对模型进行验证,并与基于How Net、基于词向量的余弦距离以及基于word2vec和卷积神经网络(convolutional neural network,CNN)的3种句子相似度算法进行对比。对句子相似度的计算结果进行抽样检查,该模型的计算结果更符合人的直观印象。从准确率和ROC(receiver operating characteristic curve)曲线进行分析,该模型也明显优于其他3种方法,准确率达到了93.1%。[结论]本研究构建的模型显著提升了句子相似度计算的准确率,基于该模型开发的水稻FAQ问答系统,能够准确匹配用户问题和水稻FAQ中的问题,帮助农户更好地解决水稻生产中遇到的问题。  相似文献   

20.
目的将本体结构图划分成k个部分,利用k-部排序学习得到一个得分函数,从而两本体概念之间的相似度可通过它们之间得分的差值来计算。方法研究AUC标准下基于k-部排序的本体算法。将小波过滤技术融入到本体迭代算法,通过小波的N项逼近来控制顶点的划分。结果将算法应用于基因本体和物理教育本体,利用P@N对结果进行评价并与以往算法得到的结果进行对比。发现随着N的增大,算法的准确率明显高于其他算法。结论实验结果说明新算法对于本体相似度计算和本体映射的建立是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号