首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
情感分析近年来已成为国内外的研究热点,然而网络上抓取到的中文数据并不能直接进行情感分析,在对中文文本进行处理前,必须将格式杂乱的文本建模为易处理的形式,这种易处理的格式可以用来进行计算,从而满足统计和机器学习数据格式的要求。本文采用向量空间模型来表征中文文本。其中涉及到的基础理论包括中文分词、特征选择和特征加权计算。  相似文献   

2.
在互联网技术日益发展的今天,如何快速对海量的文本进行归类是数据挖掘的一项重要课题。提出了一种改进型的文本聚类算法,计算句子相似度时综合考虑基于词频统计的特征向量表示法和关键词之间的关系,减少了相似度对于输入次序和频数的敏感度,有效地提高了计算小文档和简单句子相似度的准确度和文本聚类结果的准确率、召回率。  相似文献   

3.
传统的文本查重算法是对文本作分词以构建关键词向量,而对于某些特殊应用的网络盗版检测,分词的开销则未必合理和必要。因此,本文提出一种基于汉语音位信息的文本查重方法。文本被表达为声、韵、调三个空间向量,以余弦距离作相似性度量。提出两种相似性判断公式,一种假定三向量独立分布;一种取其线性组合,系数可由音位元素的信息熵算出,通过大文本统计得出信息熵的估计值,以传统的关键词向量/Sim Hash方法做参照产生语料,对其作统计得到模型参数。实验结果表明该方法有一定的精确率和很好的召回率,计算开销低于传统的方法,适合需要过滤大量TN类型文本的场合。  相似文献   

4.
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

5.
CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选择算法.该方法通过设置最低词频阈值去除了部分低频词,减少了CHI特征选择时低频词带来的干扰.同时本文对传统的TF-IDF特征权重计算方法进行了改进,在特征权重计算里加入改进后的CHI特征选择函数,使文本的表示更合理.通过在均衡语料和非均衡语料上的实验验证,新的方法有效提高了文本分类的效果.  相似文献   

6.
特征选择(Feature Selection)是基于向量空间模型的文本分类的首要任务和关键。本文对常用的七种特征选择算法进行了深入研究和比较,并提出今后特征选择研究的方向和目标。  相似文献   

7.
对基于向量空间模型的文本分类所涉及的关键技术:特征选取、特征向量表示方法、特征向量的维数、文本分类的评价标准进行了分析和研究.为了对比和验证文本分类在特征词选取方法,特征向量表示方法以及在不同维数下对分类的影响,选择了1 600篇中文农业网页进行正交实验,并对这些因素进行比较和分析,选出分类效果最好的组合.研究表明,当使用综合文档频(DFD)特征词选取方法选取特征词,用词频表示特征向量,特征向量维数为300维时,有较好的分类效果,平均查准率可以达到92.63%,平均召回率可以达到91.5%.  相似文献   

8.
对SVM分类器进行了分析,提取了汉语动词短语的静态特征和动态特征,构造了动词短语的向量空间模型,提出了基于SVM的汉语动词短语分类算法.实验表明:与基于规则的分类方法比较,SVM方法大大减少分类器更新所需要的学习步骤和时间,是一种较好的分类算法.  相似文献   

9.
以《同义词词林》为基础,结合云南种子植物特有属领域知识补充了《同义词词林》中该领域的词语,并提出了一种基于同义词词林的词语相似度改进算法。经过测试对比,在植物检索领域该计算方法比一般的基于同义词词林的词语相似度算法更加准确,而且召回率得到了明显提升,更适用于云南种子植物特有属领域信息的检索。  相似文献   

10.
中文医疗领域分词比较困难,导致现有算法对于医疗问题特征提取不充分,针对中文分词的特点,提出基于LCN(Lattice CNN,格子卷积神经网络)的医疗知识问答模型.首先,利用某三甲医院提供的15 000份电子住院记录,基于电子住院记录利用Glove模型训练医学词向量.其次,通过各大医疗网站获得大量医学名词及名词间的关系,构建医学知识图谱,并提取知识图谱中的关系词,结合已训练的词向量获取关系向量.最终,以医学词向量作为模型输入端并利用LCN神经网络提取医疗问题特征,计算问题特征与关系向量的相似度,进而训练医疗知识问答模型.实验表明, LCN模型准确率可达89.0%,与同类问答模型比较,提高了2%.  相似文献   

11.
目前,在基于HowNet进行语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想.为了更好地解决上述缺陷,提出了一种频率增强语句语义相似度算法.该算法利用HowNet作为词典库,在同时考虑义原距离和义原深度的条件下,进行词语相似度计算;在此基础上算法进一步将词语在语料库中的频率函数作为权重值,引入至语句的语义相似度计算中,以降低高频率词语在语句相似度值中的比重.实验表明,改进的算法在语句相似度计算结果上与人们的主观判断更接近,结果更合理.  相似文献   

12.
Remote diagnose of fish diseases for farmers is unrealized in China, but use of mobile phones and remote analysis based on image processing can be feasible due to the widespread use of mobile phones with camera features in rural areas. This paper presents a novel method of classifying species of fish based on color and texture features and using a multi-class support vector machine (MSVM). Fish images were acquired and sent by smartphone, and the method utilized was comprised of the following stages. Color and texture subimages of fish skin were obtained from original images. Color features, statistical texture features and wavelet-based texture features of the color and texture subimages were extracted, and six groups of feature vectors were composed. LIBSVM software was tested using leave-one-out cross validation to find the best group for classification in feature selection procedure. Two multi-class support vector machines based on a one-against-one algorithm were constructed for classification. The feature selection results showed that the Bior4.4 wavelet filter in HSV color space achieved greater accuracy than the other feature groups. The classification results indicate that only the DAGMSVM meets the requirement of time efficiency for the system. The results of this study suggest that the best classification model for fish species recognition is composed of a wavelet domain feature extractor with Bior4.4 wavelet filter in HSV color space and a one-against-one algorithm based DAGMSVM classifier.  相似文献   

13.
针对基于叶片特征进行树种识别的问题,本文在结合叶片纹理、不变矩以及传统形状共25维传统特征的基础上,自定义了叶尖角、边角均值等2个叶片轮廓特征,并以相似多边形定义及其推论作为理论依据,提出了一种基于叶片轮廓构建距离矩阵与角点矩阵进行树种识别的分类方法。该方法首先对树木叶片图像进行预处理,提取出归一化的叶片特征向量,然后利用KNN最近邻分类器筛选出相似度最高的前20个结果集(Top 20),然后构建距离矩阵和角点矩阵进行更为精确的识别匹配。在图像预处理阶段,为获取更为准确的叶片轮廓特征,利用叶片在HSV颜色空间中饱和度特征以及色度特征方面的显著差异性,设计了一种消除叶片阴影的图像预处理算法。在识别匹配阶段,利用Douglas Peucker approximation算法提取叶片轮廓的近似多边形,定义了距离矩阵、角点矩阵、矩阵中元素间相似度、矩阵相似度以及综合相似度计算方法,设计了全局匹配与局部匹配相结合的算法。该算法在Android系统的手机平台上进行了实现和运行验证,结果表明:在Flavia数据集中,对32种共1 907个正常叶片样本的识别准确率为99.61%,对32种共851个残叶样本的准确率为94.92%;在Leafsnap数据集中,对185种共23 147个Lab样本前5个结果集(Top 5)的识别准确率为98.26%。相对其他算法,该算法识别准确率更高,对叶片外形描述能力更强,对残叶、扭曲叶、阴影叶具有更好的鲁棒性,算法的实用性和适应性更强。   相似文献   

14.
鲍彤  罗瑞  郭婷  贵淑婷  任妮 《南方农业学报》2022,53(7):2068-2076
【目的】研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑。【方法】通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库。采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类。【结果】在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%。在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型。在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型。超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93....  相似文献   

15.
[目的/意义]开展面向数字人文的古籍触发动词识别及分类研究,对于古籍文本的深层次挖掘和内容揭示具有重大的意义.本文利用深度学习分类算法,探索依据古籍触发词进行事件句文本多元分类的自动化方法.[方法/过程]在构建了典籍事件触发词分类体系和触发词典的基础上,选取4个不同类别的事件句文本作为实验数据,利用Onehot和Tok...  相似文献   

16.
为了解决当前图像修复算法在待修复图像纹理结构较为丰富时易产生模糊效应以及块效应的问题,提出了一种基于梯度变换与最优似然法则的图像修复算法.首先,利用像素点对应的邻域方向特征来构造置信度,用以形成优先权因子.通过优先权因子对待修补块的优先级进行度量,从而确定最优修补块;然后,根据像素点的梯度变换,构造修补块尺寸选择模型,对修补块的尺寸进行自适应调整;最后,利用修补块与匹配块的内积关系、距离关系,分别构造余弦度量模型、相似度量模型,从而建立最优似然法则,从源区域中搜索最优匹配块,对待修复块进行填充修复.实验结果显示,与其他图像修复算法相比,本文算法具备更高的修复质量,能有效克服阶梯效应以及模糊效应.  相似文献   

17.
特征提取是储粮害虫图像识别中的重要环节,是识别系统的难点所在。针对粮虫的二值化图像提取出17个形态学特征;运用模拟退火算法从粮虫的17维形态学特征中提取出面积、周长等10个特征的最优特征子空间;采用支持向量机分类器对粮虫进行分类,识别率达到95.0000%以上,证实了基于模拟退火算法的粮虫特征提取的可行性。  相似文献   

18.
为解决水产养殖中的病害问题,采用TFIDF加权算法和动态规划的设计理念,结合余弦相似度模型,设计并实现了基于WEB的水产养殖病害诊断专家系统。该系统包括专家诊断模块、查询模块、浏览模块和专家在线更新模块,能自动对用户输入症状进行关键词提取并通过TFIDF算法加权,然后采用余弦相似度模型公式计算,得出输入文本与知识库中每篇文档的相似度,最后把相似度高的前3个疾病及其治疗方案作为诊断结果反馈给用户。经实验验证,该系统可以快速地对用户输入的病害症状进行正确诊断,可用于水产养殖生产实践中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号