首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
作者在前期研究工作中提出了一种基于网格的带有参考参数的聚类算法(GRPC),该算法从用户的角度去看待聚类,最大程度地避免用户设置聚类参数的盲目性.本文对GRPC算法在高维性和可伸缩性两方面进行了扩展,将高维数据空间的聚类工作分解到二维数据空间来进行,并采用随机抽样技术来处理大规模的数据集.实验仿真表明,该算法能在三维及其以上的数据空间有效地聚类较大规模数据集.  相似文献   

2.
由于语言上的差异,中文垃圾邮件过滤与英文邮件在信息处理技术上差别较大.针对中文垃圾邮件过滤的邮件训练集、过滤规则和分类器特征库更新不及时,经常出现误判和漏判等问题,以文本分类技术为基础,将基于规则方法和Bayes分类方法相结合,设计了一种中文垃圾邮件过滤方法,详细阐述了中文邮件过滤的邮件预处理、中文分词、特征选取等技术.试验结果表明,该方法可以明显改善中文垃圾邮件过滤效果.  相似文献   

3.
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题.模型能更精确地对文本建模,具有良好的性能.  相似文献   

4.
KNN和SVM算法在中文文本自动分类技术上的比较研究   总被引:3,自引:0,他引:3  
中文文本分类技术在中文信息智能处理方面具有十分重要的作用,比如:中文信息检索和搜索引擎等,KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。  相似文献   

5.
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。  相似文献   

6.
提出一种基于左归词频向量空间模型的抄袭检测算法.通过左归处理将抄袭文本的指代还原,借助同义词链对所有同义词统一左对齐于同义词链首词,然后以直接统计词频构造文本词频特征,抛弃词频统计抄袭检测算法中以TF-IDF多步计算相对词频的处理,最后以词频特征构造向量空间模型,用余弦相似计算文本相似度.实验表明,算法在各种抄袭类型的数据集上综合性能更优、稳定性更好、效率更高.  相似文献   

7.
针对棉花病虫害文本语料数据匮乏且缺少中文命名实体识别语料库,棉花病虫害实体内容复杂、类型多样且分布不均等问题,构建了包含11种类别的棉花病虫害中文实体识别语料库CDIPNER,提出了一种基于RoBERTa多特征融合的命名实体识别模型。该模型采用掩码学习能力更强的RoBERTa预训练模型进行字符级嵌入向量转换,通过BiLSTM和IDCNN模型联合抽取特征向量,分别捕捉文本的时序和空间特征,使用多头自注意力机制将抽取的特征向量进行融合,最后利用CRF算法生成预测序列。结果表明,该模型对于棉花病虫害文本中命名实体的识别精确率为96.60%,召回率为95.76%,F1值为96.18%;在ResumeNER等公开数据集上也有较好的效果。表明该模型能有效地识别棉花病虫害命名实体且具有一定的泛化能力。  相似文献   

8.
本文根据汉字内码的特点,利用异或哈希算法建立中文词库和查找中文词组。根据不同规模的中文词库,给出了相应的改进算法,对实际的中文词库测试表明,此哈希算法分布均匀,冲突较少,且速度快,因此具有较好的实用性。  相似文献   

9.
提出了一种基于HMM的网络异常入侵建模方法,使用隐马尔可夫模型中的Baum-welch算法识别攻击者攻击意图,给出了计算P(O|λ)和阈值的算法。仿真实验数据基于林肯实验室提供的入侵检测数据集,对系统进行了测试与性能分析,并与Snort系统比较,具有一定的应用价值。  相似文献   

10.
提出一种基于粒子群优化算法和小波变换的无限制文本倾斜检查方法.首先对扫描的文本图像进行小波变换,然后利用小波变换的水平细节子带提取反映图像倾斜的特征,作为粒子群优化算法的适应度函数.最后利用粒子群优化算法在-90°到90°区间进行搜索,得到准确的倾斜角度.由于采用了小波变换,一方面降低了PSO搜索的计算量,又能更好地反映倾斜特征.实验结果表明,该方法能快速准确地检测出各类文本图像的倾斜角度,并具有很好的适应性,不受语言、字体、字号和非文本图形等因素的影响.最后还讨论了粒子数目、迭代次数和适应度函数对算法性能的影响.  相似文献   

11.
近年来,TSP问题的应用非常广,但当前较成熟的算法大都基于局部优化,而局部优化往往无法求出最优解。研究了一种求解TSP问题的演化算法,该算法兼顾了两父体算子与一元算子的优点,并具有免疫算法的免疫记忆功能,是一个具有较强的选择压力和适应地改变的变化算子的演化算法。与其他遗传算法和免疫算法相比具有收敛速度更快,结果更优的特点。  相似文献   

12.
高速公路可变限速控制是减少拥挤和事故发生的有效方法,是近年来高速公路研究领域的热点.对高速公路可变限速控制算法进行综述分析,根据控制区域的不同将算法分成主线可变限速控制和主线与匝道可变限速协调控制两大类,从这两大类算法出发,分别总结不同算法的应用现状,指出目前研究中存在的主要问题,结合最新成果对未来研究的方向进行分析.  相似文献   

13.
《数据结构》课程中的案例教学初探   总被引:10,自引:0,他引:10  
李克清 《长江大学学报》2004,1(4):135-136,i006
针对<数据结构>教学过程中存在着的"重知识传授,轻编程实践"矛盾,在教学过程中引进案例教学模式,提出了课堂引导案例与深化讨论案例的设计.教师精心准备典型案例,积极引导学生阅读、思考、分析、讨论和实践,收到了良好的教学效果.  相似文献   

14.
文章阐述了使用JAVA编程语言实现图算法的可视化,利用JAVA语言的面向对象特性和MVC模式在JAVA Swing中的应用,以此为基础逐步将图算法在这个框架上一一实现。  相似文献   

15.
[目的/意义]从海量微博舆情用户评论文本中快速挖掘用户关注内容,能够帮助舆情管控主体更高效得对微博舆情演进和发展态势进行管理。[方法/过程]本文以新浪微博为例,基于主题图谱理论和文本挖掘方法构建微博舆情用户评论主题图谱,使用CiteSpace进行可视化分析,通过应用不同文本相似度算法、网络优化算法和文本聚类算法构建二维主题图谱并分析图谱的结构特征。[结果/结论]构建的微博舆情主题图谱能够帮助舆情管理者快速准确识别用户关注内容,同时对社交媒体上用户发布文本管理,预测舆情演化趋势,防止不良舆情滋生和扩散都具有重要作用。  相似文献   

16.
针对目前基于规则和基于统计的文本分类方法存在的不足,提出了一种新颖的基于规则和K-近邻分类相融合的文本分类方法。首先,对描述文本特征的传统向量空间模型进行了扩充,给出了具体的扩展模型。然后,基于扩展模型提出了一种规则的表示方法,并为每一条规则赋予了一个强弱系数,根据这个系数可以对识别的文本按级别排序。最后,通过设定一个阀值,将级别低于阀值的文本过滤掉。该方法可有效地排除被K-近邻分类误识别的那些文本,从而在一定程度上提高了分类的正确率。通过小数据集测试实验结果表明,该方法是有效的、可行的。  相似文献   

17.
[目的/意义]政府新闻文本是政策文本的表达形式之一。对政府新闻文本进行挖掘分析,能直观的展现表面动态,揭示对话事件的立场及其背后关系,能对情报分析工作、中国新型智库的发展建设,提供有效的助力。[方法/过程]文章利用TextRank算法进行核心句提取,并结合批评话语分析理论框架来做评估,以语料驱动从关键句、关键词两个宏观角度讨论政府决策态度,以词性从话语策略的微观角度总结美国官方对人工智能和5G领域的话语认知形象。[结果/结论]通过分析可以看出,美国政府对于人工智能和5G领域的态度将持续保持在“政府引领下的美国需优先”这一局面,面对发展中国家的科技竞争,增加政府政策性文本的指导无疑是最好的对策建议。  相似文献   

18.
在简要介绍了RNA的基础知识之后,对RNA二级结构的定义、表示方法、数据库等内容进行了详细阐述,并重点探讨了RNA二级结构预测方法的原理、适用范围及优缺点.目前,传统的RNA二级结构预测方法有比较序列分析法和最小自由能算法;新进发展的算法有支持向量机算法、基于堆积协变信息与最小自由能算法、基于局部茎搜索的算法、基于快速动态权重匹配算法、免疫粒子群算法、基于茎区的自由能算法、质心法.经过预测精度、复杂度、预测假节能力的对比,发现基于堆积协变信息与最小自由能算法和基于快速动态权重匹配算法,预测结果比较理想.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号