基于FVSM的核聚类算法在文本聚类中的应用 |
| |
作者姓名: | 杨延锟 许少华 |
| |
作者单位: | 大庆石油学院计算机与信息技术学院,黑龙江,大庆,163318;大庆石油学院计算机与信息技术学院,黑龙江,大庆,163318 |
| |
基金项目: | 黑龙江省自然科学基金项目;黑龙江省普通高等学校骨干教师创新能力资助计划项目;黑龙江省科技攻关项目 |
| |
摘 要: | 针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法。首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量。最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类。该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法。以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。
|
关 键 词: | 模糊向量空间模型 文本聚类 核聚类算法 |
本文献已被 维普 万方数据 等数据库收录! |
|