排序方式: 共有3条查询结果,搜索用时 0 毫秒
1
1.
利用可变长语言模型对中文文档的关键词进行准确识别是中文信息处理中的一个重要问题.由于不存在n元语言模型的截断效应,对关键词检索的长度没有限制,因此增加了关键词识别的难度.利用PAT-tree技术设计了一个改进的可变长统计语言模型对中文文档中的关键词进行识别.在该模型基础上进行相关性检测实验.实验结果表明基于PAT-tree的改进语言模型能更好的识别关键词. 相似文献
2.
针对基于Web页面信息本体的信息抽取中,需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点,设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果,使用改进的TF·IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习,建立页面信息本体,减少建立本体的人工工作量。 相似文献
3.
提出一种基于矩阵加权关联规则的空间粒度聚类算法。该算法核心思想是根据文档特征向量矩阵提取文档的相似度,再在该关联规则算法上进行聚类来寻找相似关系的频繁项集。通过引入核函数,样本点被非线性变换映射到高维特征空间进行聚类,提高聚类性能。通过矩阵加权关联规则算法进行聚类。通过实验表明,在处理中小型文档时,该算法的精确度优于传统Apriori算法和K-mean算法;在处理大型文档时,该算法的时间复杂度小于传统的K-mean算法。 相似文献
1