基于线性回归模型的单词加权LDA主题识别方法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于线性回归模型的单词加权LDA主题识别方法研究

摘要：	针对社会化标签系统下Web资源存在大量潜在知识以及资源之间存在着独立性的问题,提出一种基于线性回归模型的单词加权潜在狄利克雷分布(LDA)的主题识别方法。通过线性回归模型建立任意文本资源之间的拟合函数,使用拟合函数获取每个资源的权重值,解决资源之间存在独立同分布的问题,并对拟合函数的数据点进行加权操作,进而实现语料库中每个单词的加权,最终获得字典单词的权重系数。在单词加权基础上建立单词加权LDA模型,通过吉布斯采样对Web资源的潜在主题进行深入挖掘。实验结果表明,相比传统主题模型,新的单词加权LDA算法在Web资源上具有更好的主题识别效果。
本文献已被 CNKI 等数据库收录！