基于信息论的特征加权和主题驱动协同聚类算法研究

论文摘要

文本数据常用文档-词二维共现矩阵表示,大多数传统聚类算法属于单向聚类,即要么是对样本进行聚类,要么是对特征进行聚类,没有考虑到样本和特征之间自然存在的相互关系。尤其对高维、稀疏、带噪声数据,传统单向聚类方法在精度上很难满足实际需求。基于信息论的协同聚类算法从信息论的角度捕获了行列之间自然关系,同时从行向和列向进行聚类,相互协助、相互约束,对高维、稀疏数据也能起到高效聚类的效果。但该方法也存在一些不足,如没有考虑特征的重要性,另外该方法是一个无监督的学习过程,聚类后簇的可解释性不强,在聚类精度上也有提高的空间等。本文在基于信息论的协同聚类算法以及参考已有研究方法的基础上,做了两点探索性改进,即在原有无监督聚类的基础上,引入了主题知识,并对特征进行了加权处理。提出了无监督的特征加权的协同聚类算法和半监督的主题驱动的协同聚类算法两个改进算法。特征加权协同聚类算法用互信息计算特征权值,突出有效特征的重要性,在聚类精度和运行时间上得到了提高。在主题驱动的协同聚类算法中,首先建立了一个基于维基百科和开放分类目录的主题语料库,该语料库中定义了每个主题的描述和层次;然后通过协同聚类的方法将主题知识传播到文本聚类过程中,我们的目标是将相同主题下的文档聚在一起。通过实验证明,在聚类精度上我们提出的两个改进算法能得了更好的聚类结果。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景和意义

1.2 国内外相关研究和综述

1.2.1 聚类算法研究现状

1.2.2 Co-Clustering 算法研究现状

1.2.3 主题驱动文本聚类算法研究现状

1.3 研究问题的定义

1.4 本文的结构安排

第2章 Co-clustering 算法综述

2.1 引言

2.2 Co-clustering 算法

2.2.1 Co-clustering 算法思想

2.2.2 Co-clustering 与单向聚类算法的区别

2.2.3 Co-clustering 算法应用

2.3 基于信息论的 Co-clustering 算法

2.3.1 ITCC 算法中的几个基本概念

2.3.2 ITCC 算法思想

2.3.3 ITCC 算法流程

2.3.4 ITCC 算法时间复杂度分析

2.3.5 ITCC 算法目标函数的收敛性分析

2.3.6 ITCC 算法的不足

2.4 本章小结

第3章基于信息论的特征加权协同聚类算法

3.1 特征加权的理论基础

3.2 模拟实验

3.2.1 噪声定义及处理方法分析

3.2.2 模拟数据生成方法

3.2.3 特征权重计算

3.2.4 特征加权的协同聚类算法模拟实验

3.3 文本表示及特征选择

3.3.1 文本表示

3.3.2 特征选择

3.3.3 特征权重计算

3.4 特征加权的 Co-clustering 算法

3.4.1 算法描述

3.4.2 算法分析

3.5 实验与分析

3.5.1 数据描述

3.5.2 实验实现细节

3.5.3 实验结果及分析

3.6 本章小结

第4章基于信息论的主题驱动协同聚类算法

4.1 主题驱动的 Co-clustering 算法的理论基础

4.2 主题模型定义

4.2.1 主题信息来源

4.2.2 Wikipedia 页面的信息特征

4.2.3 主题信息层次语义模型定义

4.2.4 主题信息特征模型定义

4.3 主题驱动的 Co-clustering 算法

4.3.1 算法描述

4.3.2 算法分析

4.4 实验与分析

4.4.1 数据描述

4.4.2 实验结果及分析

4.5 本章小结

第5章算法设计与实现

5.1 系统的基本目标

5.2 系统总体设计

5.3 系统详细设计

5.3.1 数据转换模块

5.3.2 主题模型构建模块

5.3.3 数据预处理模块

5.3.4 聚类引擎模块

5.4 本章小结

结论

参考文献

致谢

个人简历

基于信息论的特征加权和主题驱动协同聚类算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢