聚类分析在文本挖掘中的应用与研究

聚类分析在文本挖掘中的应用与研究

论文摘要

在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。特别是在互联网上,文本数据广泛地存在于各种形式,如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。人们迫切需要能够从中快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究己经引起了广泛的重视,并取得了良好的成果。本文首先对文本挖掘和聚类分析做了深入的理论研究,回顾了文本挖掘的国内外研究现状及其跟相近领域的关系;以数学的形式表示和讨论了聚类分析中数据的类型、距离、相似系数等基本概念;分析了五种常用的聚类算法,并对各种算法的性能做了分析与比较。本文随后对文本预处理过程和方法做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法。预处理的质量直接影响到了最终的挖掘结果,我们结合文本挖掘的特点对文本预处理过程做了详细的介绍。最后,本文阐述一种主题发现系统。它能发现新数据流中的隐含知识,并将其表述为含有主题/副主题的层次树。每个主题包含与其相关的文档集和文档摘要,以便于用户从生成的层次树中浏览和选择所需主题。我们提出一种增量层次聚类算法,它结合划分聚类和凝聚聚类的主要优点。另外,我们还利用一种基于模式识别中的测试理论的方法为每一层标题提供摘要。实验结果表明,无论是作为主题检测系统还是分类和概括工具,本算法都是高效的。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 文本挖掘概述
  • 1.1.1 文本挖掘的定义
  • 1.1.2 文本挖掘的过程
  • 1.1.3 文本挖掘的应用
  • 1.2 文本挖掘的研究现状
  • 1.2.1 文本特征表示
  • 1.2.2 基于关键字的关联分析
  • 1.2.3 文本分类
  • 1.2.4 文本聚类
  • 1.3 文本挖掘与相近领域的关系
  • 1.3.1 自然语言处理与文本挖掘的区别
  • 1.3.2 文本挖掘与相关领域的交叉
  • 1.4 论文内容的安排
  • 第二章 聚类分析
  • 2.1 聚类分析的概述
  • 2.1.1 聚类分析定义
  • 2.1.2 聚类分析的应用
  • 2.1.3 距离与相似系数
  • 2.1.4 聚类的特征与聚类间的距离
  • 2.2 聚类分析的数据类型
  • 2.2.1 区间标度变量
  • 2.2.2 二元变量
  • 2.2.3 标称型、序数型和比例标度型变量
  • 2.2.4 混合类型的变量
  • 2.3 聚类分析方法
  • 2.3.1 分层聚类法
  • 2.3.2 分割聚类算法
  • 2.3.3 基于密度的方法
  • 2.3.4 基于网格的方法
  • 2.3.5 基于模型的方法
  • 2.4 文本聚类评估
  • 第三章 文本预处理
  • 3.1 文本表示
  • 3.1.1 向量空间模型
  • 3.1.2 特征项的权值计算
  • 3.2 文本特征选择和抽取
  • 3.2.1 文本预处理
  • 3.2.2 文本特征选择和抽取
  • 3.3 文档相似度计算方法
  • 3.3.1 Set/Bag 模型
  • 3.3.2 基于向量的相似度计算
  • 3.3.3 广义向量空间模型(GVSM)
  • 3.4 特征降维
  • 3.5 去除重复文本
  • 第四章 文本聚类系统的设计与实现
  • 4.1 系统整体结构
  • 4.1.1 文档预处理
  • 4.1.2 文档表示
  • 4.2 文档聚类算法
  • 4.2.1 簇表示
  • 4.2.2 增量聚类算法
  • 4.3 簇描述方法
  • 4.3.1 概括方法
  • 4.3.2 将测试样本理论应用于项集
  • 4.4 实验和结果
  • 4.5 结论
  • 第五章 总结与展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    聚类分析在文本挖掘中的应用与研究
    下载Doc文档

    猜你喜欢