论文摘要
在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。特别是在互联网上,文本数据广泛地存在于各种形式,如新闻报道、电子图书、研究论文、数字图书馆、网页、电子邮件等等。人们迫切需要能够从中快速、有效地发现资源和知识的工具。近年来针对文本数据的文本挖掘已逐渐成为人们研究的新课题。其中,对于文本聚类的研究己经引起了广泛的重视,并取得了良好的成果。本文首先对文本挖掘和聚类分析做了深入的理论研究,回顾了文本挖掘的国内外研究现状及其跟相近领域的关系;以数学的形式表示和讨论了聚类分析中数据的类型、距离、相似系数等基本概念;分析了五种常用的聚类算法,并对各种算法的性能做了分析与比较。本文随后对文本预处理过程和方法做了研究,讨论了将无结构的文本数据转化为聚类算法可以处理的结构化数据的方法。预处理的质量直接影响到了最终的挖掘结果,我们结合文本挖掘的特点对文本预处理过程做了详细的介绍。最后,本文阐述一种主题发现系统。它能发现新数据流中的隐含知识,并将其表述为含有主题/副主题的层次树。每个主题包含与其相关的文档集和文档摘要,以便于用户从生成的层次树中浏览和选择所需主题。我们提出一种增量层次聚类算法,它结合划分聚类和凝聚聚类的主要优点。另外,我们还利用一种基于模式识别中的测试理论的方法为每一层标题提供摘要。实验结果表明,无论是作为主题检测系统还是分类和概括工具,本算法都是高效的。
论文目录
摘要ABSTRACT第一章 绪论1.1 文本挖掘概述1.1.1 文本挖掘的定义1.1.2 文本挖掘的过程1.1.3 文本挖掘的应用1.2 文本挖掘的研究现状1.2.1 文本特征表示1.2.2 基于关键字的关联分析1.2.3 文本分类1.2.4 文本聚类1.3 文本挖掘与相近领域的关系1.3.1 自然语言处理与文本挖掘的区别1.3.2 文本挖掘与相关领域的交叉1.4 论文内容的安排第二章 聚类分析2.1 聚类分析的概述2.1.1 聚类分析定义2.1.2 聚类分析的应用2.1.3 距离与相似系数2.1.4 聚类的特征与聚类间的距离2.2 聚类分析的数据类型2.2.1 区间标度变量2.2.2 二元变量2.2.3 标称型、序数型和比例标度型变量2.2.4 混合类型的变量2.3 聚类分析方法2.3.1 分层聚类法2.3.2 分割聚类算法2.3.3 基于密度的方法2.3.4 基于网格的方法2.3.5 基于模型的方法2.4 文本聚类评估第三章 文本预处理3.1 文本表示3.1.1 向量空间模型3.1.2 特征项的权值计算3.2 文本特征选择和抽取3.2.1 文本预处理3.2.2 文本特征选择和抽取3.3 文档相似度计算方法3.3.1 Set/Bag 模型3.3.2 基于向量的相似度计算3.3.3 广义向量空间模型(GVSM)3.4 特征降维3.5 去除重复文本第四章 文本聚类系统的设计与实现4.1 系统整体结构4.1.1 文档预处理4.1.2 文档表示4.2 文档聚类算法4.2.1 簇表示4.2.2 增量聚类算法4.3 簇描述方法4.3.1 概括方法4.3.2 将测试样本理论应用于项集4.4 实验和结果4.5 结论第五章 总结与展望致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:文本聚类论文; 主题发现论文; 层次方法论文; 文本挖掘论文;