论文摘要
随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效的获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。近年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本聚类技术得到了空前的发展,引起了人们普遍的关注。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。本文以中文文本作为文本聚类的挖掘对象,并对中文文本聚类的全过程进行了研究,包括中文文本预处理、文本聚类,对文中所述方法进行了实验分析,并设计了一个系统,实现了文本聚类的功能。本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次,分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分,结合退一字回溯扫描的方法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用tfidf评估函数。接着,针对中文文本的聚类,本文采用了基于k-平均算法的二次文本聚类方法:先对文本集采用k-平均算法进行聚类,其中,参数k的确定是通过计算在一定范围内,k取不同值的情况下,使全体样本点的平均轮廓系数最大化的k值实现的;而初始聚类中心的选择是通过基于样本密度的方法实现的。并且,通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果,若某个簇包含的样本个数大大超过其它簇的样本个数,则对该簇再次进行聚类。最后,设计了一个文本聚类系统,测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。