论文摘要
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。文本聚类技术具有较强的灵活性和自动处理能力,已经成为对文本信息进行有效地组织和导航的重要手段。本文是在对文本聚类的整个过程深入研究的基础上,利用潜在语义索引(Latent Semantic Indexing,LSI)在处理语义和降维方面的优势,以目前常用K-means聚类算法为主要框架,探索和研究潜在语义索引在文本聚类中的应用。本文的目的是研究具有更高效性能的文本聚类算法,并尝试从语义上更好的对文本进行聚类。本文的主要研究工作如下:首先,文本预处理作为文本聚类最重要的基础,许多关键技术直接影响了文本聚类的最终结果。本文对文本聚类预处理中的关键技术:关键词抽取和文本向量化作了比较系统深入的研究,这为后文的聚类实践打下了坚实的基础。其次,针对传统K-means聚类算法聚类结果不稳定的问题,本文对该算法进行了改进。改进包括:(1)采用一种基于最小最大原则的K-means初始分布选择方法来自动选择该算法的k参数;(2)用向量之间的余弦相似度而不是欧氏距离作为文档之间的相似度;(3)增加迭代收敛条件,使得最终的聚类结果能够趋于稳定,即使是随机选取聚类初始中心。再次,作为一种重要的自然语言处理应用,文档聚类具有高维和语义相关的特点,因此影响文档聚类结果的因素除了文档聚类算法的选择以外,还包括语义问题的处理和降维问题,如何有效地降维已经成为文本聚类效率提高的难点和热点。本文将潜在语义索引应用于文本聚类当中,通过奇异值分解(Singular Value Decomposition,SVD)和半离散矩阵分解(Semi-DiscreteDecomposition,SDD)方法分别对文本预处理后的向量文件进行分解,再对消除噪声后的向量空间进行聚类,试验结果验证了该方法的有效性。本文最后通过对多个预处理后的语料进行聚类实验,并对实验结果进行比较分析。多次试验结果证明了上述对现有文本聚类算法改进的有效性。实验证明,基于潜在语义索引的文本聚类算法绕过了现有语言规则,通过规则与统计相结合更好地实现了自然语言理解。