基于k-平均算法的文本聚类系统研究与实现

基于k-平均算法的文本聚类系统研究与实现

论文摘要

随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效的获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。近年来,作为解决这些问题的基本工具之一,基于文本内容的自动文本聚类技术得到了空前的发展,引起了人们普遍的关注。文本聚类的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。作为文本挖掘的一个重要应用,文本聚类已经成为一个研究热点。本文以中文文本作为文本聚类的挖掘对象,并对中文文本聚类的全过程进行了研究,包括中文文本预处理、文本聚类,对文中所述方法进行了实验分析,并设计了一个系统,实现了文本聚类的功能。本文首先介绍了文本挖掘的研究背景、研究意义、研究现状和相关基本理论知识。其次,分析研究了文本的预处理过程,重点研究了中文文本的分词问题。本文采用基于词典的正向最大匹配法实现文本初切分,结合退一字回溯扫描的方法发现歧义字段,对歧义字段的处理采取的是基于统计词频的方法。对文本预处理的特征表示与特征选择进行了探讨,本文采用向量空间模型(VSM)对文本进行表示;而文本的特征选择则采用tfidf评估函数。接着,针对中文文本的聚类,本文采用了基于k-平均算法的二次文本聚类方法:先对文本集采用k-平均算法进行聚类,其中,参数k的确定是通过计算在一定范围内,k取不同值的情况下,使全体样本点的平均轮廓系数最大化的k值实现的;而初始聚类中心的选择是通过基于样本密度的方法实现的。并且,通过实验说明了采用这两种方法确定初始参数的可行性。对于首次聚类的结果,若某个簇包含的样本个数大大超过其它簇的样本个数,则对该簇再次进行聚类。最后,设计了一个文本聚类系统,测试了本文设计的中文文本二次聚类方法的聚类效果。测试结果表明,该系统能够达到将同类文本聚类的目的。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景
  • 1.2 研究的意义
  • 1.3 研究现状
  • 1.4 本文的主要内容及组织
  • 第2章 文本聚类关键技术
  • 2.1 自动分词
  • 2.1.1 基于词典的分词方法
  • 2.1.2 基于理解的分词方法
  • 2.1.3 基于统计的分词方法
  • 2.2 文本表示模型
  • 2.2.1 布尔模型
  • 2.2.2 向量空间模型
  • 2.2.3 概率模型
  • 2.3 特征项的选择
  • 2.3.1 信息增益
  • 2.3.2 互信息
  • 2(CHI)统计'>2.3.3 x2(CHI)统计
  • 2.4 特征项的权重计算
  • 2.5 中文文本聚类算法
  • 2.5.1 划分聚类方法
  • 2.5.2 层次聚类方法
  • 2.5.3 基于密度的聚类方法
  • 2.5.4 基于网格的方法
  • 2.5.5 基于模型的方法
  • 2.6 本章小结
  • 第3章 文本预处理设计与实验
  • 3.1 分词模块设计
  • 3.1.1 分词设计
  • 3.1.2 歧义字段识别与处理
  • 3.1.3 中文文本分词实验
  • 3.2 文本表示设计
  • 3.2.1 特征缩减设计
  • 3.2.2 特征表示设计
  • 3.3 本章小结
  • 第4章 文本聚类设计与实验
  • 4.1 传统的k-平均算法
  • 4.2 初始参数的确定
  • 4.2.1 参数k的确定
  • 4.2.2 确定参数k的实验结果
  • 4.2.3 已有的初始聚类中心的选择方法
  • 4.2.4 基于密度的初始聚类中心选择方法
  • 4.2.5 确定初始聚类中心的实验结果
  • 4.3 基于k-平均值的文本二次聚类算法
  • 4.4 本章小结
  • 第5章 系统实现与实验结果分析
  • 5.1 系统的实现
  • 5.1.1 系统开发平台
  • 5.1.2 系统结构
  • 5.2 实验结果评价
  • 5.2.1 实验数据集
  • 5.2.2 聚类实验结果分析
  • 5.3 本章小结
  • 第6章 总结
  • 参考文献
  • 致谢
  • 攻读硕士学位发表论文和参加科研情况
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于k-平均算法的文本聚类系统研究与实现
    下载Doc文档

    猜你喜欢