文本聚类方法研究及其应用

文本聚类方法研究及其应用

论文摘要

随着互联网的不断深入发展,网络上堆积的数据日益庞大,并且大部分数据以文本的形式存储。文本的非数值性、复杂性等特点使得文本挖掘成为数据挖掘相关领域中的热点与难点。在与文本相关的一些应用中,如垃圾邮件甄别,文本分类方法受到了训练样本的限制,无法达到令人满意的效果。文本聚类方法由于具有无监督的学习能力,成为人们寻求解决这些问题的一个重要方向。文本聚类方法主要包括文本表示模型和文本聚类算法。目前大多数文本表示模型都是以词条为基本单位进行建立的,这使得模型数据具有高维与稀疏的特点。在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接对高维数据进行有效的聚类,需要通过一些特殊的处理。本文在常用的矢量空间模型(VSM)基础上,以聚类算法为出发点,研究如何基于不同的聚类算法建立相应的文本聚类方法。通过研究传统文本聚类方法的聚类过程,分析了传统方法对于聚类算法的要求,继而提出了一种具有鲁棒性的数据点收缩聚类算法,并在此基础上建立相应的文本聚类方法;通过分析传统文本聚类方法在维度约简方式上存在的不足,提出了一种子空间聚类算法,并在此基础上建立相应的文本子空间聚类方法。本文的主要工作如下:1.研究层次型聚类算法CURE,通过将其代表点收缩的思想与网格密度概念相结合,从而达到对数据分布更为细致的度量,在此基础上提出一种基于数据点收缩的网格聚类算法,并通过实验验证了算法的有效性;2.在网格聚类算法基础上建立了相应的文本聚类方法,并将其应用于垃圾邮件甄别与中文文本聚类领域;3.着重研究了子空间聚类算法,通过分析现有软子空间聚类算法在聚类结果稳定性和初始化方面存在的不足,提出一种专门处理文本数据的子空间聚类算法与相应的初始化算法;4.基于上述子空间聚类算法建立了文本子空间聚类方法并应用于垃圾邮件甄别与中文文本聚类领域;通过实验分析了该方法在维度处理上的优势。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及选题意义
  • 1.2 研究现状及存在问题
  • 1.3 本文研究内容与特色
  • 1.4 本文结构安排
  • 第二章 文本聚类方法及其应用
  • 2.1 文本聚类
  • 2.2 文本表示模型
  • 2.2.1 文本预处理
  • 2.2.2 矢量空间模型
  • 2.2.3 其他模型
  • 2.2.4 特征加权
  • 2.3 文本聚类算法
  • 2.3.1 维度约简
  • 2.3.2 传统聚类算法
  • 2.3.3 子空间聚类算法
  • 2.3.4 其他聚类算法
  • 2.4 文本聚类方法的应用
  • 2.5 本文研究重点与研究框架
  • 2.6 小结
  • 第三章 基于数据点收缩的文本聚类方法
  • 3.1 引言
  • 3.2 相关工作
  • 3.2.1 CURE算法
  • 3.3.2 DBSCAN算法
  • 3.3 基于数据点收缩的网格聚类算法
  • 3.3.1 算法思想
  • 3.3.2 数据点的收缩
  • 3.3.3 算法流程
  • 3.3.4 算法时间复杂度分析
  • 3.3.5 算法参数分析
  • 3.3.6 实验分析
  • 3.4 基于数据点收缩的文本聚类方法及其应用
  • 3.4.1 方法流程
  • 3.4.2 文本聚类结果评估
  • 3.4.3 在垃圾邮件甄别中的应用
  • 3.4.4 在中文文本分类中的应用
  • 3.5 小结
  • 第四章 文本子空间聚类方法
  • 4.1 相关工作
  • 4.1.1 硬子空间聚类算法
  • 4.1.2 软子空间聚类算法
  • 4.2 子空间聚类算法CWKM
  • 4.2.1 算法流程
  • 4.2.2 初始化算法WGREEDY
  • 4.2.3 启发式维度加权公式
  • 4.2.4 导出式维度加权公式
  • 4.3 文本子空间聚类方法及其应用
  • 4.3.1 方法流程
  • 4.3.2 文本子空间聚类方法的应用
  • 4.4 小结
  • 第五章 文本聚类系统设计
  • 5.1 文本聚类系统模型
  • 5.2 系统框架设计
  • 5.3 系统功能模块
  • 5.4 系统开发环境
  • 5.5 数据表设计
  • 5.6 系统功能界面
  • 5.6.1 文本管理
  • 5.6.2 文本聚类
  • 5.6.3 文本检索
  • 5.7 小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 攻读硕士期间科研成果
  • 致谢
  • 相关论文文献

    • [1].基于分式函数约束的稀疏子空间聚类方法[J]. 计算机工程与应用 2020(07)
    • [2].基于空间聚类的外业导航路线生成方法[J]. 工程勘察 2020(07)
    • [3].稀疏子空间聚类算法研究[J]. 现代计算机 2020(16)
    • [4].结构加权相关自适应子空间聚类[J]. 计算机工程与应用 2020(13)
    • [5].一种基于块对角表示和近邻约束的子空间聚类方法[J]. 计算机科学 2020(07)
    • [6].鲁棒的谱增强子空间聚类[J]. 电子世界 2019(01)
    • [7].一种新的子空间聚类方法[J]. 有线电视技术 2017(12)
    • [8].基于变化率的子空间聚类算法[J]. 软件导刊 2017(01)
    • [9].改进的稀疏子空间聚类算法[J]. 火力与指挥控制 2017(03)
    • [10].基于光滑近邻表示的基因表达数据子空间聚类[J]. 控制与决策 2017(07)
    • [11].一种基于顺序特性的子空间聚类方法[J]. 计算机科学 2016(03)
    • [12].局部子空间聚类[J]. 自动化学报 2016(08)
    • [13].稀疏子空间聚类综述[J]. 自动化学报 2015(08)
    • [14].基于混合高斯回归的子空间聚类视频火焰检测[J]. 科学家 2017(16)
    • [15].基于投影的鲁棒低秩子空间聚类算法[J]. 计算机科学 2020(06)
    • [16].空间序列低秩稀疏子空间聚类算法[J]. 江苏理工学院学报 2020(04)
    • [17].不同耕地空间聚类算法的对比分析研究[J]. 测绘与空间地理信息 2019(01)
    • [18].预测子空间聚类的聚类集成算法[J]. 小型微型计算机系统 2017(04)
    • [19].基于协同表示的子空间聚类[J]. 模式识别与人工智能 2017(03)
    • [20].稀疏低秩子空间聚类算法[J]. 青岛大学学报(自然科学版) 2017(03)
    • [21].图像分割的改进稀疏子空间聚类方法[J]. 系统工程与电子技术 2015(10)
    • [22].基于重建系数的子空间聚类融合算法[J]. 计算机应用研究 2015(11)
    • [23].类属型数据核子空间聚类算法[J]. 软件学报 2020(11)
    • [24].图像分割的加权稀疏子空间聚类方法[J]. 系统工程与电子技术 2014(03)
    • [25].基于属性最大间隔的子空间聚类[J]. 南京大学学报(自然科学) 2014(04)
    • [26].中性游走驱动的进化子空间聚类算法[J]. 小型微型计算机系统 2019(03)
    • [27].基于自表征和群组效应的子空间聚类算法[J]. 计算机工程与设计 2017(02)
    • [28].基于稀疏子空间聚类的人脸识别方法[J]. 火力与指挥控制 2017(04)
    • [29].混合最小二乘回归的稀疏子空间聚类算法[J]. 计算机应用与软件 2017(10)
    • [30].融合地理-社会关系的空间聚类方法[J]. 小型微型计算机系统 2017(11)

    标签:;  ;  ;  ;  

    文本聚类方法研究及其应用
    下载Doc文档

    猜你喜欢