论文摘要
随着互联网的不断深入发展,网络上堆积的数据日益庞大,并且大部分数据以文本的形式存储。文本的非数值性、复杂性等特点使得文本挖掘成为数据挖掘相关领域中的热点与难点。在与文本相关的一些应用中,如垃圾邮件甄别,文本分类方法受到了训练样本的限制,无法达到令人满意的效果。文本聚类方法由于具有无监督的学习能力,成为人们寻求解决这些问题的一个重要方向。文本聚类方法主要包括文本表示模型和文本聚类算法。目前大多数文本表示模型都是以词条为基本单位进行建立的,这使得模型数据具有高维与稀疏的特点。在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接对高维数据进行有效的聚类,需要通过一些特殊的处理。本文在常用的矢量空间模型(VSM)基础上,以聚类算法为出发点,研究如何基于不同的聚类算法建立相应的文本聚类方法。通过研究传统文本聚类方法的聚类过程,分析了传统方法对于聚类算法的要求,继而提出了一种具有鲁棒性的数据点收缩聚类算法,并在此基础上建立相应的文本聚类方法;通过分析传统文本聚类方法在维度约简方式上存在的不足,提出了一种子空间聚类算法,并在此基础上建立相应的文本子空间聚类方法。本文的主要工作如下:1.研究层次型聚类算法CURE,通过将其代表点收缩的思想与网格密度概念相结合,从而达到对数据分布更为细致的度量,在此基础上提出一种基于数据点收缩的网格聚类算法,并通过实验验证了算法的有效性;2.在网格聚类算法基础上建立了相应的文本聚类方法,并将其应用于垃圾邮件甄别与中文文本聚类领域;3.着重研究了子空间聚类算法,通过分析现有软子空间聚类算法在聚类结果稳定性和初始化方面存在的不足,提出一种专门处理文本数据的子空间聚类算法与相应的初始化算法;4.基于上述子空间聚类算法建立了文本子空间聚类方法并应用于垃圾邮件甄别与中文文本聚类领域;通过实验分析了该方法在维度处理上的优势。
论文目录
相关论文文献
- [1].基于分式函数约束的稀疏子空间聚类方法[J]. 计算机工程与应用 2020(07)
- [2].基于空间聚类的外业导航路线生成方法[J]. 工程勘察 2020(07)
- [3].稀疏子空间聚类算法研究[J]. 现代计算机 2020(16)
- [4].结构加权相关自适应子空间聚类[J]. 计算机工程与应用 2020(13)
- [5].一种基于块对角表示和近邻约束的子空间聚类方法[J]. 计算机科学 2020(07)
- [6].鲁棒的谱增强子空间聚类[J]. 电子世界 2019(01)
- [7].一种新的子空间聚类方法[J]. 有线电视技术 2017(12)
- [8].基于变化率的子空间聚类算法[J]. 软件导刊 2017(01)
- [9].改进的稀疏子空间聚类算法[J]. 火力与指挥控制 2017(03)
- [10].基于光滑近邻表示的基因表达数据子空间聚类[J]. 控制与决策 2017(07)
- [11].一种基于顺序特性的子空间聚类方法[J]. 计算机科学 2016(03)
- [12].局部子空间聚类[J]. 自动化学报 2016(08)
- [13].稀疏子空间聚类综述[J]. 自动化学报 2015(08)
- [14].基于混合高斯回归的子空间聚类视频火焰检测[J]. 科学家 2017(16)
- [15].基于投影的鲁棒低秩子空间聚类算法[J]. 计算机科学 2020(06)
- [16].空间序列低秩稀疏子空间聚类算法[J]. 江苏理工学院学报 2020(04)
- [17].不同耕地空间聚类算法的对比分析研究[J]. 测绘与空间地理信息 2019(01)
- [18].预测子空间聚类的聚类集成算法[J]. 小型微型计算机系统 2017(04)
- [19].基于协同表示的子空间聚类[J]. 模式识别与人工智能 2017(03)
- [20].稀疏低秩子空间聚类算法[J]. 青岛大学学报(自然科学版) 2017(03)
- [21].图像分割的改进稀疏子空间聚类方法[J]. 系统工程与电子技术 2015(10)
- [22].基于重建系数的子空间聚类融合算法[J]. 计算机应用研究 2015(11)
- [23].类属型数据核子空间聚类算法[J]. 软件学报 2020(11)
- [24].图像分割的加权稀疏子空间聚类方法[J]. 系统工程与电子技术 2014(03)
- [25].基于属性最大间隔的子空间聚类[J]. 南京大学学报(自然科学) 2014(04)
- [26].中性游走驱动的进化子空间聚类算法[J]. 小型微型计算机系统 2019(03)
- [27].基于自表征和群组效应的子空间聚类算法[J]. 计算机工程与设计 2017(02)
- [28].基于稀疏子空间聚类的人脸识别方法[J]. 火力与指挥控制 2017(04)
- [29].混合最小二乘回归的稀疏子空间聚类算法[J]. 计算机应用与软件 2017(10)
- [30].融合地理-社会关系的空间聚类方法[J]. 小型微型计算机系统 2017(11)