基于K-均值的文本聚类分析

基于K-均值的文本聚类分析

论文摘要

传统的K-均值算法(K-means clustering)是一种得到最广泛使用的聚类算法。其应用领域非常广泛,包括文本聚类、图像及语音数据压缩,使用径向基函数网络进行系统建模的数据预处理,以及异构神经网络结构中的任务分解。而且对大型数据集而言,K-均值算法是具有相对可伸缩的和高效的性能。由于K-均值算法聚类效果依赖于数值K的确定、聚类中心的初始位置和相似度量的计算等的选取,并且K-均值算法是一个常用的局部搜索算法,它的主要缺陷是容易陷入局部极小值,该局部最小值与全局部最优解往往有很大的偏差。针对K-均值算法中的不足,从几个方面对传统的K-均值算法进行改进,首先提出了一种间接的学习权值算法可以得到一个好的距离度量,即如何学习加权距离式中的特征权值,以改进K-均值算法的聚类性能。该算法主要是构造一个评价函数,采用梯度下降技术极小化评价函数来降低相似矩阵的模糊性。通过评价函数求权值偏导数逐次调整权值,每次计算偏导,应用公式更新权值。如果评价函数的值低于或等于一个最小阈值或者迭代次数超过某一次数阈值时结束学习。当一组向量相似性较大时,可以通过学习特征权值改变它们属于同一类的程度,使其相似性变大。当一组向量相似性较小时,可以通过学习特征权值减少它们的相似性。因此这样通过极小化评价函数学习到的即为特征向量的权值,改善了聚类性能。其次提出针对参数K值的学习算法,初步使用了遗传算法选择较优的K值。虽然还没有提出寻找K值的方法,仍然是可以通过对不同值的实验决定具体取值。最后,基于传统K-均值算法实施的各个环节,提出几种不同的K-均值改进算法,对K-均值聚类算法进行一些有益的改进。本文使用改进后的算法,对一些数据库进行聚类实验,实验结果表明,在所用的算法达到了预期的效果,提高了算法的聚类效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 国内外的研究现状
  • 1.2 课题研究有目的和意义
  • 1.3 主要工作内容
  • 1.4 本文的结构框架
  • 第二章 K-均值算法以及文本分类模型
  • 2.1 文本分类原理
  • 2.1.1 文本分类模型
  • 2.1.2 文档表示
  • 2.1.3 特征抽取
  • 2.1.4 词条切分
  • 2.2 文本聚类方法
  • 2.2.1 层次聚类法
  • 2.2.2 平面划分法
  • 2.2.3 简单贝叶斯聚类算法
  • 2.2.4 K-最邻近参照聚类算法
  • 2.2.5 基于概念的文本聚类
  • 2.2.6 基于模型的方法
  • 2.3 K-均值算法
  • 2.3.1 K-均值算法的概述
  • 2.3.2 K-均值算法的流程
  • 2.3.3 K-均值算法的性能分析
  • 2.3.4 K-均值算法的改进措施
  • 2.4 遗传算法
  • 2.4.1 遗传算法原理
  • 2.4.2 遗传算法聚类法
  • 第三章 K-均值的改进算法及其在文本分类中的应用
  • 3.1 学习特征值对K-均值聚类算法的优化
  • 3.1.1 特征值的学习
  • 3.1.2 特征值的确定
  • 3.2 遗传算法对学习K-均值的K值
  • 3.2.1 学习K值的概述
  • 3.2.2 算法设计
  • 3.3 优化初始中心的K-均值算法
  • 3.4 基于核距离的K-均值算法
  • 3.5 聚类均值点与聚类中心相分离的K-均值的算法
  • 3.6 修改迭代过程的K-均值算法
  • 3.7 对大型高维数据集以及稀疏数据集的K-均值改进算法
  • 3.7.1 对获取质心的改进
  • 3.7.2 对稀疏矩阵数据集的处理方法
  • 3.7.3 对簇结果准确性不高的改进
  • 第四章 实验分析及及结论
  • 4.1 学习特征值对K-均值算法优化的实验分析
  • 4.2 遗传算法对学习K值的实验分析
  • 4.3 K-均值改进算法的实验分析
  • 4.4 结论
  • 第五章 问题的总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].图像的能量波动对自动聚焦评价函数的影响[J]. 红外技术 2016(12)
    • [2].数字图像清晰度评价函数的研究与改进[J]. 电子世界 2013(16)
    • [3].一种新的高灵敏度聚焦评价函数[J]. 微计算机信息 2009(27)
    • [4].基于分割评价函数的多尺度分割参数的选择[J]. 遥感技术与应用 2018(04)
    • [5].图像设计过程中图像清晰度评价函数的应用[J]. 电子技术与软件工程 2017(02)
    • [6].基于边缘检测算法的对焦评价函数改进研究[J]. 影像技术 2011(02)
    • [7].显微镜自动对焦评价函数新算法[J]. 微计算机信息 2009(34)
    • [8].气膜孔图像对焦评价函数的实验研究[J]. 宇航计测技术 2019(06)
    • [9].基于评价函数的车身覆盖件成形工艺参数优化[J]. 锻压技术 2018(11)
    • [10].基于多向最大梯度阈值的自动调焦评价函数[J]. 激光与红外 2016(01)
    • [11].宽光谱膜厚监控系统的评价函数修正技术[J]. 激光与光电子学进展 2012(02)
    • [12].强散粒噪声下聚焦评价函数的研究[J]. 激光与光电子学进展 2012(11)
    • [13].图像清晰度评价函数的研究[J]. 光学仪器 2019(04)
    • [14].一种可用于纤维图像的聚焦评价函数[J]. 棉纺织技术 2019(09)
    • [15].散焦图像清晰度评价函数的研究[J]. 微计算机信息 2011(08)
    • [16].基于小波提升的自动聚焦评价函数[J]. 太原理工大学学报 2009(03)
    • [17].基于一体化摄像机的清晰度评价函数研究[J]. 电子世界 2012(01)
    • [18].抖动法激光阵列相干合成技术中的性能评价函数研究[J]. 中国激光 2012(02)
    • [19].三支决策空间上三支决策评价函数的构造[J]. 西北大学学报(自然科学版) 2018(04)
    • [20].高精度分划板自动对焦评价函数研究[J]. 传感技术学报 2013(01)
    • [21].刀具预调仪中评价函数对调焦的影响[J]. 河北农机 2015(01)
    • [22].全自动细胞芯片检测仪中自动聚焦系统的研究[J]. 电子测量与仪器学报 2011(08)
    • [23].一种新的自动聚焦算法的研究[J]. 光学技术 2011(04)
    • [24].不同评价函数下阵列天线自修复分析[J]. 强激光与粒子束 2019(06)
    • [25].光学显微成像系统图像清晰度评价函数的对比[J]. 光学仪器 2018(01)
    • [26].基于传球评价函数的Robocup传球策略[J]. 安徽工业大学学报(自然科学版) 2011(02)
    • [27].微博大V概念的量化研究[J]. 电子世界 2018(11)
    • [28].一种基于灰度分割的调焦评价函数[J]. 现代电子技术 2009(06)
    • [29].一种改进的图像清晰度评价函数[J]. 应用科技 2009(09)
    • [30].基于熵的自动聚焦图像清晰度评价函数仿真分析[J]. 红外技术 2016(10)

    标签:;  ;  ;  ;  

    基于K-均值的文本聚类分析
    下载Doc文档

    猜你喜欢