基于相似度的文本聚类算法研究及应用

基于相似度的文本聚类算法研究及应用

论文摘要

文本聚类是文本挖掘的一个重要分支,因其独特的知识发现功能而得到较为深入的研究。文本聚类算法已经在文档自动整理、检索结果的组织和数字图书馆服务等方面得到了广泛的应用。但是在应用中随着文本集的不断扩大,传统的文本聚类算法遇到了一些难以克服的困难,算法忽略了文本中单词之间的语义相关性,算法聚类结果不稳定等。论文主要针对以上问题对文本聚类进行研究。论文首先详细介绍了传统的文本聚类算法,并对其进行比较和分析。其次,为了解决向量空间模型忽略单词之间的语义相关性的问题,提出了一种基于单词相似度的文本聚类算法(TCWS);针对传统K-Means算法聚类结果不稳定的缺点,提出了一种基于文本平均相似度的K-Means算法(KAAST)。最后,将研究成果应用到公安情报系统中。本文的主要研究内容概括如下:(1)介绍了常用文本聚类算法,并从伸缩性、多维性、处理高维数据的能力等方面对常用文本聚类算法进行分析和比较。(2)提出一种基于单词相似度的文本聚类算法(TCWS)。该算法首先利用单词相似度对单词进行聚类获得单词之间的语义相关性,然后利用产生的单词类作为向量空间模型的项表示文本,降低了向量空间的维度,最后采用基于划分聚类算法对文本聚类。实验表明TCWS算法提高了聚类结果的正确性。(3)提出一种基于文本平均相似度的K-Means算法(KAAST)。该算法首先构造文本平均相似度集合,其次从集合中选取当前平均相似度最大的文本作为初始聚类中心,同时删除集合中与其簇相关的文本,这样选取出的中心点不但具有代表性且分散,最后利用选取的中心作为K-Means算法的初始聚类中心对文本聚类。实验表明KAAST算法的稳定性有较大的提高。(4)在理论研究的基础上,将本文提出的算法应用到公安情报系统中,并设计和实现了文本聚类子系统,提高了情报处理的效率和正确性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 研究内容及安排
  • 第二章 文本聚类算法及分析
  • 2.1 文本挖掘相关知识
  • 2.1.1 文本挖掘的定义
  • 2.1.2 文本挖掘的处理过程
  • 2.1.3 文本挖掘的特点
  • 2.1.4 文本挖掘常用技术
  • 2.1.5 文本挖掘中面临的课题
  • 2.2 文本聚类算法
  • 2.2.1 基于划分的算法
  • 2.2.2 基于层次的算法
  • 2.2.3 基于密度的算法
  • 2.2.4 基于网格的算法
  • 2.2.5 基于模型的算法
  • 2.2.6 基于模糊的算法
  • 2.3 文本聚类算法的比较
  • 2.4 文本聚类效果评价指标
  • 2.5 本章小结
  • 第三章 基于单词相似度的文本聚类算法
  • 3.1 文本预处理
  • 3.1.1 分词
  • 3.1.2 停用词
  • 3.1.3 特征选择
  • 3.1.4 文本表示模型
  • 3.2 基于单词类的向量空间模型
  • 3.2.1 单词相似度
  • 3.2.2 单词类权重计算
  • 3.3 基于单词相似度的文本聚类算法
  • 3.3.1 文本相似度
  • 3.3.2 算法流程
  • 3.3.3 实验结果及分析
  • 3.4 本章小结
  • 第四章 基于文本平均相似度的K-Means算法
  • 4.1 K-Means算法的研究
  • 4.1.1 K-Means算法介绍
  • 4.1.2 K-Means算法的特点
  • 4.1.3 K-Means算法存在的问题
  • 4.2 K-Means对初始聚类中心的依赖性分析及现有改进
  • 4.2.1 依赖性分析
  • 4.2.2 选择初值的现有方法
  • 4.3 基于文本平均相似度的K-Means算法
  • 4.3.1 算法思想
  • 4.3.2 算法流程
  • 4.3.3 实验结果及分析
  • 4.4 本章小结
  • 第五章 文本聚类在公安情报系统中的应用
  • 5.1 公安情报系统简介
  • 5.2 舆情采集及处理
  • 5.2.1 舆情采集
  • 5.2.2 舆情处理
  • 5.3 文本聚类子系统
  • 5.3.1 文本聚类子系统的设计
  • 5.3.2 文本聚类子系统的实现
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].半监督语义动态文本聚类算法[J]. 电子科技大学学报 2019(06)
    • [2].一种基于词嵌入与密度峰值策略的大数据文本聚类算法[J]. 科技创新与应用 2017(06)
    • [3].基于并行信息瓶颈的多语种文本聚类算法[J]. 模式识别与人工智能 2017(06)
    • [4].浅谈文本聚类算法对网络热点发现精准度的影响[J]. 中国管理信息化 2017(17)
    • [5].基于向量空间的文本聚类算法[J]. 电子世界 2017(20)
    • [6].文本聚类算法综述[J]. 现代计算机(专业版) 2014(03)
    • [7].基于词性标注的文本聚类算法[J]. 福建工程学院学报 2015(04)
    • [8].基于频繁词序列的层次文本聚类算法研究[J]. 计算机时代 2009(04)
    • [9].一种结合上下文语义的短文本聚类算法[J]. 计算机科学 2016(S2)
    • [10].一种改进的基于潜在语义索引的文本聚类算法[J]. 计算机与现代化 2014(07)
    • [11].一种改进的文本聚类算法[J]. 陕西科技大学学报(自然科学版) 2008(06)
    • [12].一种基于密度峰值发现的文本聚类算法[J]. 山东大学学报(理学版) 2016(01)
    • [13].基于蚁群算法的文本聚类算法的参数优化[J]. 北京信息科技大学学报(自然科学版) 2016(03)
    • [14].加权模糊C均值文本聚类算法研究及仿真[J]. 计算机仿真 2011(05)
    • [15].一种提高文本聚类算法质量的方法[J]. 同济大学学报(自然科学版) 2008(12)
    • [16].一种改进的人工免疫文本聚类算法[J]. 系统仿真学报 2010(01)
    • [17].一种成对约束限制的半监督文本聚类算法[J]. 计算机科学 2016(12)
    • [18].基于语义和图的文本聚类算法研究[J]. 中文信息学报 2016(05)
    • [19].基于非负矩阵分解的双重约束文本聚类算法[J]. 计算机工程 2011(24)
    • [20].基于群体智能的半结构化藏文文本聚类算法[J]. 模式识别与人工智能 2014(07)
    • [21].一种高效中文文本聚类算法[J]. 计算机工程与科学 2013(02)
    • [22].改进性的文本聚类算法研究[J]. 长江大学学报(自然科学版)理工卷 2009(02)
    • [23].自适应半监督模糊文本聚类算法[J]. 机械工程与自动化 2008(05)
    • [24].一种改进的K均值文本聚类算法[J]. 传感器与微系统 2015(05)
    • [25].关于文本挖掘中文本聚类算法的研究[J]. 福建电脑 2009(04)
    • [26].基于Synonyms、k-means的短文本聚类算法[J]. 电脑知识与技术 2019(01)
    • [27].基于后缀树的半监督自适应多密度文本聚类算法[J]. 小型微型计算机系统 2016(01)
    • [28].试论短文本聚类算法在微博的应用[J]. 科技致富向导 2014(09)
    • [29].基于复杂网络理论的中文文本聚类算法[J]. 电子测试 2014(03)
    • [30].基于后缀树的文本聚类算法[J]. 西安邮电学院学报 2012(01)

    标签:;  ;  ;  ;  

    基于相似度的文本聚类算法研究及应用
    下载Doc文档

    猜你喜欢