基于语义的文本聚类搜索研究

基于语义的文本聚类搜索研究

论文摘要

文本聚类是数据挖掘领域中的一个重要分支,尤其在信息量迅速增长的当今社会,文本聚类能够在人们日常的生产生活中起到重要作用。国内外围绕着文本聚类这一课题进行了大量的研究,并有了些初步的成果,但是从目前的研究状况来看,文本聚类仍有很多地方需要改进。本文通过对现有研究成果的介绍和对比分析,总结出文本聚类的两个值得改进的关键点:一方面,聚类算法作为文本聚类的核心部分,能够直接影响整个聚类过程的效率和聚类质量,而目前并没有特别适用于文本聚类领域的聚类算法,大部分的算法也无法同时在算法复杂度和聚类质量上有良好的表现;另一方面,大部分的方法未能充分考虑到语义因素对文本聚类的影响,或者在聚类过程中未能有效的融入语义因素,因而得到的聚类结果不够理想。针对如何合理的平衡聚类算法的复杂度和聚类质量这一问题,本文介绍和分析了几个具有代表性的聚类算法在文本聚类领域中的优势和不足,并结合了基于划分的聚类算法和基于密度的聚类算法各自的优点,提出了基于密度的聚类算法DBCKNN。DBCKNN算法利用了k近邻和离群度等慨念,能够迅速确定数据集中每类的中心并自动调节类半径,在保证了聚类效果的基础上提高了聚类的效率针对如何有效的将语义因素融入聚类过程这个问题,本文利用语义对VSM模型进行变换,即基于语义对VSM模型的各维进行扭曲,将原本的正交坐标系基于语义变换为斜角坐标系,然后将文本的特征向量映射到变换后的VSM模型上再进行聚类,相对减小语义相关的特征向量间的语义距离,从而提高了文本聚类的召回率与查准率,并使得聚类的结果更加语义化。本文也通过理论分析和实验验证了所提出算法与方法的有效性和正确性。本文在文章最后对所做的工作做出了合理评价,并对文本聚类领域未来的发展做出了展望。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文的主要内容和组织结构
  • 第二章 基于语义的文本聚类搜索技术概要
  • 2.1 基于语义的文本聚类搜索定义
  • 2.2 基于语义的文本聚类搜索的工作流程
  • 2.2.1 文本内容预处理
  • 2.2.2 文本的特征向量提取
  • 2.2.3 特征向量矩阵降维
  • 2.2.4 文本相似度计算
  • 2.2.5 文本聚类
  • 2.3 聚类算法研究
  • 2.3.1 经典聚类算法分类概述
  • 2.3.2 聚类算法的评价方法
  • 2.4 小结
  • 第三章 基于密度聚类算法的改进
  • 3.1 基于密度的聚类算法
  • 3.1.1 文本聚类领域下算法的选择
  • 3.1.2 基于密度的聚类算法的研究现状
  • 3.1.3 改进方向
  • 3.2 DBCKNN算法
  • 3.2.1 相关标记与标识
  • 3.2.2 算法改进
  • 3.3 算法与实验分析
  • 3.3.1 DBCKNN算法时间复杂度分析
  • 3.3.2 实验结果和分析
  • 3.4 小结
  • 第四章 基于语义的VSM模型改进
  • 4.1 对传统VSM模型的改进
  • 4.1.1 VSM模型概念
  • 4.1.2 VSM模型下的文本相似度计算的改进方向
  • 4.2 基于语义扭曲VSM模型下的聚类
  • 4.2.1 扭曲VSM模型下求向量夹角大小程度的方法
  • 4.2.2 两个结论
  • 4.2.3 实例
  • 4.3 算法与实验分析
  • 4.3.1 传统方法与本文改进后方法复杂度的比较
  • 4.3.2 实验结果和分析
  • 4.4 结论及工作方向
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 工作展望
  • 附录
  • 附录A 图索引
  • 附录B 表索引
  • Appendix A. Figure Index
  • Appendix B. Table Index
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
    • [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
    • [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
    • [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
    • [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
    • [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
    • [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
    • [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
    • [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
    • [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
    • [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
    • [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
    • [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
    • [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
    • [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
    • [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
    • [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
    • [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
    • [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
    • [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
    • [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
    • [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
    • [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
    • [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
    • [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)

    标签:;  ;  ;  ;  ;  

    基于语义的文本聚类搜索研究
    下载Doc文档

    猜你喜欢