基于K-means的中文文本精确聚类算法研究

基于K-means的中文文本精确聚类算法研究

论文摘要

文本聚类在数据挖掘和机器学习中发挥着重要的作用。该技术经过巨大的发展,已产生了一系列的理论成果。K-means算法是文本聚类当中的经典算法之一,由于其时间复杂度低,在文本聚类领域中得到了广泛的应用。论文研究了文本聚类的关键技术与算法,提出了一种新的高性能无监督特征选择方法,并针对K-means算法的不足做了相应的改进工作。主要工作有:首先,在深入研究了文本聚类领域特征选择算法的基础上,发现一些算法存在不足之处,例如忽略了特征间的潜在关联。为了克服现有特征选择算法的缺陷,提高特征选择的效率,通过引入特征聚类的思想,提出了一种新的无监督特征选择算法,用以在保证聚类质量的前提下裁剪冗余特征词。其次,分析了欧式距离在度量文本相似性方面的缺陷,并对其做了校正处理。我们不仅考虑了文本中的词语频率信息,还结合词语对文本聚类的贡献差异度信息,提出了一种基于信息熵的赋权欧式距离计算方法。再次,提出了一种优化初始聚类中心的精确赋权K-means聚类算法。该算法从传统K-means算法选择的初始聚类中心可能不能很好地代表整个文本集分析出发,结合校正后的欧式距离计算方法对初始聚类中心进行优化,以保证选择的初始聚类中心比较分散且代表性好。给出了优化的精确赋权K-means算法的详细执行过程,并对算法的正确性和复杂度进行了分析。最后,通过详细的实验过程验证了本文的研究内容,通过与现有算法的对比,对实验结果进行了详细分析,从而验证算法的正确性与执行效率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 文本聚类的难点
  • 1.4 本文的研究内容
  • 1.5 本文的组织结构
  • 第2章 中文文本聚类的关键技术
  • 2.1 文本聚类
  • 2.2 文本预处理
  • 2.2.1 中文分词
  • 2.2.2 停用词处理
  • 2.3 文本表示
  • 2.4 文本相似度度量
  • 2.5 降维处理
  • 2.6 聚类算法
  • 2.7 本章小结
  • 第3章 一种高效的无监督特征选择方法
  • 3.1 特征选择概述
  • 3.1.1 特征选择的工作原理
  • 3.1.2 常用的无监督文本特征选择方法
  • 3.2 基于聚类和单词贡献度的无监督特征选择
  • 3.2.1 相关定义
  • 3.2.2 特征分析
  • 3.2.3 算法思想
  • 3.2.4 特征聚类的预备知识
  • 3.2.5 基于聚类的特征初步筛选
  • 3.2.6 基于聚类和单词贡献度的特征选择
  • 3.3 算法流程图
  • 3.4 算法描述
  • 3.5 算法分析
  • 3.5.1 正确性分析
  • 3.5.2 参数设置分析
  • 3.5.3 时间复杂度分析
  • 3.6 本章小结
  • 第4章 基于信息熵的精确赋权K-means聚类算法
  • 4.1 文本聚类概述
  • 4.1.1 文本聚类的工作原理
  • 4.1.2 常用的三种文本聚类算法
  • 4.2 基于信息熵的精确赋权K-means聚类算法
  • 4.2.1 相关定义
  • 4.2.2 信息熵的意义
  • 4.2.3 K-means算法分析
  • 4.2.4 算法思想
  • 4.2.5 特征权值的计算方法
  • 4.2.6 新的初始聚类中心选择方法
  • 4.2.7 基于信息熵的精确赋权K-means算法
  • 4.3 算法描述
  • 4.4 算法分析
  • 4.4.1 正确性分析
  • 4.4.2 参数设置分析
  • 4.4.3 时间复杂度分析
  • 4.5 本章小结
  • 第5章 实验与结果分析
  • 5.1 实验环境设置
  • 5.2 实验内容
  • 5.3 实验结果评价指标
  • 5.4 实验结果与分析
  • 5.4.1 特征选择方法的实验分析
  • 5.4.2 聚类算法的实验分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间承担的科研任务与主要成果
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].基于K-means聚类的航空复合材料敲击检测研究[J]. 航空科学技术 2019(10)
    • [2].基于K-means的电力系统典型日负荷特性计算方法研究[J]. 无线互联科技 2020(01)
    • [3].基于k-means聚类算法的高校人才评价分析——以泸州职业技术学院为例[J]. 数字技术与应用 2019(12)
    • [4].基于K-means聚类方法的早期聚落规模等级研究[J]. 地域研究与开发 2020(02)
    • [5].基于改进k-means的电力信息系统异常检测方法[J]. 深圳大学学报(理工版) 2020(02)
    • [6].基于红外图像特征与K-means的边缘检测[J]. 红外技术 2020(01)
    • [7].基于k-means聚类分析法的四川省区域经济差异时空演化分析[J]. 甘肃科技 2020(01)
    • [8].K-Means聚类分析法筛选柠檬香茅茎叶差异蛋白及鉴定[J]. 应用化学 2020(04)
    • [9].基于特征融合的K-means微博话题发现模型[J]. 电子技术应用 2020(04)
    • [10].基于K-means聚类挖掘智能机器人领域技术创新人才[J]. 新世纪图书馆 2020(03)
    • [11].基于改进K-Means算法的图书馆读者阅读需求实证研究[J]. 新世纪图书馆 2020(05)
    • [12].基于k-means聚类分析在高校学生成绩中的应用研究[J]. 科技经济导刊 2020(21)
    • [13].基于K-means的多维聚类算法在客户信息中的应用[J]. 软件 2020(07)
    • [14].基于K-means++算法的三相电能表评价模型研究[J]. 电测与仪表 2020(17)
    • [15].K-means算法在农资网站客户管理中的应用[J]. 枣庄学院学报 2020(05)
    • [16].基于遗传算法的K-means聚类改进研究[J]. 计算机与数字工程 2020(08)
    • [17].基于K-means聚类的沙尘天气快速识别技术研究[J]. 中国环境监测 2020(05)
    • [18].基于K-means聚类分析的汽车行驶工况构建[J]. 物流科技 2020(11)
    • [19].基于k-means聚类的我国乳制品消费集群研究——来自全国31个省份乳制品消费数据的分析[J]. 中国乳品工业 2019(10)
    • [20].基于球面距离的K-means聚类任务打包[J]. 嘉兴学院学报 2019(06)
    • [21].基于K-means算法的数据挖掘与客户细分研究[J]. 市场研究 2019(11)
    • [22].数据场和K-Means算法融合的雷达信号分选[J]. 雷达科学与技术 2016(05)
    • [23].基于二分K-means的协同过滤推荐算法[J]. 软件导刊 2017(01)
    • [24].基于K-means算法分割遥感图像的阈值确定方法研究[J]. 科学技术与工程 2017(09)
    • [25].基于变精度粗糙集改进K-means聚类算法[J]. 办公自动化 2017(08)
    • [26].基于k-means聚类的管制员注意品质特征研究[J]. 中国安全科学学报 2017(06)
    • [27].自适应确定K-means算法的聚类数:以遥感图像聚类为例[J]. 华东师范大学学报(自然科学版) 2014(06)
    • [28].基于混沌理论和K-means聚类的有载分接开关机械状态监测[J]. 中国电机工程学报 2015(06)
    • [29].用核K-means聚类减样法优化半定规划支持向量机[J]. 江西师范大学学报(自然科学版) 2013(06)
    • [30].基于同态滤波和改进K-means的苹果分级算法研究[J]. 食品与机械 2019(12)

    标签:;  ;  ;  ;  ;  

    基于K-means的中文文本精确聚类算法研究
    下载Doc文档

    猜你喜欢