一种改进的文本聚类中心选择算法的研究

一种改进的文本聚类中心选择算法的研究

论文摘要

K-means聚类算法是一种基于划分的聚类算法,在众多聚类算法的性能比较中,该算法具有效率高、可发现任意聚类形状、对数据输入顺序不敏感、且对于高维数据也有较好的性能,而得到广泛的应用,但是K-means算法需要事先指定K值,并且对于“噪音”和孤立点数据敏感。因此针对K-means算法的以上缺点提出了新算法,从以下两点对传统的K-means算法进行了改进。首先,将文档集合分成一定规模的子文档集,串行聚类。其次,在聚类中心的选择上使用遗传算法的选择、变异操作确定。并且通过实验证明了,该算法无论是在聚类中心选择的精确性还是聚类结果的准确性都得到了提高。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 引言
  • 1.2 国内外研究现状
  • 1.3 课题研究的目的及意义
  • 1.4 论文的主要内容
  • 2 文本聚类
  • 2.1 文本聚类概述
  • 2.1.1 文本聚类
  • 2.1.2 常用的文本聚类算法
  • 2.1.3 聚类质量评价指标
  • 2.2 文本聚类流程
  • 2.2.1 文本表示模型
  • 2.2.2 文本聚类算法的选择
  • 2.2.3 聚类评估函数的选择
  • 3 遗传算法
  • 3.1 传统遗传算法
  • 3.1.1 基本遗传算法构成要素
  • 3.1.2 遗传算法的应用
  • 3.1.3 遗传算法应用步骤
  • 3.2 遗传算法的最新发展
  • 3.2.1 变长度染色体遗传算法
  • 3.2.2 小生境遗传算法
  • 3.2.3 混合遗传算法
  • 4 文本聚类算法的研究与改进
  • 4.1 一种文本聚类模型
  • 4.1.1 文本分词处理
  • 4.1.2 文本的特征提取
  • 4.1.3 VSM 模型
  • 4.1.4 文本聚类
  • 4.2 传统 K-means 算法
  • 4.3 一种利用遗传算法优化聚类中心选择的算法
  • 4.3.1 算法原理
  • 4.3.2 算法流程
  • 5 算法实现及实验结果分析
  • 5.1 系统设计
  • 5.2 系统实现
  • 5.2.1 分词模块
  • 5.2.2 VSM 模型构造模块
  • 5.2.3 聚类模块
  • 5.3 实验结果对比
  • 6 总结与展望
  • 6.1 结论
  • 6.2 展望
  • 攻读硕士期间参与的科研项目
  • 攻读硕士期间发表的论文
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [2].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [3].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [4].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [5].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [6].一种新的Web中文文本聚类方法研究[J]. 计算机应用与软件 2013(12)
    • [7].基于语义概念的海量短信文本聚类[J]. 计算机工程 2011(01)
    • [8].Web文本聚类的研究与实现[J]. 长春师范学院学报 2011(06)
    • [9].基于混合模型的文本聚类研究综述[J]. 情报学报 2015(05)
    • [10].基于统计学习的自适应文本聚类[J]. 四川大学学报(工程科学版) 2012(01)
    • [11].基于改进的K-means算法的文本聚类仿真系统[J]. 计算机仿真 2010(08)
    • [12].文本挖掘关键技术研究[J]. 计算机光盘软件与应用 2014(12)
    • [13].基于主题的Web文本聚类方法[J]. 计算机应用 2014(11)
    • [14].基于属性重要性的Web文本聚类研究[J]. 重庆文理学院学报(自然科学版) 2011(03)
    • [15].基于Ant-Tree算法的短文本聚类研究[J]. 软件 2011(04)
    • [16].降维技术在专利文本聚类中的应用研究[J]. 情报学报 2014(05)
    • [17].一种增长型自组织特征映射文本聚类方法[J]. 价值工程 2012(16)
    • [18].基于单词超团的文本聚类方法[J]. 计算机工程 2011(11)
    • [19].基于改进聚类算法的网络舆情分析系统研究[J]. 情报学报 2014(05)
    • [20].基于向量空间模型的层次聚类算法在文本挖掘中的应用[J]. 温州职业技术学院学报 2013(01)
    • [21].基于MapReduce的大规模文本聚类并行化[J]. 北京科技大学学报 2014(10)
    • [22].基于MapReduce和网格密度的文本聚类分析研究[J]. 信息系统工程 2014(10)
    • [23].基于稀疏特征的中文微博短文本聚类方法研究[J]. 软件导刊 2014(01)
    • [24].基于词义类簇的文本聚类[J]. 中文信息学报 2013(03)
    • [25].基于初始中心迭代收敛的文本聚类方法[J]. 计算机工程与科学 2012(06)
    • [26].基于《现代汉语语义分类词典》的文本聚类方法[J]. 情报杂志 2010(11)
    • [27].基于DF算法改进的文本聚类特征选择算法[J]. 甘肃联合大学学报(自然科学版) 2012(01)
    • [28].一种基于潜在语义索引的谱聚类方法研究[J]. 中国民航大学学报 2011(03)
    • [29].基于潜在语义标引的文本聚类研究[J]. 情报探索 2010(07)
    • [30].面向用户生成内容的短文本聚类算法研究[J]. 现代图书情报技术 2013(09)

    标签:;  ;  ;  ;  

    一种改进的文本聚类中心选择算法的研究
    下载Doc文档

    猜你喜欢