数据挖掘技术中聚类算法的研究

数据挖掘技术中聚类算法的研究

论文摘要

随着信息技术的迅速发展,需要分析和管理的数据日益增多。为了从数据中发现有价值的知识和规律,人们提出用数据挖掘来解决这一难题。数据挖掘及其应用已经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。作为数据挖掘的重要工具之一,聚类技术得到越来越多的关注,至今已提出了大量的理论和方法。随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。本文对数据挖掘技术,尤其是对聚类分析进行了较为系统的分析和研究,介绍了一些改进的算法,主要内容如下:(1)介绍了数据挖掘的产生与发展以及数据挖掘中聚类分析的发展方向,总结了划分方法、层次方法、基于网格和密度聚类方法以及其他聚类方法的国内外发展现状,最后介绍了本文的主要研究内容和章节安排。(2)简要介绍了聚类算法的定义、相似性度量,聚类算法的分类和聚类方法的评价。详细讨论了数据挖掘中常用的聚类算法及其基本原理,最后对聚类算法的评价进行了讨论。(3)详细讨论传统k-means算法的基本思想、算法流程和算法性能。传统的k-means算法要求用户事先给定k值,限制了很多应用,初始中心点随机选择,容易导致局部极值点,常用的评价函数对于求解最优的聚类数目也不是很理想。针对这些问题,研究了一种新的评价函数-均衡化函数,同时采用基于密度的初始化中心点选择算法,自动生成聚类数目,实验结果表明了改进算法的有效性。(4)详细讨论了常用的几个划分判据,介绍谱聚类算法的基本框架和代表性算法,同时给出谱聚类算法的理论解释。通过分析谱聚类初始化敏感的特点,引入对初值不敏感的KHM算法克服这一缺点,在此基础上研究了初始化独立的谱聚类算法。实验结果表明该算法的有效性和可行性。最后,对论文的工作进行回顾和总结,就进一步有待研究的问题进行讨论和展望。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及研究意义
  • 1.1.1 数据挖掘的产生和发展
  • 1.1.2 数据挖掘中的聚类分析
  • 1.2 国内外研究现状
  • 1.2.1 基于划分的聚类方法
  • 1.2.2 基于层次的聚类方法
  • 1.2.3 基于网格和密度的聚类方法
  • 1.2.4 其他聚类算法
  • 1.3 本文的研究内容和结构安排
  • 第二章 聚类算法
  • 2.1 聚类算法的基本概念
  • 2.1.1 聚类定义
  • 2.1.2 距离和相似性度量
  • 2.1.3 类间的测度距离
  • 2.2 主要的聚类方法
  • 2.2.1 划分聚类方法
  • 2.2.2 层次聚类方法
  • 2.2.3 密度聚类方法
  • 2.2.4 网格聚类方法
  • 2.2.5 模型聚类方法
  • 2.3 聚类算法的比较
  • 2.4 聚类方法的评价
  • 2.4.1 聚类的准确度
  • 2.4.2 聚类的同构度和异构度
  • 2.5 本章小结
  • 第三章 基于均衡化函数的K-MEANS 算法
  • 3.1 引言
  • 3.2 传统的K-MEANS 算法
  • 3.2.1 算法基本思想及步骤
  • 3.2.2 算法的性能分析
  • 3.3 聚类有效性函数
  • 3.3.1 评价函数
  • 3.3.2 一种新的评价函数-均衡化函数
  • 3.4 初始中心点选取方法
  • 3.4.1 常用的聚类初始方法
  • 3.4.2 基于密度的初始中心选择算法
  • 3.5 基于均衡化函数的K-MEANS 优化算法
  • 3.6 实验
  • 3.6.1 Weka 机器学习平台
  • 3.6.2 人工数据
  • 3.6.3 真实数据
  • 3.7 本章小结
  • 第四章 初始化独立的谱聚类算法
  • 4.1 引言
  • 4.2 谱图理论
  • 4.2.1 谱图划分准则
  • 4.2.2 谱聚类算法
  • 4.2.3 谱聚类理论分析
  • 4.3 初始化独立的谱聚类算法
  • 4.3.1 K-Harmonic Means(KHM)算法
  • 4.3.2 改进算法(SC-KHM)
  • 4.4 仿真实验
  • 4.4.1 人工数据
  • 4.4.2 真实数据
  • 4.5 本章小结
  • 第五章 总结与展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    数据挖掘技术中聚类算法的研究
    下载Doc文档

    猜你喜欢