数据挖掘技术中聚类算法的研究

论文摘要

随着信息技术的迅速发展,需要分析和管理的数据日益增多。为了从数据中发现有价值的知识和规律,人们提出用数据挖掘来解决这一难题。数据挖掘及其应用已经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。作为数据挖掘的重要工具之一,聚类技术得到越来越多的关注,至今已提出了大量的理论和方法。随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。本文对数据挖掘技术,尤其是对聚类分析进行了较为系统的分析和研究,介绍了一些改进的算法,主要内容如下:（1）介绍了数据挖掘的产生与发展以及数据挖掘中聚类分析的发展方向,总结了划分方法、层次方法、基于网格和密度聚类方法以及其他聚类方法的国内外发展现状,最后介绍了本文的主要研究内容和章节安排。（2）简要介绍了聚类算法的定义、相似性度量,聚类算法的分类和聚类方法的评价。详细讨论了数据挖掘中常用的聚类算法及其基本原理,最后对聚类算法的评价进行了讨论。（3）详细讨论传统k-means算法的基本思想、算法流程和算法性能。传统的k-means算法要求用户事先给定k值,限制了很多应用,初始中心点随机选择,容易导致局部极值点,常用的评价函数对于求解最优的聚类数目也不是很理想。针对这些问题,研究了一种新的评价函数-均衡化函数,同时采用基于密度的初始化中心点选择算法,自动生成聚类数目,实验结果表明了改进算法的有效性。（4）详细讨论了常用的几个划分判据,介绍谱聚类算法的基本框架和代表性算法,同时给出谱聚类算法的理论解释。通过分析谱聚类初始化敏感的特点,引入对初值不敏感的KHM算法克服这一缺点,在此基础上研究了初始化独立的谱聚类算法。实验结果表明该算法的有效性和可行性。最后,对论文的工作进行回顾和总结,就进一步有待研究的问题进行讨论和展望。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及研究意义

1.1.1 数据挖掘的产生和发展

1.1.2 数据挖掘中的聚类分析

1.2 国内外研究现状

1.2.1 基于划分的聚类方法

1.2.2 基于层次的聚类方法

1.2.3 基于网格和密度的聚类方法

1.2.4 其他聚类算法

1.3 本文的研究内容和结构安排

第二章聚类算法

2.1 聚类算法的基本概念

2.1.1 聚类定义

2.1.2 距离和相似性度量

2.1.3 类间的测度距离

2.2 主要的聚类方法

2.2.1 划分聚类方法

2.2.2 层次聚类方法

2.2.3 密度聚类方法

2.2.4 网格聚类方法

2.2.5 模型聚类方法

2.3 聚类算法的比较

2.4 聚类方法的评价

2.4.1 聚类的准确度

2.4.2 聚类的同构度和异构度

2.5 本章小结

第三章基于均衡化函数的K-MEANS 算法

3.1 引言

3.2 传统的K-MEANS 算法

3.2.1 算法基本思想及步骤

3.2.2 算法的性能分析

3.3 聚类有效性函数

3.3.1 评价函数

3.3.2 一种新的评价函数-均衡化函数

3.4 初始中心点选取方法

3.4.1 常用的聚类初始方法

3.4.2 基于密度的初始中心选择算法

3.5 基于均衡化函数的K-MEANS 优化算法

3.6 实验

3.6.1 Weka 机器学习平台

3.6.2 人工数据

3.6.3 真实数据

3.7 本章小结

第四章初始化独立的谱聚类算法

4.1 引言

4.2 谱图理论

4.2.1 谱图划分准则

4.2.2 谱聚类算法

4.2.3 谱聚类理论分析

4.3 初始化独立的谱聚类算法

4.3.1 K-Harmonic Means（KHM）算法

4.3.2 改进算法（SC-KHM）

4.4 仿真实验

4.4.1 人工数据

4.4.2 真实数据

4.5 本章小结

第五章总结与展望

致谢

参考文献

附录：作者在攻读硕士学位期间发表的论文

数据挖掘技术中聚类算法的研究

论文摘要

论文目录

相关论文文献

猜你喜欢