
论文摘要
随着信息技术的迅速发展,需要分析和管理的数据日益增多。为了从数据中发现有价值的知识和规律,人们提出用数据挖掘来解决这一难题。数据挖掘及其应用已经渗透到多个学科,并在人工智能与机器学习、数据库、模式识别、生物信息学、神经计算等领域取得了丰硕的成果。作为数据挖掘的重要工具之一,聚类技术得到越来越多的关注,至今已提出了大量的理论和方法。随着数据挖掘技术的广泛应用,数据挖掘所面对的数据对象日趋复杂,聚类研究也面临更多新的内容和挑战。本文对数据挖掘技术,尤其是对聚类分析进行了较为系统的分析和研究,介绍了一些改进的算法,主要内容如下:(1)介绍了数据挖掘的产生与发展以及数据挖掘中聚类分析的发展方向,总结了划分方法、层次方法、基于网格和密度聚类方法以及其他聚类方法的国内外发展现状,最后介绍了本文的主要研究内容和章节安排。(2)简要介绍了聚类算法的定义、相似性度量,聚类算法的分类和聚类方法的评价。详细讨论了数据挖掘中常用的聚类算法及其基本原理,最后对聚类算法的评价进行了讨论。(3)详细讨论传统k-means算法的基本思想、算法流程和算法性能。传统的k-means算法要求用户事先给定k值,限制了很多应用,初始中心点随机选择,容易导致局部极值点,常用的评价函数对于求解最优的聚类数目也不是很理想。针对这些问题,研究了一种新的评价函数-均衡化函数,同时采用基于密度的初始化中心点选择算法,自动生成聚类数目,实验结果表明了改进算法的有效性。(4)详细讨论了常用的几个划分判据,介绍谱聚类算法的基本框架和代表性算法,同时给出谱聚类算法的理论解释。通过分析谱聚类初始化敏感的特点,引入对初值不敏感的KHM算法克服这一缺点,在此基础上研究了初始化独立的谱聚类算法。实验结果表明该算法的有效性和可行性。最后,对论文的工作进行回顾和总结,就进一步有待研究的问题进行讨论和展望。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景及研究意义1.1.1 数据挖掘的产生和发展1.1.2 数据挖掘中的聚类分析1.2 国内外研究现状1.2.1 基于划分的聚类方法1.2.2 基于层次的聚类方法1.2.3 基于网格和密度的聚类方法1.2.4 其他聚类算法1.3 本文的研究内容和结构安排第二章 聚类算法2.1 聚类算法的基本概念2.1.1 聚类定义2.1.2 距离和相似性度量2.1.3 类间的测度距离2.2 主要的聚类方法2.2.1 划分聚类方法2.2.2 层次聚类方法2.2.3 密度聚类方法2.2.4 网格聚类方法2.2.5 模型聚类方法2.3 聚类算法的比较2.4 聚类方法的评价2.4.1 聚类的准确度2.4.2 聚类的同构度和异构度2.5 本章小结第三章 基于均衡化函数的K-MEANS 算法3.1 引言3.2 传统的K-MEANS 算法3.2.1 算法基本思想及步骤3.2.2 算法的性能分析3.3 聚类有效性函数3.3.1 评价函数3.3.2 一种新的评价函数-均衡化函数3.4 初始中心点选取方法3.4.1 常用的聚类初始方法3.4.2 基于密度的初始中心选择算法3.5 基于均衡化函数的K-MEANS 优化算法3.6 实验3.6.1 Weka 机器学习平台3.6.2 人工数据3.6.3 真实数据3.7 本章小结第四章 初始化独立的谱聚类算法4.1 引言4.2 谱图理论4.2.1 谱图划分准则4.2.2 谱聚类算法4.2.3 谱聚类理论分析4.3 初始化独立的谱聚类算法4.3.1 K-Harmonic Means(KHM)算法4.3.2 改进算法(SC-KHM)4.4 仿真实验4.4.1 人工数据4.4.2 真实数据4.5 本章小结第五章 总结与展望致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:聚类分析论文; 评价函数论文; 谱聚类论文; 初始化敏感论文;