数据挖掘中几种划分聚类算法的比较及改进

论文摘要

数据挖掘技术是一种多学科交叉的新兴技术,它是随着数据的大量积累以及市场竞争对信息与知识的迫切需求而产生和发展起来的,并逐渐成为人们关注的热点。聚类分析是数据挖掘领域中一个较活跃且极具挑战性的研究方向。目前聚类算法中比较流行且应用比较广泛的划分聚类算法主要有K-均值、K-调和均值、模糊C-均值和谱聚类等划分算法。但这些算法自身都存在一些缺陷,例如对初始点敏感、不适用于大数据以及收敛速度慢等。主成分分析是一种将分散在一组变量上的信息集中到某几个综合指标（主成分）上的探索性统计分析方法,同时也是一种数据降维处理技术。本文借助主成分分析的一些优点,提出一种基于最大或次大特征值的主成分分析（PCA）聚类算法。该算法同时结合主成分分析以及所选择的聚类算法的优点,通过数值实验表明该算法是一个有效可行的算法。同时,根据聚类分析中距离度量的重要性,本文在K-均值算法中引用了一种新的距离度量,得到了改进的K-均值聚类算法。该算法通过一个参数的调节可以达到非常好的聚类效果。本文首先是阐述了聚类分析以及主成分分析的一些理论基础,分析和比较了几类较流行的划分聚类算法,并在说明现有算法的不足的基础上提出了两类改进的聚类算法。通过MATLAB编程进行数值实验,数值实验结果表明,基于最大或次大特征值的PCA聚类算法在计算时间、迭代次数以及聚类结果上都有一定优势,而改进的K-调和均值算法通过调节参数也可以得到很好的聚类效果,同时在聚类时间和迭代次数方面比传统的K-调和均值算法更具优势。

论文目录

摘要

Abstract

1 绪论

1.1 数据挖掘简介

1.2 聚类分析概述

1.3 聚类分析研究现状

1.4 本文的研究内容

2 聚类算法基础

2.1 聚类过程概述

2.2 聚类分析中相似性度量方法

2.2.1 元组之间的相似性度量方法

2.2.2 簇之间的相似性度量方法

2.3 聚类算法

2.3.1 层次聚类算法

2.3.2 划分聚类算法

2.3.3 大型数据库聚类算法

2.4 常用划分聚类算法的分析与比较

2.4.1 K-均值聚类算法

2.4.2 K-调和均值聚类算法

2.4.3 模糊C-均值聚类算法

2.4.4 谱聚类算法

2.5 主成分分析的基本知识

2.5.1 主成分分析的基本概念

2.5.2 主成分分析的特点

2.5.3 主成分分析方法的基本原理

3 基于最大或次大特征值的PCA聚类算法

3.1 基于最大或次大特征值的PCA聚类算法

3.2 PCA聚类算法

3.3 数值实验结果与分析

3.3.1 基于PCA的聚类算法中特征值的选取实验

3.3.2 各聚类算法数值实验的比较和分析

3.4 小结

4 改进的K-调和均值算法

4.1 一种新的距离度量

4.2 改进的K-调和均值算法

4.3 数值实验结果与分析

4.4 小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

数据挖掘中几种划分聚类算法的比较及改进

论文摘要

论文目录

相关论文文献