利用高斯生成数据对聚类算法的比较

论文摘要

随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此数据挖掘技术应运而生并得以迅猛发展。聚类分析是数据挖掘中一种重要的挖掘手段。它从数据库中寻找数据间的相似性,并依此对数据进行聚类,使得不在同一类中的数据尽可能的相异,而同一类中的数据尽可能的相似。目前,研究者提出了很多种聚类算法,但因每种聚类算法都有其自身的优缺点及特定的适用数据范围,对于算法的比较便成为了当前的研究热点。本文提出了一种新的算法比较方法,即利用高斯生成数据对算法进行比较。此方法是基于现实中常有的类与类之间的覆盖现象而来的,基于覆盖率理论,生成的符合高斯分布的系列数据集,其分布中存在着覆盖现象,利用这些数据集作为测试集,实现聚类算法的比较。在引出生成数据之前,本文首先引入新的脊线概念,在此基础上介绍了覆盖率的相关知识,然后提出了几种影响数据分布的关键因素。最后,用C++语言,设计和实现了一个数据生成系统。这些生成的数据都具有高斯分布特性,我们将这些已知分布状况的数据集用在各种聚类算法中,对聚类结果进行分析比较,得出各种聚类算法对于不同数据集的适用范围,从而为以后已知数据集分布状况下的聚类算法的选取提出指导性建议。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 数据挖掘研究

1.2.2 聚类分析研究

1.2.3 覆盖率问题研究

1.3 文章组织

第2章数据挖掘技术概述

2.1 数据挖掘技术的概念

2.2 数据挖掘的过程

2.3 数据挖掘系统的分类

2.4 数据挖掘常用技术

第3章聚类分析

3.1 聚类分析的概念

3.2 聚类分析的一般步骤

3.3 聚类算法的分类

3.3.1 划分方法

3.3.2 基于层次的方法

3.3.3 基于模糊的方法

3.3.4 基于概率的方法

3.3.5 基于模型的方法

3.4 五种典型的聚类算法

3.4.1 K-means算法

3.4.2 最近邻算法

3.4.3 FCM算法

3.4.4 EM算法

3.4.5 BP算法

3.5 五种聚类算法的优缺点及实现环境

第4章高斯分布与覆盖率

4.1 高斯分布模型的建立

4.2 脊线原理

4.3 覆盖率的定义

4.4 覆盖率算法

第5章生成数据

5.1 数据背景

5.2 蒙特卡洛法基本思想

5.3 影响数据分布的几个因素

5.4 高斯数据生成过程

5.4.1 程序的实现与各类参数意义

5.4.2 高斯分布数据生成算法描述

5.4.3 用于测试的各种数据集

第6章实验过程及结果分析

6.1 实验结果

6.2 结果分析

第7章结论与展望

7.1 工作总结

7.2 工作展望

参考文献

攻读硕士学位期间发表论文情况

致谢

利用高斯生成数据对聚类算法的比较

论文摘要

论文目录

相关论文文献

猜你喜欢