论文摘要
随着计算机应用的普及,信息系统产生的数据量日益增大,如何有效地利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。由此数据挖掘技术应运而生并得以迅猛发展。聚类分析是数据挖掘中一种重要的挖掘手段。它从数据库中寻找数据间的相似性,并依此对数据进行聚类,使得不在同一类中的数据尽可能的相异,而同一类中的数据尽可能的相似。目前,研究者提出了很多种聚类算法,但因每种聚类算法都有其自身的优缺点及特定的适用数据范围,对于算法的比较便成为了当前的研究热点。本文提出了一种新的算法比较方法,即利用高斯生成数据对算法进行比较。此方法是基于现实中常有的类与类之间的覆盖现象而来的,基于覆盖率理论,生成的符合高斯分布的系列数据集,其分布中存在着覆盖现象,利用这些数据集作为测试集,实现聚类算法的比较。在引出生成数据之前,本文首先引入新的脊线概念,在此基础上介绍了覆盖率的相关知识,然后提出了几种影响数据分布的关键因素。最后,用C++语言,设计和实现了一个数据生成系统。这些生成的数据都具有高斯分布特性,我们将这些已知分布状况的数据集用在各种聚类算法中,对聚类结果进行分析比较,得出各种聚类算法对于不同数据集的适用范围,从而为以后已知数据集分布状况下的聚类算法的选取提出指导性建议。
论文目录
摘要Abstract第1章 绪论1.1 研究背景和意义1.2 国内外研究现状1.2.1 数据挖掘研究1.2.2 聚类分析研究1.2.3 覆盖率问题研究1.3 文章组织第2章 数据挖掘技术概述2.1 数据挖掘技术的概念2.2 数据挖掘的过程2.3 数据挖掘系统的分类2.4 数据挖掘常用技术第3章 聚类分析3.1 聚类分析的概念3.2 聚类分析的一般步骤3.3 聚类算法的分类3.3.1 划分方法3.3.2 基于层次的方法3.3.3 基于模糊的方法3.3.4 基于概率的方法3.3.5 基于模型的方法3.4 五种典型的聚类算法3.4.1 K-means算法3.4.2 最近邻算法3.4.3 FCM算法3.4.4 EM算法3.4.5 BP算法3.5 五种聚类算法的优缺点及实现环境第4章 高斯分布与覆盖率4.1 高斯分布模型的建立4.2 脊线原理4.3 覆盖率的定义4.4 覆盖率算法第5章 生成数据5.1 数据背景5.2 蒙特卡洛法基本思想5.3 影响数据分布的几个因素5.4 高斯数据生成过程5.4.1 程序的实现与各类参数意义5.4.2 高斯分布数据生成算法描述5.4.3 用于测试的各种数据集第6章 实验过程及结果分析6.1 实验结果6.2 结果分析第7章 结论与展望7.1 工作总结7.2 工作展望参考文献攻读硕士学位期间发表论文情况致谢
相关论文文献
标签:数据挖掘论文; 聚类分析论文; 高斯混合分布论文; 生成数据论文; 覆盖率论文;