论文摘要
数据挖掘就是从海量数据中提取知识,又被称为数据库中的知识发现。它是一个跨学科的新兴研究领域。聚类分析是其中的一个重要分支,它研究数据间逻辑上或物理上的相互关系,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类。本文首先介绍了数据挖掘的基本概念、存在问题及发展方向。其次介绍了聚类分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的聚类算法。基于密度的聚类算法是本文的重点研究对象。研究表明,大多数基于密度的聚类算法需要输入初始参数,参数通常由用户根据经验给出,这往往是困难的。且密度参数通常简单的将聚类分为高低密度两种,无法反映整体数据的分布特点。为了解决此类算法面临的问题,本文提出一种基于密度与网格聚类算法相结合的自适应式聚类算法,它首先对数据进行网格化,然后分析网格的密度分布,从而自适应的得出一系列密度区间,这些区间的划分进而作为聚类的参数。这样的区间划分不再是简单的高低密度分界,而是反映了数据分布的特点。数据挖掘与科学研究的结合是近来新兴的研究课题,在很多方面都有值得研究的地方。大规模科学数据具有数据量大、特征复杂的特点,在对其进行处理时,往往使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学数据挖掘势在必行。本文对科学数据挖掘项目及其科学仿真数据进行了介绍,并且将所提出的自适应式网格密度聚类算法应用于科学仿真数据。并对聚类结果进行聚类特征的分析提取,提取的聚类特征表示了数据的整体物理变化过程。在本文的最后对全文内容进行总结,并展望了数据挖掘进一步研究和应用的方向。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 数据挖掘的发展及研究状况1.3 聚类分析研究及应用状况1.4 作者所做工作及本文内容安排1.4.1 作者所做工作1.4.2 本文内容安排第二章 数据挖掘概述2.1 数据挖掘的定义2.2 数据挖掘的功能2.3 数据挖掘的工作流程2.4 数据挖掘的主要方法2.5 数据挖掘的应用第三章 聚类方法基础3.1 聚类分析3.1.1 聚类的定义3.1.2 数据对象间的相异度3.1.3 数据挖掘对聚类分析的要求3.2 主要聚类方法及其研究进展评述3.2.1 基于划分的方法(partitioning method)3.2.2 基于层次的方法(hierarchical method)3.2.3 基于密度的方法(density-based method)3.2.4 基于网格的方法(grid-based method)3.2.5 基于模型的方法(model-based method)第四章 基于统计的自适应式网格密度聚类算法4.1 算法基础4.1.1 基于密度方法的理论基础4.1.2 基于网格方法的理论基础4.2 网格化4.2.1 静态网格化4.2.2 动态网格化4.2.3 不同网格化的特点分析4.3 统计分析4.3.1 统计密度分布4.3.2 密度分区4.4 收集网格并聚类4.5 分析与小结第五章 网格密度聚类在科学数据挖掘中的应用5.1 科学数据挖掘项目5.1.1 项目背景5.1.2 Lared-P 数据5.2 聚类算法应用于Lared-P 数据5.2.1 Lared-P 数据的网格化5.2.2 Lared-P 数据的密度分箱5.2.3 聚类操作5.2.4 聚类特征分析5.3 系统总体设计第六章 总结6.1 全文总结6.2 后续工作介绍致谢参考文献攻硕期间取得的成果
相关论文文献
标签:数据挖掘论文; 科学数据论文; 聚类分析论文; 密度论文; 网格论文;