大规模科学数据挖掘中密度聚类算法的研究

论文摘要

数据挖掘就是从海量数据中提取知识,又被称为数据库中的知识发现。它是一个跨学科的新兴研究领域。聚类分析是其中的一个重要分支,它研究数据间逻辑上或物理上的相互关系,通过一定的规则将数据集划分为在性质上相似的数据点构成的若干个类。本文首先介绍了数据挖掘的基本概念、存在问题及发展方向。其次介绍了聚类分析的基本概念、分类及一些常见的算法思想,并着重讨论了一些经典的聚类算法。基于密度的聚类算法是本文的重点研究对象。研究表明,大多数基于密度的聚类算法需要输入初始参数,参数通常由用户根据经验给出,这往往是困难的。且密度参数通常简单的将聚类分为高低密度两种,无法反映整体数据的分布特点。为了解决此类算法面临的问题,本文提出一种基于密度与网格聚类算法相结合的自适应式聚类算法,它首先对数据进行网格化,然后分析网格的密度分布,从而自适应的得出一系列密度区间,这些区间的划分进而作为聚类的参数。这样的区间划分不再是简单的高低密度分界,而是反映了数据分布的特点。数据挖掘与科学研究的结合是近来新兴的研究课题,在很多方面都有值得研究的地方。大规模科学数据具有数据量大、特征复杂的特点,在对其进行处理时,往往使得理解、分析这些科学数据,并从中获取知识变得十分困难,由此科学数据挖掘势在必行。本文对科学数据挖掘项目及其科学仿真数据进行了介绍,并且将所提出的自适应式网格密度聚类算法应用于科学仿真数据。并对聚类结果进行聚类特征的分析提取,提取的聚类特征表示了数据的整体物理变化过程。在本文的最后对全文内容进行总结,并展望了数据挖掘进一步研究和应用的方向。

论文目录

摘要

Abstract

第一章绪论

1.1 研究背景

1.2 数据挖掘的发展及研究状况

1.3 聚类分析研究及应用状况

1.4 作者所做工作及本文内容安排

1.4.1 作者所做工作

1.4.2 本文内容安排

第二章数据挖掘概述

2.1 数据挖掘的定义

2.2 数据挖掘的功能

2.3 数据挖掘的工作流程

2.4 数据挖掘的主要方法

2.5 数据挖掘的应用

第三章聚类方法基础

3.1 聚类分析

3.1.1 聚类的定义

3.1.2 数据对象间的相异度

3.1.3 数据挖掘对聚类分析的要求

3.2 主要聚类方法及其研究进展评述

3.2.1 基于划分的方法（partitioning method）

3.2.2 基于层次的方法（hierarchical method）

3.2.3 基于密度的方法（density-based method）

3.2.4 基于网格的方法（grid-based method）

3.2.5 基于模型的方法（model-based method）

第四章基于统计的自适应式网格密度聚类算法

4.1 算法基础

4.1.1 基于密度方法的理论基础

4.1.2 基于网格方法的理论基础

4.2 网格化

4.2.1 静态网格化

4.2.2 动态网格化

4.2.3 不同网格化的特点分析

4.3 统计分析

4.3.1 统计密度分布

4.3.2 密度分区

4.4 收集网格并聚类

4.5 分析与小结

第五章网格密度聚类在科学数据挖掘中的应用

5.1 科学数据挖掘项目

5.1.1 项目背景

5.1.2 Lared-P 数据

5.2 聚类算法应用于Lared-P 数据

5.2.1 Lared-P 数据的网格化

5.2.2 Lared-P 数据的密度分箱

5.2.3 聚类操作

5.2.4 聚类特征分析

5.3 系统总体设计

第六章总结

6.1 全文总结

6.2 后续工作介绍

致谢

参考文献

攻硕期间取得的成果

大规模科学数据挖掘中密度聚类算法的研究

论文摘要

论文目录

相关论文文献

猜你喜欢