基于粗糙集理论的聚类研究

论文摘要

数据挖掘技术是机器学习、数据库和统计理论相结合的产物，是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中，提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。在数据挖掘领域中，聚类分析是一项重要的研究课题。与分类不同，聚类的目标是在没有任何先验知识的前提下，根据数据的相似性将数据聚合成不同的簇，使得相同簇中的元素尽可能相似，不同簇中的元素差别尽可能大，因此又被称为非监督分类。聚类分析作为数据挖掘系统中的一个模块，既可以作为一个单独的工具以发现数据库中数据分布的深层信息，也可以作为其他数据挖掘分析算法的一个预处理步骤，因此研究如何提高聚类算法的性能具有重要的意义。粗糙集理论是一种刻画不确定性和不完整性知识的数学工具，由波兰数学家Pawlak在上世纪八十年代初首先提出的。粗糙集理论善于分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注，并在各个领域获得了广泛的应用。在数据挖掘领域，粗糙集最初主要用于分类，而今有关粗糙集的研究已深入到该领域的各个方面。本文首先介绍了数据挖掘的定义和主要方法，重点对聚类分析技术的各种算法作了详细的介绍和比较，并提出了一种改进的层次聚类算法；本文仔细学习了粗糙集理论，提出了一种基于代数运算的属性约简方法，针对粗糙集理论善于处理不精确和不确定性知识的特点，将粗糙集理论引入聚类分析中，对传统聚类方法作了相应的改进，然后通过实验验证了这种改进有效性；本文最后分析了粒度和聚类的关系，在粒度框架下研究了粗糙集理论在聚类中的应用，并提出了一种基于粒度原理的聚类算法，然后对UCI数据库中两个数据集进行了实验，结果表明与没有引入粒度概念的传统聚类算法相比，该基于粒度原理的聚类算法明显提高了对数据点的分类正确率，验证了在粒度框架下将粗糙集理论用于聚类可以有效的提高聚类质量。

论文目录

摘要

Abstract

第一章绪言

1.1 数据挖掘简介

1.1.1 数据挖掘的概念

1.1.2 数据挖掘的一般过程

1.1.3 数据挖掘的主要方法

1.1.4 小结

1.2 粗糙集在数据挖掘中的应用

1.3 论文的组织结构

第二章聚类分析

2.1 聚类分析的介绍

2.2 聚类算法面临的挑战

2.3 聚类分析中的数据类型

2.3.1 数据矩阵

2.3.2 相异度矩阵

2.3.3 区间标度变量

2.3.4 相似性度量

2.4 聚类分析中的主要算法及其比较

2.4.1 聚类算法介绍

2.4.2 聚类算法的比较

2.5 基于层次的聚类改进算法

2.5.1 传统层次方法的不足之处

2.5.2 聚类质量评价标准

2.5.3 改进算法

2.5.4 仿真实验

2.5.5 结论

第三章粗糙集理论

3.1 粗糙集介绍

3.2 粗糙集理论的基本知识

3.2.1 不可分辨关系

3.2.2 集合的上、下近似

3.2.3 知识表达系统与决策表

3.3 属性的化简

3.3.1 属性的约简

3.3.2 属性的相对约简

3.4 粗糙集的研究现状

3.4.1 粗糙集数学性质方面的研究

3.4.2 粗糙集理论有效算法方面的研究

3.4.3 粗糙集模型拓展方面的研究

3.5 本章小结

第四章粗糙集在聚类分析中的应用

4.1 一种改进的属性约简算法

4.1.1 基于可辨识矩阵的基本约简算法

4.1.2 一种改进的属性约简算法

4.2 粗糙集在聚类中的应用

4.2.1 K-means 算法

4.2.2 最大最小距离算法

4.2.3 对传统的聚类算法的分析

4.3 基于粗糙集的 K-means 算法

4.3.1 算法介绍

4.3.2 算法流程

4.4 实验分析

4.4.1 实验环境

4.4.2 测试数据集

4.4.3 实验结果

4.5 本章小结

第五章聚类的粒度分析

5.1 信息粒度原理

5.1.1 信息粒度

5.1.2 信息粒度的形式化描述

5.1.3 不同粒度世界的关系

5.2 聚类分析中的粒度原理

5.2.1 聚类中的粒度原理

5.2.2 粒度框架下分析聚类结果和先验知识的不协调性

5.3 在聚类算法中引入粒度原理

5.3.1 非粒度聚类分析方法的缺陷

5.3.2 基于粒度原理聚类算法的思想框架

5.4 基于粒度原理 K-means 算法

5.4.1 粒度的选择

5.4.2 对边界区域数据的处理

5.4.3 算法流程

5.5 实验分析

5.5.1 实验环境

5.5.2 测试数据集

5.5.3 实验结果

5.6 本章小结

第六章总结和展望

6.1 本文总结

6.2 本文展望

参考文献

致谢

攻读硕士学位期间所发表的论文

基于粗糙集理论的聚类研究

论文摘要

论文目录

相关论文文献

猜你喜欢