论文摘要
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。在数据挖掘领域中,聚类分析是一项重要的研究课题。与分类不同,聚类的目标是在没有任何先验知识的前提下,根据数据的相似性将数据聚合成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大,因此又被称为非监督分类。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。粗糙集理论是一种刻画不确定性和不完整性知识的数学工具,由波兰数学家Pawlak在上世纪八十年代初首先提出的。粗糙集理论善于分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注,并在各个领域获得了广泛的应用。在数据挖掘领域,粗糙集最初主要用于分类,而今有关粗糙集的研究已深入到该领域的各个方面。本文首先介绍了数据挖掘的定义和主要方法,重点对聚类分析技术的各种算法作了详细的介绍和比较,并提出了一种改进的层次聚类算法;本文仔细学习了粗糙集理论,提出了一种基于代数运算的属性约简方法,针对粗糙集理论善于处理不精确和不确定性知识的特点,将粗糙集理论引入聚类分析中,对传统聚类方法作了相应的改进,然后通过实验验证了这种改进有效性;本文最后分析了粒度和聚类的关系,在粒度框架下研究了粗糙集理论在聚类中的应用,并提出了一种基于粒度原理的聚类算法,然后对UCI数据库中两个数据集进行了实验,结果表明与没有引入粒度概念的传统聚类算法相比,该基于粒度原理的聚类算法明显提高了对数据点的分类正确率,验证了在粒度框架下将粗糙集理论用于聚类可以有效的提高聚类质量。
论文目录
摘要Abstract第一章 绪言1.1 数据挖掘简介1.1.1 数据挖掘的概念1.1.2 数据挖掘的一般过程1.1.3 数据挖掘的主要方法1.1.4 小结1.2 粗糙集在数据挖掘中的应用1.3 论文的组织结构第二章 聚类分析2.1 聚类分析的介绍2.2 聚类算法面临的挑战2.3 聚类分析中的数据类型2.3.1 数据矩阵2.3.2 相异度矩阵2.3.3 区间标度变量2.3.4 相似性度量2.4 聚类分析中的主要算法及其比较2.4.1 聚类算法介绍2.4.2 聚类算法的比较2.5 基于层次的聚类改进算法2.5.1 传统层次方法的不足之处2.5.2 聚类质量评价标准2.5.3 改进算法2.5.4 仿真实验2.5.5 结论第三章 粗糙集理论3.1 粗糙集介绍3.2 粗糙集理论的基本知识3.2.1 不可分辨关系3.2.2 集合的上、下近似3.2.3 知识表达系统与决策表3.3 属性的化简3.3.1 属性的约简3.3.2 属性的相对约简3.4 粗糙集的研究现状3.4.1 粗糙集数学性质方面的研究3.4.2 粗糙集理论有效算法方面的研究3.4.3 粗糙集模型拓展方面的研究3.5 本章小结第四章 粗糙集在聚类分析中的应用4.1 一种改进的属性约简算法4.1.1 基于可辨识矩阵的基本约简算法4.1.2 一种改进的属性约简算法4.2 粗糙集在聚类中的应用4.2.1 K-means 算法4.2.2 最大最小距离算法4.2.3 对传统的聚类算法的分析4.3 基于粗糙集的 K-means 算法4.3.1 算法介绍4.3.2 算法流程4.4 实验分析4.4.1 实验环境4.4.2 测试数据集4.4.3 实验结果4.5 本章小结第五章 聚类的粒度分析5.1 信息粒度原理5.1.1 信息粒度5.1.2 信息粒度的形式化描述5.1.3 不同粒度世界的关系5.2 聚类分析中的粒度原理5.2.1 聚类中的粒度原理5.2.2 粒度框架下分析聚类结果和先验知识的不协调性5.3 在聚类算法中引入粒度原理5.3.1 非粒度聚类分析方法的缺陷5.3.2 基于粒度原理聚类算法的思想框架5.4 基于粒度原理 K-means 算法5.4.1 粒度的选择5.4.2 对边界区域数据的处理5.4.3 算法流程5.5 实验分析5.5.1 实验环境5.5.2 测试数据集5.5.3 实验结果5.6 本章小结第六章 总结和展望6.1 本文总结6.2 本文展望参考文献致谢攻读硕士学位期间所发表的论文
相关论文文献
标签:数据挖掘论文; 聚类论文; 粗糙集论文; 属性约简论文; 粒度论文;