论文摘要
粗糙集理论是一种处理不精确、不一致、不完整等问题的数学工具,无需提供问题所需处理的数据集合之外的任何先验信息,可直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。属性约简是粗糙集理论中的重要问题,它是在保持分类能力不变的前提下,删除冗余的属性。寻求快速的约简算法是粗糙集理论的重要研究内容之一。本文针对属性约简展开研究,主要做了以下工作:(1)首先概述了粗糙集理论的相关知识,系统地分析了经典粗糙集理论的属性约简算法。(2)在现有属性约简算法上,提出了一种改进的属性约简算法,该算法根据粗集理论中相对正域的概念,只需对决策表中的各个属性扫描一次,属性和属性值的简化就可以同时完成。(3)在将属性重要性作为启发式信息的基础上,提出了一种基于属性重要度和依赖度进行求核和约简的方法,该方法区别于利用差别矩阵来求核的方法;同时对信息熵的属性约简算法进行了改进。并通过实例分析对提出的算法的有效性和可行性进行了验证。经过属性约简后的信息系统仍不是一个最简单的信息系统,还包含着大量的冗余信息,因此需要进行属性值约简,本文对一般值约简的算法进行了改进,大大降低了原有属性约简和值约简算法复杂程度,最终求取信息系统的最佳决策规则。最后,本文将得到的约简算法应用于数据挖掘的方法中,取得了较好的效果。