论文摘要
随着大规模数据库的广泛使用和Internet的迅猛扩展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有利用价值的信息,即数据挖掘((Data Mining,DM),已成为当前知识发现的主要研究课题之一。波兰数学家Pawlak提出的粗糙集理论是一种处理模糊、不确定知识的数学工具。知识约简属粗糙集理论研究的重要内容。通过约简以减少结构化数据的维数,获得数据集合的不同简洁程度表示是数据挖掘的一项重要任务。在现实生活中,由于数据的不确定甚至缺损现象的普遍存在,使得数据库使用者面临的信息系统绝大多数都是不完备的。同时,经典粗糙集理论缺乏对不完备信息的处理。因此,研究如何从不完备信息系统中获取知识的粗糙集方法在理论和实际应用中有着极为重要的意义。本文研究在数据缺失或信息不完备情况下基于粗糙集理论的数据挖掘方法,主要内容如下:第一,分析了数据挖掘过程中数据缺失问题,比较了处理不完备信息系统各种方法的优缺点。第二,将分布约简、最大分布约简和分配约简引入集值信息系统。在此基础上,提出了基于矩阵的分配约简的一般算法和启发式算法以及最大分布约简的一般算法,并分析了这些算法的时间复杂度。通过将不完备信息系统转化为集值信息系统,有效地解决了不完备信息系统的属性约简问题。第三,分别在相容关系和半序关系下,通过实验数据验证了所提出的约简算法的有效性,得到了相应的约简结果。第四,设计了一个不完备信息系统的数据挖掘系统模型。