论文摘要
1982年,Z.PaMak教授提出了粗集理论,它是一种新的处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则.粗集理论与概率方法、模糊集方法和证据理论等其他处理不确定性问题的理论的最显著区别是它无需提供问题所需处理的数据集合之外的任何先验知识.由于该理论未能包含处理不精确或不确定原始数据的机制,所以与其他处理不确定性问题的理论有很强的互补性.粗集理论在数据挖掘、知识发现、模式识别、决策分析等诸多领域取得了广泛的应用.2002年史开泉教授将Z.Pawlak粗集进一步推广,提出了奇异粗集(singular rough sets),简称S-粗集,它有三种形式:单向S-粗集,单向S-粗集对偶和双向S-粗集.S-粗集将Z.Pawlak粗集的静态形式扩展成粗集的动态形式,使粗集具有了更为广泛的应用.2005年史开泉教授再次提出函数S-粗集,它是建立在函数论域基础上的.由于函数与规律等价,因此函数S-粗集可以广泛地应用于规律挖掘,规律识别等.本文的主要研究内容是:给出了粗集粗相似度的公理化定义;提出了粗模糊集中粗相似度和粗贴近度的概念,及其在模糊模式的粗识别方面的应用;提出了集合的条件熵的定义,并用以刻画粗集的不确定性;给出了基于粗糙熵的不协调信息系统中的知识约简方法;提出一种变精度粗模糊集的形式:θ-粗模糊集;最后对S-粗集的动态结构进行了研究,讨论了单元素迁移与S-粗集结构的关系.第一章绪论,首先叙述了Z.Pawlak粗集理论的提出背景、发展和研究近况,给出了Z.Pawlak粗集的定义和性质;其次给出了理论上的扩展S-粗集和函数S-粗集的定义.第二章给出粗集粗相似度的公理化定义,设U的幂集F(U)上的二元函数S:F(U)×F(U)→[0,1],(X,Y)(?)S(X,Y),若S满足下列条件:(1)S(X,Y)=S(Y,X);(2)S(X,Y)=1(?)X≈R Y;(3)RX∩RY=φ(?)S(X,Y)=0;(4)X(?)Y(?)Z(?)S(X,Z)≤{S(X,Y)∧S(Y,Z)},则称S(X,Y)是X与Y的相似度.并根据上粗相似度和下粗相似度,给出几种常用的粗相似度形式,证明了几种粗相似度形式都满足公理化定义,讨论了它们的具体性质.粗集的粗相似度是精确集相似度的推广.在第三章中,将粗相似度的定义推广到粗模糊集中(模糊集和粗集都用来解决不确定性问题,所以D.Dubois和H.Prade将两者结合,提出了粗模糊集的概念并给出了粗模糊集的一般形式),提出了粗模糊集中粗相似度<A,B>R的定义,即<A,B>R=(?),给出了它的基本性质,得到了定理3.2.10和定理3.2.11,它们分别是<A,B>R=0的充要条件是对任意的x∈U,都有(?)R(x)=0或(?)R(x)=0和<A,B>R=1的充要条件是对任意的x∈U,都有(?)R(x)=(?)R(x)且(?)R(x)=(?)R(x).在模糊集理论中,常用贴近度刻画不同模糊集间的相似程度,本章通过定义均值模糊集和粗隶属度的概念,将贴近度引入到粗模糊集中,称之为粗贴近度.定义了粗模糊集的Hamming粗贴近度、Euclid粗贴近度、最小-最大粗贴近度和最小平均粗贴近度,给出了它们的具体性质,得到了定理3.3.8和定理3.3.9.还给出了粗相似度与最小-最大粗贴近度的关系定理,即定理3.3.10.粗相似度和粗贴近度都可用来度量粗模糊集之间的相似程度,其中粗相似度侧重于局部(利用上、下近似求得),粗贴近度侧重于整体(利用粗隶属度求得).在一个模糊系统中,可以用不同模糊集之间的粗相似度量建立粗聚类模型和粗识别模型,基于本章介绍的这两种新度量,可以对近似空间中现有的粗模糊集进行聚类,然后根据聚类结果,利用最大相似度原理,对新的模糊样本进行粗识别,来判断它属于哪个模式.文中应用一个简单的例子解释了这种粗模式识别模型.第四章关于粗集的不确定性度量进行了研究.首先描述了知识的粗糙性,介绍了知识的粗糙熵概念,以及信息系统中知识与粗糙熵之间的关系.针对目标信息系统,介绍了知识的条件粗糙熵的概念,并在此基础上提出了一种新的刻画粗集不确定性的度量——集合的条件粗糙熵,简称条件熵,给出集合条件熵的具体性质和相关定理.在近似空间中,等价类划分越细时,知识的粒度越小,知识的不确定性就越小.定理4.5.4说明集合的条件熵也具有此性质,所以用其刻画粗集的粗糙性是合理的,而且,通过一个例子说明用条件熵刻画粗集不确定性比粗集的粗糙度要好.定理4.5.10说明在同一个近似空间中,将集合X和Y合并后,它们的粗糙熵即不确定性会变小,由此可应用于目标信息系统(决策系统)中,每一个决策集都可看作是一个粗集,将不同决策集合并会使得决策集的不确定性变小.另外,在目标信息系统(U,A∪D,f)中,目标属性集D在U上导出的划分为U/IND(D)={D1,D2,…,Dm),知识D相对于知识B的条件粗糙熵为H(D/B),那么有日(D/B):(?)HB(Dj)成立,这就是定理4.6.2,它揭示了知识的条件粗糙熵与本章定义的集合的条件熵之间的本质联系.对于目标信息系统(U,A∩D,f),D的条件粗糙熵反映了信息系统整体的不确定程度,条件属性集A导出的划分越细,不确定程度越小;而每个决策集Dj(j=1.2.….m)的条件熵反映的是信息系统局部的不确定程度,条件属性集A导出的划分越细,每个目标属性子集Dj的不确定程度都会变小,从而解释了整体的不确定程度会变小这一事实.第五章研究了信息系统中的知识约简问题,讨论了基于粗糙熵的知识约简方法.首先介绍了无目标信息系统的知识约简方法,然后重点研究了目标信息系统的知识约简问题.由于协调目标信息系统可看作是不协调信息系统的特殊情况,不协调信息系统的知识约简方法同样适用于协调的信息系统,所以本章只讨论了不协调信息系统中的知识约简问题.提出了目标信息系统中,目标集的粗糙熵、对象的粗糙熵等几种新概念,然后研究了这几种新概念和不协调信息系统中各种知识约简的等价关系,由定理5.3.8给出.在不协调信息系统(U,A∪D,f)中,B(?)A是分布协调集的充要条件是对任意的ui∈U,HB(D/ui)=HA(D/ui);B(?)A是分布协调集的充要条件是对任意的Dj,1≤j≤m,有HB(Dj)=HA(Dj);B(?)A是分配协调集(上近似协调集)的充要条件是(?)|{j:HB(Dj/ui)>0}1=(?)|{j:HA(Dj/ui)>0}|或(?)|{i:HB(Dj/ui)>0}|=(?)|{i:HA(Dj/ui)>0}|;B(?)A是下近似协调集的充要条件是|{k:HB(D/uk)=0}|=|{k:HA(D/uk)=0}|.进而提出了一种新的处理不协调信息系统知识约简的方法,基本步骤是先找出属性集的核,然后向核中添加重要性大的属性,最后可以得到不协调信息系统的分布约简、上近似约简(分配约简)和下近似约简.通过一个实例验证了该方法的有效性.第六章讨论了变精度粗模糊集的内容.给出一种新的变精度粗模糊集的概念:θ-粗模糊集,其中θ是误差参数,0<θ≤1.定理6.2.7说明随着精度θ的减小,粗模糊集的正域和负域将扩大,边界域将缩小,从而近似精度增大,粗糙度减小.特别地,若θ=1,则(?)θ和(?)θ分别退化为粗模糊集意义下的(?)和(?),而(?)αθ和(?)βθ分别退化为(?)α和(?)β.这说明θ-粗模糊集是粗模糊集在变精度意义下的推广.定理6.2.9是粗模糊集A依参数0<β≤α≤1的θ-下近似(?)αg和θ-上近似(?)βθ分别等于A的α-截集的θ-下近似和A的β-截集的θ-上近似.特别地,当A是经典集时,对于任意的α,β∈(0,1],(?)α和(?)β分别退化为A在Pawlak意义下的下近似(?)(A)和上近似(?)(A);而(?)αθ和(?)βθ分别退化为A在变精度模型下的θ-下近似(?)θ(A)和θ-上近似(?)θ(A).这说明,θ-粗模糊集是变精度粗集在模糊意义下的推广.最后用一个例子验证了本章的结果.第七章讨论了S-粗集中的单元素迁移,以及由单元素迁移引起的S-粗集结构的变化特征.定理7.2.2指出,对于集合X(?)U,元素u迁入X使得(?)X增大,(?)X不变的充要条件是:[u](?)Bn(X),[u]-u(?)X;u迁入X使得(?)X不变,(?)X增大的充要条件是:[u](?)Neg(X),card([u])≥2;u迁入X使得(?)X与(?)X都增大的充要条件是:[u](?)Neg(X),card([u])=1;u迁入X使得(?)X与(?)X都不变的充要条件是:[u](?)Bn(X),([u]-u)∩X≠φ.类似地,定理7.3.2讨论了单元素迁出的情况.双向S-粗集的动态结构特征:Xf={u|u∈U,u(?)X,f(u)=x∈X)是X的f-扩张,X?={x|x∈X,(?)(x)=u(?)X)是X的(?)-萎缩.设Xf={u1,u2,…,up),X?={u1,u2,…,uq},根据X*=X∪Xf-X?,我们可以把X*看作是由X先扩张后萎缩而得到的,X经过p次单元素迁入扩张成为X°,X°经过q次单元素迁出萎缩成为X*.每一次单元素迁移都会对粗集结构产生影响,具体情况可以根据定理7.2.2和定理7.3.2来判定.在集合扩张和萎缩的实际过程中,迁移的顺序可能是杂乱无章的,但这并不影响分析结果.本文的创新点:创新点1.给出粗集粗相似度的公理化定义,结合上粗相似度和下粗相似度给出了几种新的满足公理化定义的粗相似度形式.将粗相似度和模糊集中的贴近度概念拓展到粗模糊集中,给出了粗模糊集的粗相似度和粗贴近度的定义,研究了它们的具体性质,以及基于这两种度量的模糊模式的粗聚类和粗识别的简单算法.创新点1列于第二章和第三章中.创新点2.在条件粗糙熵理论的基础上,提出了集合的条件粗糙熵(简称为条件熵)的定义,并用粗集的条件熵来刻画其不确定性.将集合条件熵的定义应用到了目标信息系统(决策系统)中.对于目标信息系统而言,每个决策集的条件熵反映了系统局部的粗糙程度,所有决策集条件熵的和反映了目标信息系统整体的不确定程度.创新点2列于第四章中.创新点3.提出了目标信息系统中目标集的粗糙熵、对象的粗糙熵等几种新概念,研究了这几种新概念和不协调信息系统中各种知识约简(分布约简、上近似约简、分配约简和下近似约简)的等价关系,在此基础上给出了不协调信息系统中进行知识约简的方法.创新点3列于第五章中.创新点4.给出一种新的变精度粗模糊集的概念:θ-粗模糊集,给出θ-粗模糊集的性质定理.创新点4列于第六章中.创新点5.研究了S-粗集中的单元素迁移,以及引起的S-粗集结构的变化情况,用单元素迁移解释了双向S-粗集的动态结构特征.创新点5列于第七章中.