论文摘要
经过近几十年发展,以传统关系数据库模型为基础的关系数据库系统得到了广泛的认可和应用。然而,传统关系数据库模型也有自身的不足,如它对于不确定的数据处理能力较差。随着计算机应用领域的扩大和存储数据量的急剧膨胀,出现了诸如不确定信息、不完全信息、模糊信息等不规范信息。因此,为适应处理上述这些不规范信息,就有必要对传统关系数据库模型进行扩充。1993年,T.Beaubouef和F.E.Petry将粗集理论与关系数据库理论相结合提出了粗关系数据库模型,使得人们在处理不确定性问题上又向前迈进了一步。由于粗关系数据库属性值的非原子性使得传统关系数据库的许多特性不再适合于它。因此,需要根据粗关系数据库模型的所处理的数据具有的特性,对其进行深入研究。基于上述背景,本文首先介绍了粗关系数据库模型的研究现状。其次,针对粗关系数据库中数据的特性,提出了不确定性数据存储的一种方法。因为在粗关系数据库中可以根据属性值划分成若干个等价类,且在其后的数据库操作中也涉及到这些等价类的操作,所以本文在数据存储时,对等价类的存储进行了深入的研究,即研究借助数据结构中的邻接表来存储等价类。另外,由于粗关系数据库中的基本表是由非原子值组成的,因此,本文使用数据结构中的十字链表来存储粗关系数据库中的基本表。传统数据库查询方法是基于字符串匹配,虽然这种方法在粗关系数据库中也是可行的,但是这种查询效率非常低。目前,对粗关系数据库中数据查询是将粗关系数据库中的表分解成单值构成的子表进行查询,它没有充分利用粗关系数据库中等价类和Rough集中上、下近似等这些优势。因此在本文中,借助Rough集中的上、下近似,通过计算用户查询的数据与粗关系数据库中数据的相似度,以便查询出用户所需的数据。通过这种方法可以解决粗关系数据库中不确定性数据查询问题,但在查询之前应对粗关系数据库进行索引。传统关系数据库的索引技术发展非常成熟,但由于粗关系数据库的研究还属于初级阶段,其中对粗关系数据库数据索引技术的研究也刚刚起步。本文提出一种粗关系数据库索引的方法,即基于汉明距离来计算元组间的距离,构成距离矩阵,再根据该矩阵值将相同或相近的元组归类,从而有效地实现对表中的元组索引。最后,基于上述理论方法的研究,构建粗关系数据库查询模型,设计相应算法,实现部分算法并应用于实例中。