论文摘要
数据发布为数据交换和数据共享提供了便利,但是数据发布的同时,个人隐私信息泄漏的问题也日益突出,隐私保护已成为数据库安全领域面临的一个新挑战。K-匿名作为数据发布中保护个人隐私的一种重要方法受到了广泛的关注。本文对K-匿名技术进行深入研究,为了更好的平衡隐私保护与匿名数据可用性之间的矛盾问题,提出一种新的匿名模型及算法,主要研究内容如下。本文针对现有K-匿名过程中没有充分考虑敏感属性的隐私保护度问题,提出一种基于敏感属性隐私保护度分组的(p,α)-Sensitive K-匿名隐私保护模型。该模型首先对不同的敏感属性值进行分析,根据敏感属性的隐私保护度划分成不同的组,然后为各个敏感属性组设置不同的组隐私泄漏率,这样不仅可以对隐私保护度相同的敏感属性提供同样的保护,而且也可以对分组中高敏感性的属性值提供更强的保护。同时,本文对当前匿名泛化算法的不足进行分析,结合聚类和泛化的方法实现了(p,α)-Sensitive K-匿名模型,聚类的过程中使每个类中的元组尽可能的相似,并给出相关的距离定义、信息损失计算公式以及实现该模型的聚类泛化算法。本文利用经典Adult数据集对该模型进行验证,从算法的执行时间和信息损失两方面进行分析。实验结果表明,本文提出的解决方案不仅能有效地保护高敏感性的隐私信息,降低了隐私泄漏的风险,还能减少数据匿名化处理所带来的信息损失,提高了数据的质量。