论文摘要
随着计算机技术、网络连接性的迅速发展,磁盘存储空间日益增加,包含个人信息的数据收集的种类和数量呈指数增长。为了进行数据挖掘,数据所有者需要发布这些包含个人信息的数据。然而,对个人隐私的关注阻碍了个人数据的任意发布。因此,发布个人数据的同时不泄露数据中的敏感信息已经成为了一个普遍的问题。隐私保护的目的是保证攻击者不能以高置信度推测目标个体的敏感信息。在数据发布的过程,假设数据发布者始终知道待发布的数据中哪些属性是敏感属性。为了不泄露数据中包含的关于个体的敏感信息,数据发布者通常隐藏原始数据,而发布原始数据的匿名数据。另一方面,数据发布的目的是为了进行某些数据分析和研究,数据发布者必须保证基于匿名数据的数据分析具有较高的准确度。因此,在数据发布中的隐私保护研究中,关键在于如何平衡隐私保护与匿名数据可用性之间的矛盾。隐私保护方法通常将原始数据中的记录划分成多个等价类来进行发布,而且每个等价类需要满足一定的隐私规则。隐私保护的质量通常取决于同一等价类中敏感属性值的多样性。基于反聚类的隐私保护方法利用反聚类的思想尽可能的将具有独特敏感值的个体记录分配到同一个等价类中,并直接发布记录的类身份属性来尽可能的抓住原始数据中的大量信息。同时,平均保护期望综合考虑每个等价类中的记录数和独特敏感值的个数来衡量隐私保护的质量。研究表明,基于反聚类的隐私保护方法不仅能保证匿名数据的可用性还能提供更好的隐私保护。攻击者除了根据外部数据库获得目标个体的身份和类身份属性信息外,还可能通过各种其他途径获得其他的背景知识来推测目标个体的敏感信息。而遗憾的是数据发布者根本不可能准确的预知攻击者的背景知识。因此,数据发布者在进行数据发布时,只能假设攻击者可能具备一些确实存在又能被有效解决的背景知识。对于新的背景知识,反背景知识的隐私规则通过要求每个等价类中的记录满足一定的条件来使得攻击者不能通过其所获得的背景知识以很高的置信度推测目标个体的敏感信息。研究结果表明,该规则能有效地避免背景知识引起的隐私攻击,同时还能允许进行较准确的数据分析。数据的内容会因为插入、删除和修改等操作而改变。因此,当数据的内容发生改变时,必须对数据重新进行发布。通过联合同一原始数据在多个不同发布时刻的匿名数据,攻击者可能以很高的置信度推测目标个体的敏感信息。数据重发布中的隐私规则利用替换技术来保证一条记录在不同发布时刻的匿名数据中的签名满足一个包含的关系,从而使得攻击者不能通过联合多个不同发布时刻的匿名数据中的信息以很高的置信度推测目标个体的隐私信息。在现实生活中,由于数据中的个体不同、对数据的理解不同等原因,待发布的数据中可能包含多个敏感属性。多敏感属性对隐私保护提出了更多的挑战,例如攻击者可以通过联合敏感属性之间的对应关系和关于某些敏感属性的背景知识推测目标个体的敏感信息。已经提出的隐私规则基本上全部假设待发布的数据中只包含一个敏感属性,从而导致这些规则对面向多敏感属性的数据发布中的隐私泄露问题显得束手无策。面向多敏感属性数据发布中的隐规则通过局部改变敏感属性之间的对应结构使得攻击者不能根据敏感属性之间的对应关系推测目标个体的敏感信息。传统的隐私规则针对单一表结构数据发布中的隐私泄露问题,而不能直接用来解决社会网络数据发布中的隐私泄露问题。因为社会网络中的个体之间存在某种联系,具有某些结构特征,而表中的记录却是相互独立的。因此,社会网络数据发布中的隐私规则利用结构匿名和标签匿名来保证攻击者不能根据目标个体的结构特征和标签信息在匿名社会网络中识别目标个体。