论文摘要
社会网络是由多个社会行动者及他们间的关系组成的集合,它描述了社会个体、群体以及它们之间的关联。近年来,在Web2.0和各种社会性网络服务软件大量应用的背景下,很多用户拥有自己的电子邮件、微博、网上交易、社区空间等,通过这些社会性网络媒体,形成了各种各样的社交网络,许多已经演化为一种复杂网络,其中的数据具有大容量、高维数、非线性、无标度、小世界等特点。由于科学研究和数据共享等需要,社会网络数据被大量收集和发布,这些以信息共享、数据挖掘与知识发现等为目的的数据发布过程往往都伴随着个体和机构隐私信息的泄露风险,这就引发了对数据发布过程中隐私保护问题的研究,其主要目标是如何在保证发布数据效用的前提下,适当损失原始数据的信息来提高发布数据的安全性,从而达到隐私保护与数据效用之间的良好平衡。目前,数据发布中的隐私保护研究很大一部分集中在关系型数据集上,而针对网络数据发布的隐私保护研究才刚刚起步。本文立足于社会网络数据发布中的隐私保护服务需求,在保证信息强可用性的前提下,对社会网络数据发布中的隐私匿名技术进行了多方面深入的研究。首先,针对社会网络发布时由于邻域攻击所带来的隐私泄露问题,提出了一种(d, k)-匿名发布的社会网络隐私保护方法。在k-匿名的理论基础上,结合社会网络d-邻域攻击形式,给出了图的(d, k)-匿名模型,并形式化地定义了一类面向简单无向图的抗邻域攻击(d, k)-匿名问题;同时,还提出了一种基于高度节点优先的(d, k)-匿名算法来解决该匿名问题。实验结果表明:该算法能产生比已有方法更小的信息损失度,以及相当的时间开销,有效地抵制了d-邻域攻击,保护了发布网络图的隐私信息。其次,针对社会网络图发布时由于结构攻击所带来的隐私泄露问题,提出了一种K+-同构隐私匿名方法。在k-同构的理论基础上,提出了图的k+-同构模型,并形式化地定义了一类面向简单无向图的k+-同构匿名问题;同时,还提出了一种基于全局结构分区的k+-同构算法来解决该图同构匿名问题。并从理论上分析了算法的有效性和复杂性,最后通过仿真实验表明:在同等条件下,该算法能产生比传统的k-同构方法更小的信息损失度,以及相当的时间效率,具有较高的有效性。再次,针对以二分图形式发布的社会网络隐私泄露问题,提出了一种面向敏感边识别攻击的社会网络二分图匿名方法。在已有k-安全分组的理论基础上,结合二分图敏感边识别攻击形式,分别提出了的正单向(c1, c2)-安全性、逆单向(c1, c2)-安全性以及完全(c1,c2)-安全性原则,并在此基础上,形式化地定义了一类抗敏感边识别攻击的社会网络二分图(c1,c2)-安全匿名问题;同时,还提出了一种基于聚类的二分图(c1,c2)-安全性算法(Clustering-based bipartite (c1,c2)-security algorithm, CBB(c1,c2)-security)来保证发布二分图的安全性。实验结果表明:该算法在与已有方法相当时间开销的前提下,能产生更小的信息损失度,有效地抵制了敏感边识别攻击,实现了二分图的安全发布。最后,针对社会网络发布时由于复合攻击所带来的隐私泄露问题,提出了一种(k, l)-匿名发布隐私保护方法。首先在k-同构和l-多样性的理论基础上,结合社会网络结构攻击和属性攻击,给出了复合攻击形式和图的(k, l)-匿名模型,并形式化地定义了一类节点具有单敏感属性的简单无向图的(k, l)-匿名问题;同时,还提出了一种基于k-匿名和l-多样性的属性泛化算法来解决该匿名问题。实验结果表明:该算法能产生比已有方法更小的信息损失度,以及相当的时间开销,有效地抵制了复合攻击,保护了发布社会网络的隐私信息。