论文摘要
近年来,随着移动终端功能的逐渐增强、移动互联网的逐步形成和完善,基于位置的服务得到了迅猛的发展。为了满足移动系统设计和科学研究的需要,大量的位置路径信息被收集并且发布。虽然为了保护用户的隐私,大部分公开数据集都采用隐藏真实ID和引入噪声信息的方法来进行匿名处理。然而,它们仍然存在位置隐私泄露的隐患,位置信息仍然能够被攻击者通过少量的参考信息轻易获取。例如,贝叶斯方法可以在同步信息条件下最优地实现匿名路径集合中身份识别问题。本文进一步分析了贝叶斯方法在异步条件下的识别效果,实验证明,虽然贝叶斯方法能够在同步条件下取得良好性能,但是在异步条件下的识别准确率不足20%。因此,本文针对异步信息场景探讨了相关的问题,提出热点矩阵和移动频谱两种针对异步信息条件的实现方案。分析并指出匿名处理即使在异步信息条件下也是脆弱的:即使只有部分位置信息被暴露给攻击者,并且这些位置信息和公开数据集的收集过程不在同一时段内,攻击者依然能够比较准确地识别出节点在公开数据集中的身份。本文的主要工作及贡献有一下几个方面:1、提出在受限制的异步信息条件下的匿名路径集合中身份识别问题,并分析讨论该问题存在的可能性,以及异步攻击的可能性。由于公开数据集的收集者在数据收集时会采取保护措施,所以获取同步参考信息显然将更加困难。而异步参考信息由于不受公开数据集收集时间的限制,其获取方式更加灵活,更易被攻击者获得。2、提出针对异步信息条件下匿名路径集合中身份识别问题的热点矩阵法。热点矩阵法利用用户位置分布在空间上具有相对集中的特性,将移动轨迹在空间上的频率分布作为量化移动特征的方法,称之为热点矩阵。提出向量夹角余弦值和频率分布向量两种比较热点矩阵相似度的方法,并且对其相似度比较的性能在真实数据集上进行了验证。实验证明向量夹角余弦值法在比较热点矩阵相似度上的性能远优于频率分布向量法。据此,提出热点矩阵法在异步信息条件下的识别方案:首先计算参考信息和公开路径的热点矩阵,然后从公开路径中选择与参考信息热点矩阵相似度最高的节点作为识别结果。最后,在人类、出租车和公交车三个真实数据集合上对热点矩阵法进行了实验验证,分别能够取得65%、55%和95%以上的识别准确率。3、提出针对异步信息条件下匿名路径集合中身份识别问题的移动频谱法。移动频谱法是一种类似于光和无线电波的频谱分析的方法,它是一个二维矩阵,同时能够描述移动节点的时间和空间特性。提出重合区域、杰卡德相似系数和豪斯道夫距离三种比较移动频谱相似度的方法,并且对其相似度比较的性能在真实数据集上进行了验证。实验证明重合区域、杰卡德相似系数法在比较移动频谱相似度上的性能比较接近,并且远优于豪斯道夫距离法。据此,提出移动频谱法在异步信息条件下的识别方案:首先计算参考信息和公开路径的移动频谱,然后从公开路径中选择与参考信息移动频谱相似度最高的节点作为识别结果。最后,在人类、出租车和公交车三个真实数据集合上对移动频谱法进行了实验验证,分别能够取得70%、60%和95%以上的识别准确率。综上所述,本文提出了异步信息条件下的匿名路径集合中身份识别问题,并且针对异步信息条件,提出两种基于移动特征的识别方法,其识别性能远优于已有方法在异步条件下的表现。