基于微分隐私的统计数据分布算法的研究

基于微分隐私的统计数据分布算法的研究

论文摘要

随着科学技术的飞速发展,隐私保护成为一个重要性与日俱增的话题。许多机构拥有海量包含用户敏感信息的数据,发布这些数据具有很高的研究价值,然而可能对个人隐私信息造成威胁。如何保证发布数据既是可用的,又不会泄露数据中所包含个体的隐私信息成了近年来非常热门的研究课题。现有的许多隐私保护机制都忽视攻击者可能拥有背景知识,或者局限于保护某一类型的攻击。为了加强发布数据时对用户隐私的保护,Dwork等人提出了更强的隐私保护机制——微分隐私。利用微分隐私机制发布数据时,即使面对拥有数据库背景知识的攻击者,亦能保护数据库中个体的隐私。论文主要针对若干基于微分隐私的统计数据发布问题进行研究,力图设计出兼顾数据隐私安全和数据可用性的高效数据发布算法。论文的主要工作包括:(1)针对稀疏数据,设计出一个基于桶划分的高效微分隐私数据发布算法。算法利用贪心策略快速寻找出合理的桶划分方案,并用红黑树对算法中最邻近桶的查询和合并进行优化。与现有基于桶划分的算法相比,实验结果表明本文算法能在数据质量没有明显降低的同时有效提高数据发布的效率。(2)针对现有的微分隐私方法在处理较大区间统计查询时,存在查询结果精度过低的问题,提出一种基于“k叉平均树”的噪声添加模型。模型通过将原数据转化成一棵“k叉平均树”,然后对树上的每个节点添加噪声,最后利用公式从“k叉平均树”中导出发布数据。论文还对使查询结果的噪声方差上界最小的最优k取值进行分析,并从理论上证明k取值最优时,采用本文算法所导致的噪声方差上界比现有算法更小。基于固定区间大小和随机区间大小的两类区间统计查询实验对比结果表明,文中算法可有效提高查询结果的精度。(3)将一维区间查询中采用的基于“k叉平均树”的噪声添加模型拓展到多维的情形,以解决多维组合查询存在查询精度不高的问题。其基本思想是先顺序以每一维为核心,将多维拆成多个一维分别构建“k叉平均树”,然后分别添加噪声,最后逆序以每一维为核心,将多维拆成多个一维分别利用公式从“k叉平均树”导出发布数据。基于合成数据和真实数据的实验结果表明,文中算法可有效提高多维组合查询的精度。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 课题背景与意义
  • 1.2 研究现状
  • 1.3 主要内容和成果
  • 1.4 组织结构
  • 第二章 基于微分隐私的统计数据发布概述
  • 2.1 隐私保护统计数据发布
  • 2.2 微分隐私模型
  • 2.3 微分隐私的实现机制
  • 2.3.1 Laplace机制
  • 2.3.2 指数机制
  • 2.4 微分隐私变体
  • 第三章 微分隐私稀疏数据发布贪心算法
  • 3.1 引言
  • 3.2 问题提出
  • 3.2.1 频率矩阵的桶划分
  • 3.2.2 桶划分的误差
  • 3.3 CNMFG算法
  • 3.3.1 算法描述
  • 3.3.2 算法分析及优化
  • 3.4 实验分析
  • 3.4.1 误差分析
  • 3.4.2 时间效率分析
  • 3.5 本章小结
  • 第四章 基于k叉平均树的微分隐私数据发布算法
  • 4.1 引言
  • 4.2 问题提出
  • 4.3 DPAV算法
  • 4.3.1 算法相关定义与定理
  • 4.3.2 算法描述
  • 4.3.3 算法分析
  • 4.3.4 与同类算法的噪声比较
  • 4.4 实验分析
  • 4.4.1 固定区间大小的实验
  • 4.4.2 随机区间查询的实验
  • 4.5 本章小结
  • 第五章 面向多维组合查询的微分隐私数据发布算法
  • 5.1 本章引言
  • 5.2 问题提出
  • 5.3 MDPAV算法
  • 5.3.1 算法描述
  • 5.3.2 算法分析
  • 5.4 实验分析
  • 5.4.1 合成数据实验
  • 5.4.2 真实数据实验
  • 5.5 本章小结
  • 结论与展望
  • 参考文献
  • 致谢
  • 在学校期间的研究成果以及发表的学术论文
  • 个人简历
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于微分隐私的统计数据分布算法的研究
    下载Doc文档

    猜你喜欢