面向数据挖掘的隐私保护方法研究

面向数据挖掘的隐私保护方法研究

论文摘要

数据挖掘技术的研究工作极大地推动了自动化数据分析和预测技术的发展。现有的数据挖掘技术,包括探索性分析、描述性和预测性建模、模式和规则发现、内容分析等,已逐渐应用于各类政府服务以及商业科研活动中。对原始数据的访问是挖掘工作开展的前提,但对持有者而言,数据集通常具有私密性,直接访问该类数据将构成隐私威胁。随着信息隐私保护的相关政策和法律法规陆续问世,隐私问题成为数据挖掘迈向实际应用的重大阻碍之一。采用技术手段,能够在保证足够精度和准确度的前提下,使数据挖掘方在不触及实际隐私数据的同时,仍能进行有效挖掘工作,称为数据挖掘的隐私保护方法。围绕分类挖掘、聚类挖掘和关联规则挖掘等主要的数据挖掘方法,已经展开了许多研究工作。而隐私保护的有效性以及与挖掘环境的耦合性是数据挖掘隐私保护方法需要解决的根本问题。围绕该问题,本文从隐私保护方法的安全评估与增强以及隐私保护方法与环境耦合度方面展开了深入研究。从隐私保护技术角度,本文首先分析和总结了现有数据挖掘隐私保护方法的发展,从数据分布、挖掘类型、保护技术等视角给出了现有数据挖掘隐私保护方法的完整分类视图,并在此基础上进行了比较和归纳。数据扰乱方法是集中式环境中的主要数据挖掘隐私保护方法,其中加性随机干扰技术具有代表性。本文通过对该技术进行矩阵建模,采用特征向量分解技术,发现现有的随机干扰技术在特征值分解攻击中存在脆弱性,也使得原有的隐私强度评估方法失去效用。针对该问题,本文提出了新的隐私强度量化评估模型,并通过上限阀值曲线投影,推导和设计了基于该评估模型的随机干扰改进方法。实验表明,该方法在基于特征向量分解的攻击中具有鲁棒性。随机干扰技术是一种通用的数据扰乱方法,对其进行有效评估和改进具有通用性和普遍意义。分布式环境是数据挖掘应用增长较快的领域,但由于分布式环境的复杂度和安全问题,传统集中式数据挖掘隐私保护方法无法直接应用于分布式环境中。本文分析和定义了分布式挖掘环境的隐私安全等级,并给出了相应的隐私约束问题定义。基于该问题,提出了多方安全统计方法和k匿名置换协议,并在此基础上给出了分布式数据扰乱隐私保护方法,将集中式加性随机干扰技术安全应用于分布式环境中。之后通过定义多个共谋攻击和恶意攻击模型,对方法的安全性进行了分析,在实验和分析中证明了该方法在半诚实环境中是隐私安全的,具有极高的健壮性。对该方法的研究,使传统集中式的随机扰乱和重建技术能够直接应用于分布式环境中,使之成为扰乱技术在分布式环境中实现的一般化框架。欧氏空间运算是数据挖掘的基础算法之一。本文分析和研究了基于欧氏空间运算的分布式数据挖掘隐私保护方法的安全性,发现在共谋攻击中存在安全威胁。结合同态加密技术,本文提出了欧氏空间下的三方及多方安全距离比较协议,并在预处理、并行计算、协议归并等方面进行性能优化。最后应用于全分布式的k中值聚类过程,通过实验证明了方法的安全性和优化的有效性。此外,安全距离比较协议也能够直接支持基于欧氏距离及其扩展的数据挖掘方法,如k近邻、k均值等,在分类挖掘、聚类挖掘、Web挖掘等领域具有通用性和普遍意义。最后,对本文的研究工作进行了总结和展望,从基于信号处理的随机扰乱与统计方法、随机扰乱方法的统一评估标准、分布式环境下的通用匿名数据运算方法、半诚实环境中共谋攻击的统一安全性衡量方法、密码机制在迭代计算中的优化方法等角度探讨了继续研究的可行性和预期目标。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 数据挖掘概述
  • 1.2 隐私与隐私保护的发展
  • 1.2.1 隐私概念
  • 1.2.2 信息时代的隐私
  • 1.3 面向数据挖掘的隐私保护技术与方法
  • 1.3.1 数据挖掘中的隐私保护问题
  • 1.3.2 数据挖掘中的隐私保护基础技术
  • 1.3.3 隐私保护技术与面向数据挖掘的隐私保护方法
  • 1.4 主要研究工作及创新点
  • 1.4.1 主要工作及创新
  • 1.4.2 论文的组织结构
  • 第二章 数据挖掘隐私保护方法分类综述
  • 2.1 数据挖掘隐私保护方法分类
  • 2.1.1 隐私保护技术与隐私保护方法的总体视图
  • 2.1.2 隐私保护技术的实现过程
  • 2.2 集中式环境下的数据挖掘隐私保护方法
  • 2.2.1 基于随机干扰的关联规则挖掘隐私保护方法
  • 2.2.2 基于随机干扰的聚类挖掘隐私保护方法
  • 2.2.3 基于数据屏蔽的分类挖掘隐私保护方法
  • 2.2.4 基于数据泛化的k 匿名隐私保护方法
  • 2.3 分布式环境下的数据挖掘隐私保护方法
  • 2.3.1 水平分布下基于不经意传输的分类挖掘隐私保护方法
  • 2.3.2 垂直分布下基于随机干扰的分类挖掘隐私保护方法
  • 2.3.3 分布式的基于随机干扰的聚类挖掘隐私保护方法
  • 2.4 其他隐私保护方法
  • 2.5 隐私保护的评估指标
  • 2.6 本章小结
  • 第三章 集中式数据挖掘隐私保护中的数据扰乱方法研究
  • 3.1 引言
  • 3.1.1 随机扰乱技术及评估方法
  • 3.1.2 本章的工作
  • 3.2 随机干扰与重建技术及隐私评估方法
  • 3.3 随机干扰方法的矩阵模型
  • 3.4 数据隐私强度的新评估方法
  • 3.4.1 估计矩阵的向量空间
  • 3.4.2 隐私强度评估方法
  • 3.5 基于新评估模型的数据扰乱方法
  • 3.6 安全性及性能分析
  • 3.6.1 人工样本数据实验
  • 3.6.2 KDD 样本数据实验
  • 3.7 本章小结
  • 第四章 分布式数据挖掘隐私保护中的数据扰乱方法研究
  • 4.1 引言
  • 4.1.1 数据分布与隐私保护方法
  • 4.1.2 本章的工作
  • 4.2 分布式数据挖掘中的隐私安全问题
  • 4.2.1 分布式环境的隐私安全等级划分
  • 4.2.2 分布式数据挖掘中的隐私
  • 4.3 多方安全统计协议设计
  • 4.3.1 多方安全求和协议
  • 4.3.2 多方安全方差统计协议
  • 4.3.3 协议的安全性分析
  • 4.4 分布式数据扰乱隐私保护方法
  • 4.4.1 分布式数据扰乱方法框架
  • 4.4.2 分布式数据扰乱方法设计
  • 4.4.3 k 匿名置换方法
  • 4.4.4 半诚实环境下的安全分析
  • 4.4.5 非诚实环境下的安全分析
  • 4.4.6 通信及计算代价分析
  • 4.4.7 非全分布状态下的优化与分析
  • 4.5 本章小结
  • 第五章 分布式数据挖掘隐私保护中欧氏空间安全运算方法研究
  • 5.1 引言
  • 5.1.1 欧氏空间下的数据挖掘技术及其隐私保护
  • 5.1.2 本章的工作
  • 5.2 欧氏空间安全运算协议在数据挖掘中的隐私问题
  • 5.2.1 分布式的欧氏空间安全运算环境
  • 5.2.2 半诚实环境下的安全点积协议分析
  • 5.2.3 半诚实环境下的安全等距变换方法分析
  • 5.3 多方安全距离比较协议的设计
  • 5.3.1 两方安全点积协议
  • 5.3.2 三方安全点积比较协议
  • 5.3.3 三方安全距离比较协议
  • 5.3.4 欧氏空间安全运算方法―多方安全距离比较协议
  • 5.3.5 协议安全性分析
  • 5.4 基于多方安全距离比较的分布式聚类挖掘隐私保护方法
  • 5.4.1 协议代价
  • 5.4.2 讨论
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 研究工作总结
  • 6.2 进一步的研究方向
  • 参考文献
  • 致谢
  • 附件一 已颁布的国内外隐私权和信息隐私权法律
  • 攻读博士学位期间发表的论文及科研工作
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    面向数据挖掘的隐私保护方法研究
    下载Doc文档

    猜你喜欢