保护隐私的数据挖掘研究

保护隐私的数据挖掘研究

论文摘要

随着网络技术与数据库技术的发展,人们在各个领域里已经积累了海量的数据,如何从这些大量的数据中挖掘出有用的信息或知识已经引起研究人员的重视。数据挖掘可以从这些海量数据中提取潜在有用的信息或规律。在很多情况下挖掘所需要的原始数据可能分布在不同的位置,或者被不同的人、公司或单位等所拥有。某些拥有数据的用户希望通过与他人或其它单位合作来进行全局数据挖掘,从而得到一些潜在的数据规律,但是他们希望这种合作不泄露自己数据的隐私,这就是保密的数据挖掘。保密数据挖掘具有重要的实际意义。保护隐私数据挖掘的目的是在多方合作进行数据挖掘时,参与者除了知道自己的数据和挖掘结果外,无法知道其他数据,即参与者的任何私有数据在数据挖掘过程中将不会被泄露。目前,数据挖掘隐私保护方法主要有三种:一是数据扰乱;二是数据匿名技术;三是应用多方安全计算对数据进行秘密计算。本文关注安全多方计算,安全多方计算足指在一个互不信任的网络环境中,n(n≥2)个用户能够在不泄露自己的私有信息的情况下进行合作共同执行某项计算任务,并且计算的结果能达到预期的效果。本文首先总结归纳现阶段数据以及多方保密的研究现状;其次阐述了安全多方计算与数据挖掘的关系;最后概述了分布式环境下的聚类隐私保护算法,重点在现有的算法基础上提出了两种新算法:一是基于同态加密的隐私保护的K-Means聚类数据挖掘算法;二是半诚实参与者模型下,基于向量内积协议的K-Means聚类数据挖掘隐私保密算法,这些算法具有很小的通信消耗,较低的计算时间复杂度,以及较高的准确率。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景与意义
  • 1.2 分布式数据挖掘的进展
  • 1.3 分布式聚类算法的研究现状
  • 1.4 论文的组织结构
  • 第2章 基本概念和相关协议
  • 2.1 聚类挖掘相关概念
  • 2.2 聚类分析中的数据类型
  • 2.2.1 类(簇)相关的概念
  • 2.2.2 相似性测度
  • 2.2.3 类间的测度函数
  • 2.3 聚类分析的数据结构
  • 2.4 聚类分析的算法种类
  • 2.5 隐私保护的概述
  • 2.5.1 隐私的概念及其研究内容
  • 2.5.2 分布式数据挖掘隐私保护概述
  • 2.6 安全多方计算协议
  • 2.6.1 安全多方计算的引入
  • 2.6.2 安全求和协议
  • 2.6.3 同态加密
  • 2.6.4 ElGamal密码体制
  • 2.6.5 秘密比较协议
  • 2.7 本章小结
  • 第3章 基于同态加密的隐私保护数据挖掘研究
  • 3.1 同态加密隐私保护数据挖掘的现状
  • 3.2 分布式下基本算法描述
  • 3.3 本文相关定义
  • 3.4 基于同态加密的隐私保护数据挖掘算法
  • 3.4.1 算法思想
  • 3.4.2 算法描述
  • 3.5 算法安全性分析
  • 3.6 本章小结
  • 第4章 一种隐私保护聚类数据挖掘算法的研究
  • 4.1 问题描述
  • 4.2 相关引理
  • 4.3 基于向量内积不等式K-Means数据挖掘隐私保护算法
  • 4.3.1 算法PPDK-DCBIP思想
  • 4.3.2 PPDK-DCBIP的算法描述
  • 4.4 算法安全性分析
  • 4.5 本章小结
  • 第5章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    保护隐私的数据挖掘研究
    下载Doc文档

    猜你喜欢