基于隐私保护的数据挖掘

基于隐私保护的数据挖掘

论文摘要

数据挖掘目前是数据库研究中最活跃的分支之一,不论科学研究还是商业应用,数据挖掘都取得了可喜的成果。但与此同时,数据挖掘也面临着很多问题的挑战。其中,数据挖掘的个人隐私与信息安全问题尤其得到关注。误用、滥用数据挖掘可能导致用户数据特别是敏感信息的泄漏,越来越多的人们对此表示担忧,甚至拒绝提供真实的数据。如何在不暴露用户隐私的前提下进行数据挖掘,也就成了人们非常感兴趣的课题。本文首先综述了国内外隐私保护研究的成果,并从数据分布角度分析了现有典型的隐私保护算法。接着是本文研究的主要内容:1.在关联规则挖掘中引入随机化技术对隐私信息进行保护:首先是将随机响应技术与关联规则结合,并用实验对相关算法进行了仿真,然后是将随机扰动技术应用到隐私保护挖掘中来,并对传统的随机扰动隐私保护算法进行了改进,接着用实验分析了算法的正确与有效性。2.在聚类中分析了基于矩阵变换的隐私保护技术。对相关矩阵变换隐私保护算法进行改进,提出了基于等距变换的隐私保护算法,之后利用相关试验进行仿真,并对相关结果进行分析,验证了提出的算法能在保护隐私的同时聚类结果不会发生改变。本文最后是对工作的总结与展望,今后将在正交变换基础上实现隐私保护、适应多种数据集及加密部分数据等方面做进一步研究,最终形成完整的隐私保护数据分析模型。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 信息隐私权
  • 1.2 选题背景
  • 1.3 隐私保护数据挖掘研究现状
  • 1.4 研究内容与章节内容
  • 第二章 数据挖掘原理与常用技术
  • 2.1 数据挖掘概念
  • 2.2 数据挖掘过程
  • 2.3 数据挖掘技术
  • 2.4 数据挖掘常用方法
  • 2.5 数据挖掘应用及发展趋势
  • 第三章 隐私保护数据挖掘算法综述
  • 3.1 隐私保护数据挖掘算法分类
  • 3.2 现有隐私保护数据挖掘经典算法分类综述
  • 3.2.1 数据集中分布方式下的隐私保护算法
  • 3.2.2 数据垂直分布方式下的隐私保护算法
  • 3.2.3 数据水平分布方式下的隐私保护算法
  • 3.2.4 其它一些隐私保护挖掘算法
  • 3.3 隐私保护数据挖掘的质量度量
  • 第四章 隐私保护的关联规则算法研究
  • 4.1 随机响应技术的关联规则算法研究
  • 4.1.1 随机响应技术的提出
  • 4.1.2 关联规则相关知识
  • 4.1.3 随机响应技术在关联规则隐私挖掘中的算法研究
  • 4.2 随机数据扰动的关联规则隐私挖掘算法
  • 4.2.1 问题描述
  • 4.2.2 添加干扰项目和干扰交易的隐私保护关联规则挖掘算法
  • 4.2.3 基于数据扰动的关联规则挖掘算法改进
  • 4.3 实验结果及分析
  • 4.3.1 实验框架
  • 4.3.2 性能指标
  • 4.3.3 实验结果及分析
  • 4.4 本章小结
  • 第五章 隐私保护的聚类挖掘算法研究
  • 5.1 聚类分析相关知识
  • 5.1.1 聚类的概念
  • 5.1.2 聚类分析的算法
  • 5.2 矩阵变换的隐私保护聚类挖掘算法研究
  • 5.2.1 数据预处理
  • 5.2.2 矩阵变换的聚类挖掘隐私保护算法
  • 5.2.3 矩阵变换聚类挖掘算法试验及结果分析
  • 5.3 矩阵变换的隐私保护聚类挖掘算法改进
  • 5.3.1 等距变换隐私保护相关定义
  • 5.3.2 等距变换隐私保护相关命题
  • 5.3.3 基于等距变换的聚类挖掘隐私保护算法
  • 5.3.4 算法实验及结果分析
  • 5.4 本章小结
  • 第六章 总结及展望
  • 参考文献
  • 致谢
  • 个人简历及在读期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于隐私保护的数据挖掘
    下载Doc文档

    猜你喜欢