数据垂直分布的隐私保护关联规则挖掘方法研究

数据垂直分布的隐私保护关联规则挖掘方法研究

论文摘要

数据挖掘技术就是研究如何从大量数据中发现有用知识。但是随着挖掘方法和工具的普及,它们会对隐私和信息安全构成威胁,因此,如何在保护私有信息或敏感信息的同时挖掘出有用的知识就成为数据挖掘研究中的一个很有意义的研究课题。隐私保护数据挖掘,其目标在于建立某种关联,跨越数据挖掘和数据机密性之间的这道鸿沟,对原始数据或者挖掘方法进行某种改进,在不向非数据所有者泄露敏感数据取值的同时,发现原始数据的某些统计规律或隐含的知识和规则。本文对数据垂直分布的隐私保护关联规则挖掘方法进行了研究,首先介绍了数据挖掘的基本概念、方法,并对垂直分布关联规则挖掘及隐私保护方法、隐私保护数据挖掘算法的质量度量标准进行了分析和总结。接着,重点介绍了一种基于VDC算法的改进算法IEVDC。改进算法在效率,安全性方面对原算法进行了相关的改进。在挖掘效率方面,本文算法在各原始数据库之间交换事务形成全局数据库后,利用本地真实事务的TID号来形成本地真值数据库,缩短了事务集的长度,减少了事务集的存储空间,并经过一次扫描数据库得到频繁1-项集后,通过对频繁项集中TID号进行正交来得到频繁K-项集,达到了提高数据挖掘效率的目的。在隐私保护方面,采用了数据扰乱技术和多方安全计算相结合的方案,引入了一个安全第三方来完成频繁项集和关联规则的检查,通过干扰信息的添加重建项目的支持度来预防支持度暴露的问题。此外,本文在传统关联规则的筛选方法的基础上,提出一种剪除多余规则且只保留高效规则用于分类的有效分级技术。并根据IEVDC算法的特点,提出一种改进的主站技术作为算法的实现模型图。最后通过实验分析验证了本文提出方法的有效性和可行性。

论文目录

  • 摘要
  • Abstract
  • 1 前言
  • 1.1 课题来源
  • 1.2 课题背景与意义
  • 1.3 国内外研究现状
  • 1.4 论文主要研究内容与结构
  • 2 隐私保护关联规则挖掘算法概述
  • 2.1 数据挖掘概述
  • 2.1.1 数据挖掘的定义
  • 2.1.2 数据挖掘的步骤
  • 2.1.3 数据挖掘的技术
  • 2.2 关联规则描述
  • 2.2.1 关联规则的提出
  • 2.2.2 关联规则的基本概念
  • 2.2.3 关联规则挖掘的步骤
  • 2.2.4 典型的关联规则挖掘算法
  • 2.3 垂直分布关联规则挖掘算法概述
  • 2.3.1 问题的提出
  • 2.3.2 现有的经典垂直分布关联规则挖掘方法介绍
  • 2.3.3 分析总结
  • 2.3.4 垂直分布关联规则的隐私保护数据挖掘
  • 2.3.5 隐私保护数据挖掘算法的质量度量
  • 2.4 本章小结
  • 3 改进VDC算法的设计与分析
  • 3.1 改进算法综述
  • 3.2 关联规则挖掘效率的改进
  • 3.2.1 概述
  • 3.2.2 算法思路
  • 3.2.3 实例分析
  • 3.3 改进算法的安全性设计
  • 3.3.1 添加干扰数据的方法
  • 3.3.2 引入安全第三方的方法
  • 3.4 关联规则的分级
  • 3.4.1 概述
  • 3.4.2 思路
  • 3.4.3 建立分类器
  • 3.5 改进算法模型
  • 3.5.1 概述
  • VDC算法模型'>3.5.2 IEVDC算法模型
  • 3.6 本章小结
  • 4 性能分析
  • 4.1 概述
  • 4.2 安全性分析
  • 4.3 效率分析
  • 4.4 实验分析
  • 4.5 本章小结
  • 5 总结与展望
  • 致谢
  • 参考文献
  • 在校学习期间所发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    数据垂直分布的隐私保护关联规则挖掘方法研究
    下载Doc文档

    猜你喜欢