论文题目: 隐私保护的数据挖掘
论文类型: 博士论文
论文专业: 计算机软件与理论
作者: 葛伟平
导师: 施伯乐
关键词: 数据挖掘,隐私保护,转移概率矩阵,分类,判定树,分布式数据,全局频繁项集,关联规则
文献来源: 复旦大学
发表年度: 2005
论文摘要: 我们处在一个信息爆炸的大时代,计算机处理能力、存储技术以及互联网络的发展又极大地提高了信息的数字化处理程度,所有这些又大大激发了从大量的数据中挖掘有用信息的需求,从而推动了数据挖掘的发展。任何事情都有其两面性,在数据挖掘领域也不例外,随之产生的就是信息安全和隐私保护的问题,如何在保证隐私的情况下挖掘出有用的信息是近年来数据挖掘领域研究的热点之一。 本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,对当前流行的隐私保护数据挖掘方法作了一个深入浅出的分析和介绍。 接着提出了一种新颖的隐私保护分类挖掘的算法。算法的第一部分着重于如何通过变换数据来保护隐私:首先提出了“单属性转移概率矩阵”的概念;接下来提出了“多个分裂属性联合转移概率矩阵”来表达多个分裂属性的联合变换概率,同时也介绍了计算其值的方法和计算其逆矩阵的简便方法(即等于“单属性转移概率矩阵”逆的联合);然后描述了通过“单属性转移概率矩阵”来变换原始数据的数据变换方法。算法的第二部分着重于如何从变换后的数据中恢复联合属性值的支持计数来产生判定树:首先推导了一个公式来从变换后的数据中恢复联合属性值的支持计数;接下来推导了另外一个公式,以便根据联合属性值的支持计数来计算Gain,进而选择最佳分裂属性和分裂点;最后给出了基于隐私保护的判定树产生算法-PPCART。另外本文也介绍了隐私保护程度的量化表示方法,以及给出了一个网上调研的例子来说明本算法的应用。一系列的实验表明该算法适用于所有的数据类型(布尔类型、分类类型和数字类型)、任意的原始数据概率分布和变换任何属性(包括标签属性),实验表明该算法在变换后的数据集上构造的分类树具有较高的精度。 然后又提出了一种新颖的全局关联规则隐私保护挖掘算法:先分别运用“项集转移概率矩阵”对各个分布站点的数据进行变换;然后提出了一种方法来恢复项集的全局支持计数,以便找出全局频繁项,进而找出全局关联规则。为了保证算法的有效性,该算法没有直接变换记录/事务里的项,而是对每条记录,先找出该记录里包含的所有候选频繁κ-项集,再用单符号分别代替每一个被包含的候选频繁κ-项集,然后逐个变换这些符号,最后将变换后的符号组合成一条记录,
论文目录:
摘要
Abstract
第一章 引言
1.1 数据挖掘的基本介绍
1.2 信息隐私权的发展
1.3 隐私保护数据挖掘的产生背景
1.4 论文的目标和结构
1.4.1 论文的工作
1.4.2 论文的组织结构
第二章 隐私保护挖掘算法综述
2.1 典型隐私保护数据挖掘算法的归类
2.1 分类挖掘算法部分
2.1.1 数据集中分布
2.1.1.1 隐私保护的分类挖掘
2.1.1.2 随机响应技术的隐私保护分类挖掘
2.1.2 数据垂直分布
2.1.2.1 垂直分布条件下的隐私保护分类挖掘
2.1.3 数据水平分布
2.1.3.1 水平分布条件下的隐私保护分类挖掘
2.2 关联规则挖掘算法部分
2.2.1 数据集中分布
2.2.1.1 隐私保护的频繁项集挖掘
2.2.1.2 隐私保护的关联规则挖掘
2.2.1.3 隐私保护的布尔关联规则挖掘
2.2.2 数据垂直分布
2.2.2.1 垂直分布条件下的隐私保护关联规则挖掘
2.2.3 数据水平分布
2.2.3.1 水平分布条件下的隐私保护关联规则挖掘
2.3 聚类挖掘算法部分
2.3.1 数据集中分布
2.3.1.1 隐私保护的聚类挖掘
2.4 其它一些隐私保护挖掘算法
第三章 隐私保护的分类挖掘
3.1 问题的引出
3.2 相关定义
3.2.1 属性值支持计数的定义
3.2.2 Markov链及其转移概率矩阵的原始定义
3.2.3 属性转移概率矩阵的定义
3.2.4 用于隐私保护的数据变换方法
3.2.5 数据变换独立性定义
3.2.6 隐私保护程度的量化定义
3.3 基于隐私保护的分类挖掘算法
3.3.1 原始数据支持计数的推导方法
3.3.2 如何用联合属性值支持计数来计算判定树属性选择度量(以CART为例)
3.3.3 基于隐私保护的判定树产生算法PPCART(以CART为原型)
3.4 实验
3.4.1 实验方法
3.4.2 实验结果分析
3.5 小结
第四章 全局关联规则的隐私保护挖掘
4.1 问题的引出
4.2 相关定义
4.2.1 频繁项集和关联规则
4.2.2 全局频繁项集和关联规则
4.2.3 项集转移概率矩阵的定义
4.2.4 用于隐私保护的数据变换方法
4.2.5 隐私保护程度的量化定义
4.3 全局关联规则的隐私保护挖掘算法
4.3.1 根据变换后的数据来恢复项集在原始数据中的支持计数
4.3.2 全局关联规则的隐私保护挖掘算法(PARD)
4.3.3 算法复杂度分析
4.3.4 项集支持计数的恢复误差
4.4 实验
4.4.1 实验方法
4.4.2 实验结果分析
4.5 小结
第五章 总结与未来的研究工作
5.1 总结
5.2 未来的研究工作
参考文献
致谢
附录 攻读博士学位期间发表的论文
发布时间: 2005-09-19
参考文献
- [1].具有隐私保护的外包数据分类方法研究[D]. 李晔.哈尔滨工业大学2018
- [2].云环境下数据隐私保护与安全搜索技术研究[D]. 周志刚.哈尔滨工业大学2018
- [3].物联网同态隐私保护关键技术研究[D]. 钱萍.南京邮电大学2017
- [4].移动感知推荐系统中隐私保护研究[D]. 马鑫迪.西安电子科技大学2018
- [5].位置服务的隐私保护关键技术研究[D]. 万盛.西安电子科技大学2018
- [6].移动互联网下位置隐私保护技术研究[D]. 许志凯.哈尔滨工业大学2016
- [7].面向云计算环境的用户权限管理与隐私保护研究[D]. 李拴保.武汉大学2015
- [8].移动群智感知网络中隐私保护技术研究[D]. 陈建伟.北京邮电大学2017
- [9].面向移动计算的安全与隐私保护研究[D]. 康嘉文.广东工业大学2018
- [10].面向分布式医学数据分析的隐私保护SVM模型研究[D]. Mohammed Zain Omer Yousif Mohammed Ahmed.电子科技大学2018
标签:数据挖掘论文; 隐私保护论文; 转移概率矩阵论文; 分类论文; 判定树论文; 分布式数据论文; 全局频繁项集论文; 关联规则论文;