在数据挖掘中保护隐私信息的研究

在数据挖掘中保护隐私信息的研究

论文摘要

数据挖掘是当今社会最为重要的知识发现工具,它在为人们揭示出数据中的隐藏规律并创造出财富的同时,也对各类数据有着大量的需求。随着互联网的出现和发展,对所需数据的收集、交换和发布的过程正变得越来越便利。然而,这些丰富的数据资源中也同时包含着大量的个人隐私、商业情报和政府机密。更为令人担忧的是,在这些数据的实际使用过程中,特别是在挖掘过程中,大量的信息却能被不加限制的肆意利用,个人隐私和机密信息的泄露严重影响了人们的日常生活甚至社会的稳定。于是,数据挖掘过程中随手可得的海量信息也就使得人们对滥用隐私的忧虑在挖掘工具的运用上得到了集中的反映。面对在数据挖掘中保护隐私的迫切要求,传统的保护方法却难以胜任,因为它们在保护敏感信息的同时,也妨碍了数据中知识的获取。针对数据挖掘中的隐私保护和知识获取这一对棘手的矛盾,我们研究和提出了一系列变换原始数据的过程、协议和方法,阻止了挖掘过程的参与者对隐私信息直接或间接的获取,同时也使得挖掘算法能够从转换后的数据之中获得原始数据包含的信息和知识。大量仿真实验的测试结果,以及与现有方法的对比成绩也验证了我们方法的有效性。由此,我们不但消除了传统挖掘过程中存在的隐私泄露风险,也使得挖掘过程仍然可以取得准确的结果。我们将本文的创新点和主要工作概括如下:1.提出了隐私信息由数据关联构成的本质,并同时提出了两种保护隐私的策略。通过研究现有隐私保护模型中的不同数据对象,我们发现无论何种数据属性都不能准确的表示出数据集合中所包含的隐私信息。通过进一步的例证、理论分析和比较,我们提出了隐私信息的本质属性:数据间的关联,并由此提出了两类保护隐私的策略:分解隐私信息和转换隐私信息,将它们作为隐私保护研究的指导思想。同时,我们也详细介绍了隐私保护的原因、意义及其模型的应用范围和场景。2.提出了利用随机化技术来分解隐私信息的方法,并提出了平衡隐私保护和知识获取这对矛盾的可调节机制,同时也消除了先验知识对隐私的威胁。我们在发布数据集合的问题中,结合分解隐私信息的策略,提出了一种利用随机化技术来保护隐私的方法。该方法利用原始数据的分布信息,随机选取部分原始数值进行转换,与匿名化和多样化隐私保护模型相比,我们的方法不仅大幅提高了使用者对原始数据的不确定程度,而且还能够保持数据中的大部分有用知识。同时,针对用户掌握的先验知识可能会造成的隐私泄露,我们提供了一种平衡隐私保护和挖掘准确性的可调节方法。3.提出了转换隐私信息的数据变换协议和数据整合方法,在恶意合谋的情况下实现了隐私的保护,并提出了按需定制隐私保护程度的方法。我们结合转换隐私信息的策略,为每一位数据拥有者提出了转换其原始数据的方式和传输数据的协议,同时也为挖掘者提供了整合不同数据源的方法。我们的转换方法和协议都基于数据矩阵的变换,变换方式的正交性质在半诚实的计算环境中完美的避免了隐私保护和准确挖掘之间的矛盾;而在恶意合谋的情况下,我们的随机转换方式成功的将隐私泄露的风险控制在有限的范围内。另外,数据集合的不同属性在实际使用中通常拥有不同的重要程度,因此我们也实现了对隐私保护程度的定制方法,使得数据拥有者可以按照实际的需要,灵活的保护不同的属性。4.提出了能够适应大规模参与者的可扩展隐私保护方法,有效的实现了隐私保护、准确挖掘和可扩展性这三者之间的平衡,同时也进一步提出了适用于高维数据集合的保护方法。可扩展性问题一直是隐私保护研究所面临的挑战。我们量化分析了数据挖掘的参与者数量对隐私保护和准确挖掘所带来的不同影响。并提出了一个能够适应大规模数据提供者的原始数据转换方法,使得隐私保护方法的性能独立于参与者数量的变化。同时,我们也研究了干扰量的独立性对隐私保护的影响,并由此提出了一个能够灵活适应不同数据维度规模的隐私保护方法。

论文目录

  • 摘要
  • ABSTRACT(英文摘要)
  • 第一章 绪论
  • 1.1 引言
  • 1.1.1 隐私与隐私权
  • 1.1.2 数据挖掘与隐私保护
  • 1.2 研究背景
  • 1.2.1 数据库技术提供的安全措施
  • 1.2.2 数据挖掘技术带来的全新挑战
  • 1.2.3 数据挖掘中的隐私保护
  • 1.3 隐私保护研究的发展
  • 1.4 隐私保护研究的应用范围
  • 1.5 主要研究内容
  • 1.6 章节安排
  • 第二章 典型隐私保护模型的研究
  • 2.1 对挖掘算法透明的隐私保护技术
  • 2.1.1 数据交换
  • 2.1.2 数据清理
  • 2.1.3 查询审核
  • 2.1.4 匿名化
  • 2.1.5 乘性噪声
  • 2.2 对挖掘算法不完全透明的隐私保护技术
  • 2.2.1 加性噪声干扰
  • 2.2.2 PRAM
  • 2.3 需重新设计挖掘过程的隐私保护技术
  • 2.4 小结
  • 第三章 隐私对象和保护策略
  • 3.1 隐私对象分析
  • 3.1.1 实际方法中的隐私对象
  • 3.1.2 属性间的数据关联
  • 3.1.3 定义隐私对象
  • 3.2 制定隐私保护策略
  • 3.2.1 主要保护策略分析
  • 3.2.2 针对数据关联的保护策略
  • 3.3 小结
  • 第四章 分解隐私信息的保护方法
  • 4.1 概述
  • 4.2 问题的提出
  • 4.3 隐私数据
  • 4.3.1 预备知识
  • 4.3.2 隐私保护的实际对象
  • 4.4 随机匿名化算法
  • 4.5 隐私保护程度分析
  • 4.5.1 匿名化程度的定义及计算
  • 4.5.2 隐私漏洞
  • 4.6 准敏感知识的保持
  • 4.6.1 准敏感知识
  • 4.6.2 支持度的估计量
  • 4.6.3 知识发现的准确度分析
  • 4.7 实验
  • 4.7.1 实验准备
  • 4.7.2 数据查询的准确度对比及讨论
  • 4.7.3 知识发现的准确度对比及讨论
  • 4.8 小结
  • 第五章 消除先验知识威胁的隐私信息分解方法
  • 5.1 概述
  • 5.2 先验数据分布
  • 5.2.1 隐私漏洞的威胁
  • 5.2.2 获取隐私的能力上限
  • 5.3 先验数据关联
  • 5.3.1 先验数据关联的威胁
  • 5.3.2 解决方法
  • 5.3.3 λ对性能的影响
  • 5.4 实验
  • 5.5 小结
  • 第六章 转换隐私信息的保护方法
  • 6.1 概述
  • 6.2 问题的提出
  • 6.2.1 现有的方法及不足
  • 6.2.2 解决途径
  • 6.3 转换隐私信息的方法
  • 6.3.1 量化隐私保护程度
  • 6.3.2 隐私转换矩阵的定制方法
  • 6.3.3 数据传输和整合协议
  • 6.4 准确程度分析
  • 6.5 隐私保护程度分析
  • 6.5.1 普通隐私保护方法中的问题
  • 6.5.2 不安全的直接随机化方法
  • 6.5.3 RD 矩阵方法的隐私保护程度
  • 6.6 实验
  • 6.6.1 实验准备
  • 6.6.2 RD 方法的性能测试结果及讨论
  • 6.6.3 与现有隐私保护方法的对比结果及讨论
  • 6.7 小结
  • 第七章 转换隐私信息过程中的可扩展性方法
  • 7.1 概述
  • 7.2 适应大规模参与者的ERD 方法
  • 7.3 隐私保护和准确度分析
  • 7.4 统计独立的隐私保护方法
  • 7.5 实验
  • 7.5.1 RD 与ERD 方法的对比及讨论
  • 7.5.2 聚类算法的选择和算法参数对隐私保护的影响
  • 7.5.3 与现有隐私保护方法间的对比及讨论
  • 7.5.4 FT 矩阵对隐私保护性能的提高
  • 7.6 小结
  • 第八章 总结与展望
  • 8.1 总结
  • 8.2 展望
  • 参考文献
  • 致谢
  • 博士阶段以第一作者完成的论文
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    在数据挖掘中保护隐私信息的研究
    下载Doc文档

    猜你喜欢