基于隐私保护的分布式序列模式挖掘算法研究

基于隐私保护的分布式序列模式挖掘算法研究

论文摘要

随着网络的迅速发展,行业应用中产生的大量数据可能分布存储在通过网络连接的多个站点上。在对这些数据进行序列模式挖掘时,一些特殊应用要求不能对这些数据进行传输,原有的针对单机运行环境设计的序列模式挖掘算法可能不再有效。另一方面,在序列模式挖掘过程中还存在着敏感信息泄露的问题,尤其在分布式环境下更加值得关注。现有的分布式数据挖掘和隐私保护问题的研究主要集中于关联规则挖掘方面,对于序列模式挖掘隐私保护的研究却较少,因此,研究基于隐私保护的分布式序列模式挖掘算法具有重要的理论和实际意义。本文在研究现有的序列模式挖掘和隐私保护算法的基础上,结合分布式环境的特点,对PrefixSpan算法进行改进,并利用关联规则隐私保护算法思想,研究了基于隐私保护的分布式序列模式挖掘的问题。主要工作包括以下几个方面:1.对典型的序列模式挖掘算法和分布式数据挖掘算法进行研究,分析PrefixSpan算法的特点,以PrefixSpan算法为基础,结合分布式计算的特点,研究并提出了一种分布式序列模式挖掘算法DSPM(Distributed Sequential Pattern Mining),详细介绍了算法思想和流程;2.针对分布式环境下信息传递耗费大、任务可并行执行等特点,对DSPM算法进行了进一步的改进,提出了几个能够提高挖掘效率的策略,并将这些策略应用到了原型系统中,进一步提高了系统的性能;3.分析研究了典型的关联规则隐私保护算法思想,比较关联规则挖掘与序列模式挖掘的异同,在此基础上研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD(Current Least Sequences Delete),该方法通过删除原始序列来降低敏感序列的支持数达到隐藏的目的;4.以DSPM算法和CLSD算法为基础,使用Java语言实现了一个基于隐私保护的分布式序列模式挖掘原型系统。该系统采用了序列化/反序列化、多线程等技术,进一步确保系统具有更高的执行效率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 分布式序列模式挖掘的研究现状
  • 1.2.2 隐私保护挖掘的研究现状
  • 1.3 研究目标及工作内容
  • 1.3.1 研究目标
  • 1.3.2 工作内容
  • 1.4 本文结构
  • 第二章 序列模式挖掘及隐私保护方法概述
  • 2.1 数据挖掘概述
  • 2.1.1 数据挖掘过程
  • 2.1.2 数据挖掘的分类
  • 2.1.3 数据挖掘方法和技术
  • 2.2 序列模式挖掘
  • 2.2.1 基本概念
  • 2.2.2 序列模式挖掘算法研究
  • 2.3 分布式数据挖掘
  • 2.4 隐私保护数据挖掘
  • 2.4.1 敏感知识隐藏
  • 2.4.2 算法的分类
  • 2.4.3 算法评价标准
  • 2.5 关联规则的隐藏
  • 2.5.1 基本概念
  • 2.5.2 数据变换法
  • 2.5.3 数据阻塞法
  • 2.5.4 数据重构法
  • 2.6 序列模式的隐藏研究
  • 2.7 本章小结
  • 第三章 分布式序列模式挖掘算法
  • 3.1 相关定义及性质
  • 3.2 DSPM算法基本思想
  • 3.3 DSPM算法描述
  • 3.3.1 Server子算法
  • 3.3.2 全局序列模式生成
  • 3.3.3 Client子算法
  • 3.3.4 PatternGrowth子算法
  • 3.3.5 前缀序列树
  • 3.3.6 前缀序列树的生长和剪枝
  • 3.4 算法实验及分析
  • 3.5 性能改进策略
  • 3.5.1 使用抽样检测选择主机
  • 3.5.2 无主机
  • 3.5.3 伪投影与物理投影的选择
  • 3.6 本章小结
  • 第四章 分布式序列模式挖掘的隐私保护算法
  • 4.1 预备知识
  • 4.1.1 序列模式隐藏与关联规则隐藏的差异
  • 4.1.2 效能评估标准
  • 4.2 当前最少序列删除法(CLSD)
  • 4.2.1 CLSD算法基本思想
  • 4.2.2 权值的选择和更新
  • 4.2.3 CLSD算法描述
  • 4.3 算法实验及分析
  • 4.4 本章小结
  • 第五章 基于隐私保护的分布式序列模式挖掘原型系统
  • 5.1 PPDSPM模型
  • 5.2 数据预处理
  • 5.3 系统实现的关键点
  • 5.3.1 通信的实现方式
  • 5.3.2 多线程的实现
  • 5.3.3 序列删除实现代码
  • 5.3.4 模式增长实现代码
  • 5.4 原型系统的实现
  • 5.4.1 系统开发环境
  • 5.4.2 系统运行环境
  • 5.4.3 系统运行
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 本文工作总结
  • 6.2 进一步研究工作
  • 参考文献
  • 附录 发表论文目录
  • 相关论文文献

    • [1].序列模式挖掘在心理危机干预技能评估中的应用[J]. 上海交通大学学报(医学版) 2020(03)
    • [2].序列模式中的生成序列模式挖掘综述[J]. 无线通信技术 2018(04)
    • [3].增量序列模式挖掘研究进展[J]. 网络安全技术与应用 2017(01)
    • [4].间隙约束序列模式挖掘的对比研究[J]. 网络安全技术与应用 2017(02)
    • [5].序列模式挖掘两种典型算法的研究[J]. 信息技术 2016(11)
    • [6].满足非重叠条件的带有通配符序列模式挖掘[J]. 小型微型计算机系统 2017(05)
    • [7].基于位置信息的显露序列模式挖掘研究[J]. 计算机科学 2017(07)
    • [8].序列模式挖掘在教学管理上的运用[J]. 电脑知识与技术 2016(13)
    • [9].负序列模式挖掘研究[J]. 廊坊师范学院学报(自然科学版) 2015(03)
    • [10].序列模式挖掘技术在数字图书馆中的应用[J]. 农业图书情报学刊 2015(07)
    • [11].一种最有趣的序列模式挖掘算法[J]. 计算机仿真 2019(04)
    • [12].考虑价格的跨种类模糊序列模式挖掘算法[J]. 计算机应用研究 2018(01)
    • [13].水质时间序列模式挖掘[J]. 计算机技术与发展 2018(05)
    • [14].基于频繁序列模式挖掘的反恐情报关联分析[J]. 情报理论与实践 2018(10)
    • [15].序列模式挖掘在通信网络告警预测中的应用[J]. 计算机科学 2018(S2)
    • [16].闭合负序列模式挖掘[J]. 哈尔滨师范大学自然科学学报 2015(06)
    • [17].多维序列模式挖掘算法分析[J]. 赤峰学院学报(自然科学版) 2014(07)
    • [18].基于序列模式挖掘的读者借阅行为分析[J]. 图书情报知识 2011(04)
    • [19].序列模式挖掘综述[J]. 计算机应用研究 2008(07)
    • [20].多支持度下用户行为序列模式挖掘方法研究[J]. 计算机应用与软件 2018(01)
    • [21].基于隐私保护的序列模式挖掘[J]. 计算机科学 2016(12)
    • [22].基于支持量的并发序列模式挖掘方法[J]. 计算机工程与设计 2016(01)
    • [23].基于序列模式挖掘的基因剪接位点[J]. 数据采集与处理 2016(05)
    • [24].一种基于逻辑的频繁序列模式挖掘算法[J]. 计算机科学 2015(05)
    • [25].高效的稀有序列模式挖掘方法[J]. 计算机科学与探索 2015(04)
    • [26].时态数据中序列模式挖掘研究[J]. 科技创新导报 2014(13)
    • [27].序列模式挖掘在教学管理上的应用[J]. 计算机与现代化 2012(11)
    • [28].一种模糊序列模式挖掘的有效方法[J]. 现代计算机(专业版) 2010(13)
    • [29].并发序列模式挖掘方法研究[J]. 计算机应用 2009(11)
    • [30].序列模式挖掘算法在高血压治疗中的研究[J]. 计算机工程与设计 2018(03)

    标签:;  ;  ;  ;  ;  

    基于隐私保护的分布式序列模式挖掘算法研究
    下载Doc文档

    猜你喜欢