分布式关联规则挖掘算法研究

分布式关联规则挖掘算法研究

论文摘要

数据挖掘是当前KDD中的一个重要领域,而关联规则挖掘是数据挖掘应用最广泛的技术之一。现有的关联规则挖掘算法和模型主要是基于数据库或数据仓库的,采用集中式处理。随着分布式数据库和网络技术的发展,大量分散的数据不可能集中起来处理,本文就这个问题对分布式关联规则的挖掘的算法进行了研究。本文首先分析和介绍了关联规则的基本概念和方法以及分布式关联规则挖掘方法和技术,讨论了关联规则挖掘的三种不同频繁项集的关系,基于完全频繁项集存在的问题,提出把挖掘最大频繁项集作为本文的切入点。为了更好的对分布式关联规则挖掘算法进行改进,对现有的典型算法做了实验,通过实验得出了改进的策略和解决方案。并提出一种基于被约束子树的分布式关联规则挖掘算法,该算法不同于以往的最大频繁项集挖掘算法需要不断更新最大频繁项集集合,而是利用高度压缩的FP_树顺序地挖掘出每个站点的最大频繁项集,只需扫描数据库两次,然后站点间采用加优先权值的方法来挖掘全局最大频繁项目集。由全局最大频繁项目集易得全局频繁项目集,再生成用户感兴趣的关联规则。最后,把本文改进的算法应用到分布式存储的高校教学科研数据挖掘中,得到教师教学科研工作的潜在规则,以辅助决策下一阶段的教学科研管理工作。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景和意义
  • 1.2 本领域的研究现状
  • 1.3 相关技术
  • 1.3.1 数据挖掘
  • 1.3.2 分布式计算
  • 1.3.3 分布式数据挖掘
  • 1.4 工作内容和论文结构
  • 第2章 分布式关联规则挖掘
  • 2.1 关联规则问题描述
  • 2.2 关联规则挖掘算法
  • 2.2.1 经典频繁项集挖掘算法 Apriori
  • 2.2.2 改进的频繁项集挖掘算法
  • 2.2.3 最大频繁项集挖掘
  • 2.3 分布式关联规则挖掘基本原理
  • 2.4 分布式关联规则挖掘算法
  • 2.4.1 CD和 PDM算法
  • 2.4.2 FDM算法
  • 2.4.3 DDM算法
  • 2.4.4 PDDM算法
  • 2.5 本章小结
  • 第3章 分布式关联规则挖掘改进策略
  • 3.1 频繁项集挖掘存在的问题及解决办法
  • 3.2 分布式关联规则挖掘算法评价
  • 3.3 算法的通信复杂度及分析
  • 3.4 分布式关联规则挖掘算法实验
  • 3.5 分布式关联规则挖掘改进策略
  • 3.6 本章小结
  • 第4章 基于被约束子树的分布式关联规则挖掘改进算法
  • 4.1 问题描述
  • 树及算法'>4.2 FP及算法
  • 树'>4.2.1 FP
  • growth算法'>4.2.2 FPgrowth算法
  • 4.3 基于被约束子树的单机最大频繁项集挖掘改进算法
  • 4.3.1 被约束子树
  • 树'>4.3.2 MFI
  • 4.3.3 单机最大频繁项集挖掘改进算法
  • 4.4 基于被约束子树的分布式关联规则挖掘改进算法
  • 4.4.1 EDMCST算法
  • 4.4.2 EDMCST算法分析与实验结果
  • 4.5 本章小结
  • 第5章 分布式关联规则挖掘在教学科研中应用
  • 5.1 系统体系结构
  • 5.2 教学和科研情况挖掘任务实现
  • 5.2.1 数据清理
  • 5.2.2 数据变换
  • 5.2.3 全局最大频繁项集挖掘
  • 5.2.4 全局关联规则的生成与评估
  • 5.2.5 挖掘结果
  • 5.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].滑动窗口下数据流完全加权最大频繁项集挖掘[J]. 东北大学学报(自然科学版) 2016(07)
    • [2].农业数据挖掘中最大频繁项集更新算法研究[J]. 农机化研究 2011(08)
    • [3].快速挖掘分布式数据库全局最大频繁项集[J]. 控制与决策 2011(08)
    • [4].最大频繁项集剪枝策略[J]. 内江科技 2011(05)
    • [5].一种基于邻接表的最大频繁项集挖掘算法[J]. 电子与信息学报 2019(08)
    • [6].基于图的四叉链表存储结构的最大频繁项集挖掘算法[J]. 应用科技 2013(01)
    • [7].分布式数据库全局最大频繁项集增量更新算法[J]. 四川大学学报(工程科学版) 2012(03)
    • [8].一种新的最大频繁项集挖掘算法[J]. 科技信息 2011(14)
    • [9].基于最大频繁项集的层次聚类方法[J]. 广西师范大学学报(自然科学版) 2009(03)
    • [10].基于项集分解的快速挖掘最大频繁项集算法[J]. 佳木斯大学学报(自然科学版) 2009(04)
    • [11].基于双向混合搜索的最大频繁项集发现算法[J]. 信息系统学报 2008(01)
    • [12].基于最大频繁项集的搜索引擎查询结果聚类算法[J]. 中文信息学报 2010(02)
    • [13].基于FP-tree的支持度计数优化策略[J]. 计算机技术与发展 2017(10)
    • [14].基于DiffNodeset结构的最大频繁项集挖掘算法[J]. 计算机应用 2018(12)
    • [15].基于B-list的最大频繁项集挖掘算法[J]. 计算机应用研究 2019(02)
    • [16].基于FP-tree的最大频繁项集挖掘算法[J]. 合肥工业大学学报(自然科学版) 2010(09)
    • [17].基于FP-tree的快速挖掘全局最大频繁项集算法[J]. 计算机集成制造系统 2011(07)
    • [18].基于Spark改进的最大频繁项集挖掘算法[J]. 计算机工程与设计 2017(07)
    • [19].基于频繁项集挖掘最大频繁项集和频繁闭项集[J]. 计算机工程与应用 2008(28)
    • [20].最大频繁模式挖掘算法的改进[J]. 韶关学院学报 2019(03)
    • [21].基于事务树的最大频繁项集挖掘算法[J]. 计算机工程 2009(15)
    • [22].基于阈值自适应忆阻器Hopfield神经网络的关联规则挖掘算法[J]. 计算机应用 2019(03)
    • [23].改进的基于内积的最大频繁项集生成算法[J]. 科教文汇(上旬刊) 2011(02)
    • [24].基于向量的数据流滑动窗口中最大频繁项集挖掘[J]. 计算机应用研究 2012(03)
    • [25].基于逆向搜索的关联规则更新算法[J]. 计算机工程 2011(08)
    • [26].一种关联规则挖掘技术的矩阵交集算法[J]. 信阳师范学院学报(自然科学版) 2008(04)
    • [27].基于用户轨迹数据的用户兴趣区域推荐[J]. 软件工程 2019(11)
    • [28].基于频繁模式树的约束最大频繁项集挖掘算法[J]. 计算机工程 2011(09)
    • [29].在线挖掘数据流滑动窗口中最大频繁项集[J]. 系统仿真学报 2009(04)
    • [30].基于游程编码的最大频繁项集挖掘算法[J]. 赤峰学院学报(自然科学版) 2015(19)

    标签:;  ;  ;  ;  ;  

    分布式关联规则挖掘算法研究
    下载Doc文档

    猜你喜欢