大规模数据库关联规则挖掘算法研究

大规模数据库关联规则挖掘算法研究

论文摘要

数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘领域产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘领域中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。随着数据库规模的日益增大,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要对一些传统的算法进行改进;也需要研究新的更有效的算法。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,我们选择了这一课题开展相关工作。本文在分析、归类现有关联规则算法研究成果的基础上对大规模数据库关联规则挖掘算法进行了研究,所设计的新算法在挖掘效率和对大规模数据库挖掘的可用性方面具有潜在的应用前景。主要研究工作体现在以下三个方面:1、针对经典Apriori算法对大型交易事务数据库挖掘关联规则时的瓶颈问题,本文提出了一种新的基于矩阵的关联规则挖掘算法—BOM(Base On Matrix)算法。该算法使用矩阵来表示基础数据,并且通过矩阵的直接运算直接得到频繁k-项集,避免了生成大量的候选项集,提高了对大型交易数据库的处理效率。该算法不同于经典的Apriori算法,对于大型交易事务数据库,具有较Apriori算法更加优越的性能。2、扫描大规模数据库是非常耗时的,针对大多数关联规则并行挖掘算法需要扫描数据库至少两次,严重影响了算法的效率的问题,我们提出了一种新的基于共享存储多处理机模型,更有效的并行算法—SO(Scan Once)算法。SO算法仅扫描数据库一次,并且采用了不同于著名的并行算法CD算法的设计思想,理论分析表明SO算法具有较好的性能。3、现有的大部分关联规则挖掘算法对整个数据库的各个属性的数据样本采用单一的支持度来找出符合的关联规则,导致无法高效地发现有价值的稀有数据。本文在无向项集图的基础上,结合RSAA算法,提出了一种新的关联规则挖掘算法,采用多支持度的方法来发现数据库中有价值的稀有数据。通过将该算法与RSAA算法的分析比较,证明了其在获得有价值的稀有数据的效率以及得到规则的可用性方面具有更好的性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 数据挖掘概述
  • 1.2 关联规则挖掘概述
  • 1.2.1 大规模数据库关联规则挖掘研究的意义
  • 1.2.2 大规模数据库关联规则挖掘算法研究现状
  • 1.2.3 大规模数据库关联规则挖掘目前面临的主要问题
  • 1.3 创新性工作
  • 1.4 本文组织
  • 第二章 关联规则挖掘
  • 2.1 基本概念
  • 2.2 关联规则挖掘问题
  • 2.3 关联规则的种类
  • 第三章 关联规则挖掘算法研究
  • 3.1 关联规则挖掘的串行算法
  • 3.1.1 Apriori算法
  • 3.1.2 Apriori算法的性能瓶颈问题
  • 3.1.3 其它具有代表性的串行挖掘算法
  • 3.2 关联规则挖掘的并行算法
  • 3.2.1 并行计算概论
  • 3.2.1.1 并行计算机
  • 3.2.1.2 并行算法
  • 3.2.1.3 并行计算模型
  • 3.2.1.4 并行算法的设计环境
  • 3.2.1.5 并行算法的一般设计过程
  • 3.2.2 几种用于发现频繁项目集的并行算法
  • 3.2.2.1 进行候选集复制的算法
  • 3.2.2.2 划分候选集的算法
  • 3.2.2.3 混合策略:对于候选集的部分复制
  • 3.2.3 并行算法面临的挑战
  • 3.3 小结
  • 第四章 三种新的关联规则挖掘算法
  • 4.1 引言
  • 4.2 BOM算法
  • 4.2.1 算法设计
  • 4.2.2 算法正确性
  • 4.2.3 一个例子
  • 4.2.4 BOM算法与Apriori算法的比较
  • 4.3 SO算法
  • 4.3.1 计算模型
  • 4.3.2 算法设计
  • 4.3.3 算法的正确性
  • 4.3.4 一个例子
  • 4.3.5 比较SO算法和CD算法
  • BUIG算法'>4.4 RSBUIG算法
  • 4.4.1 相关研究
  • 4.4.1.1 BUIG算法
  • 4.4.1.2 RSAA算法
  • BUIG算法'>4.4.2 RSBUIG算法
  • 4.4.2.1 算法内容
  • 4.4.2.2 一个例子
  • 4.4.3 算法性能比较分析
  • 4.5 小结
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文和参与的项目
  • 相关论文文献

    • [1].算法:一种新的权力形态[J]. 治理现代化研究 2020(01)
    • [2].算法决策规制——以算法“解释权”为中心[J]. 现代法学 2020(01)
    • [3].面向宏观基本图的多模式交通路网分区算法[J]. 工业工程 2020(01)
    • [4].算法中的道德物化及问题反思[J]. 大连理工大学学报(社会科学版) 2020(01)
    • [5].算法解释请求权及其权利范畴研究[J]. 甘肃政法学院学报 2020(01)
    • [6].算法新闻的公共性建构研究——基于行动者网络理论的视角[J]. 人民论坛·学术前沿 2020(01)
    • [7].算法的法律性质:言论、商业秘密还是正当程序?[J]. 比较法研究 2020(02)
    • [8].关键词批评视野中的算法文化及其阈限性[J]. 学习与实践 2020(02)
    • [9].掌控还是被掌控——大数据时代有关算法分发的忧患与反思[J]. 新媒体研究 2020(04)
    • [10].美国算法治理政策与实施进路[J]. 环球法律评论 2020(03)
    • [11].算法解释权:科技与法律的双重视角[J]. 苏州大学学报(哲学社会科学版) 2020(02)
    • [12].大数据算法决策的问责与对策研究[J]. 现代情报 2020(06)
    • [13].大数据时代算法歧视的风险防控和法律规制[J]. 河南牧业经济学院学报 2020(02)
    • [14].风险防范下算法的监管路径研究[J]. 审计观察 2019(01)
    • [15].模糊的算法伦理水平——基于传媒业269名算法工程师的实证研究[J]. 新闻大学 2020(05)
    • [16].算法推荐新闻对用户的影响及对策[J]. 新媒体研究 2020(10)
    • [17].如何加强对算法的治理[J]. 国家治理 2020(27)
    • [18].“后真相”背后的算法权力及其公法规制路径[J]. 行政法学研究 2020(04)
    • [19].算法规制的谱系[J]. 中国法学 2020(03)
    • [20].论算法排他权:破除算法偏见的路径选择[J]. 政治与法律 2020(08)
    • [21].政务算法与公共价值:内涵、意义与问题[J]. 国家治理 2020(32)
    • [22].算法的法律规制研究[J]. 上海商业 2020(09)
    • [23].蚁群算法在文字识别中的应用研究[J]. 信息与电脑(理论版) 2019(22)
    • [24].大数据聚类算法研究[J]. 无线互联科技 2018(04)
    • [25].RSA算法的改进研究[J]. 计算机与网络 2018(14)
    • [26].智能时代的新内容革命[J]. 国际新闻界 2018(06)
    • [27].改进的负载均衡RSA算法[J]. 电脑知识与技术 2018(25)
    • [28].基于深度学习的视觉跟踪算法研究综述[J]. 计算机科学 2017(S1)
    • [29].大数据算法的歧视本质[J]. 自然辩证法研究 2017(05)
    • [30].深度学习算法在智能协作机器人方面的应用[J]. 中国新通信 2017(21)

    标签:;  ;  ;  ;  ;  ;  

    大规模数据库关联规则挖掘算法研究
    下载Doc文档

    猜你喜欢