关联规则的精简方法研究

关联规则的精简方法研究

论文摘要

数据挖掘是指从大量数据中提取或“挖掘”知识。关联规则是数据挖掘当前研究的主要模式之一,用于确定数据集中不同域或属性之间的联系,找出有价值的多个域之间的依赖关系。发现频繁项集是关联规则挖掘中最基本、最重要的问题,自从Agrawal的开创性工作以来,有关研究从未停止过。当支持度阈值较低或数据集中存在长模式时,频繁项集挖掘可能产生大量频繁模式集,这将给人们的理解和从中发现有趣的模式造成一定的困难。为压缩庞大的频繁模式集,压缩的频繁项集挖掘是最近研究的一个热点问题,其中包括最大频繁项集挖掘和频繁闭项集挖掘。现有最大频繁项集挖掘算法,大多需要维护大量侯选项集并进行超集检测。当已有最大频繁项集数目较大时,超集检测将成为算法的瓶颈。本文首先提出了一种基于标记域FP-Tree的快速挖掘最大频繁项集算法BF-DMFI,该算法为FP-Tree中每个节点增加一个标记域,利用该域对节点进行有效的标记,从而减少了最大侯选频繁项集的数量,节约了超集检测时间,在一定程度上提高了算法的性能。按照搜索空间树的遍历策略,最大频繁项集挖掘算法分为宽度优先算法和深度优先算法。宽度优先算法大多需要维护大量候选项集并多次重复扫描数据库或搜索FP-Tree;而深度优先算法则需要递归构造频繁项的条件模式树并进行相应挖掘,这将加大算法的执行时间和所占用的内存空间。提出了一种基于FP-Tree的非递归深度优先挖掘算法DF-DMFI。该算法通过构造每个频繁节点的频繁子孙集和频繁前缀,连接生成最大频繁项集,利用MFI-Tree进行超集检测,并对FP-Tree进行有效的剪枝,从而保证了算法的执行效率。现有最大频繁项集和频繁闭项集挖掘算法,大多从事务数据库中直接挖掘,具有较高的时间和空间复杂度。提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。在BFI-DMFI算法中,通过逐个检测频繁项集在其集合中是否存在超集来判断该项集是不是最大频繁项集;在BFI-DCFI算法中,通过挖掘所有支持度相等的频繁项集中的最大频繁项集,组合生成频繁闭项集。利用此方法挖掘最大频繁项集和频繁闭项集在一定程度上降低了算法的时间和空间复杂度。在上述研究的基础上,本文最后设计并实现了一个关联规则挖掘工具原型。该原型可以挖掘出基于频繁项集、频繁闭项集和最大频繁项集的关联规则,并可根据用户自定义的规则进行约束挖掘,以进一步精简关联规则结果集。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 数据挖掘概述
  • 1.1.1 数据挖掘的兴起
  • 1.1.2 数据挖掘的定义
  • 1.1.3 数据挖掘面临的重要挑战
  • 1.2 论文的研究内容和组织结构
  • 1.2.1 论文的研究内容
  • 1.2.2 论文的组织结构
  • 第二章 关联规则挖掘概述
  • 2.1 关联规则挖掘
  • 2.1.1 关联规则挖掘的基本概念
  • 2.1.2 关联规则挖掘的步骤
  • 2.1.3 频繁项集挖掘
  • 2.2 由关联规则到相关分析
  • 2.2.1 客观评价法
  • 2.2.2 主观评价法
  • 2.3 关联规则的精简方法
  • 2.3.1 频繁闭项集挖掘
  • 2.3.2 最大频繁项集挖掘
  • 2.3.3 关联规则的其它压缩方法
  • 2.4 本章小节
  • 第三章 基于标记域FP-Tree挖掘最大频繁项集
  • 3.1 引言
  • 3.2 相关知识
  • 3.2.1 FP-Tree结构
  • 3.2.2 深度优先搜索策略
  • 3.3 基于标记域FP-Tree挖掘最大频繁项集算法BF-DMFI
  • 3.4 算法分析与比较
  • 3.5 本章小结
  • 第四章 基于FP-Tree深度优先挖掘最大频繁项集
  • 4.1 引言
  • 4.2 相关知识
  • 4.2.1 多叉有序FP-Tree
  • 4.2.2 MFI-Tree
  • 4.3 基于多叉有序FP-Tree挖掘最大频繁项集
  • 4.4 算法分析与比较
  • 4.5 本章小结
  • 第五章 基于频繁项集挖掘最大频繁项集和频繁闭项集
  • 5.1 引言
  • 5.2 相关知识
  • 5.3 基于频繁项集的最大频繁项集和频繁闭项集挖掘算法
  • 5.3.1 基于完全频繁项集的最大频繁项集挖掘算法BFI-DMFI
  • 5.3.2 基于完全频繁项集的频繁闭项集挖掘算法BFI-DCFI
  • 5.4 算法分析和比较
  • 5.5 本章小结
  • 第六章 关联规则挖掘工具原型设计与实现
  • 6.1 开发环境
  • 6.2 系统总体设计
  • 6.3 工具原型的主要功能模块及实现方法
  • 6.3.1 数据选择模块
  • 6.3.2 算法选择模块
  • 6.3.3 参数设置模块
  • 6.3.4 挖掘结果展示模块
  • 6.4 本章小结
  • 第七章 总结及进一步的工作
  • 7.1 本文的主要工作
  • 7.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  

    关联规则的精简方法研究
    下载Doc文档

    猜你喜欢