基于最大频繁项目集的数据挖掘关联规则算法研究

基于最大频繁项目集的数据挖掘关联规则算法研究

论文摘要

数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,本文选择了基于最大频繁项目集的关联规则算法作为研究对象,并开展相关工作。本文针对客户数据库海量数据挖掘时间问题,为提高挖掘效率,从多方面满足用户分析数据的需求,论文借鉴了基于FP-tree最大频繁项目集挖掘DMFIA算法的相关思想,通过使用不同的数据分析方法,并灵活调整最小支持度数,提出了一种新的基于客户数据库的最大频繁项目集算法,可以从不同的角度分析数据,有效地减少了算法的执行时间。通过进一步分析发现原DMFIA算法和基于客户数据库的最大频繁项目集算法不能有效地解决客户序列视图数据库的数据挖掘问题,针对这一问题,借鉴以上算法相关思想,结合序列模式提出了一种新的基于序列模式的项目级最大频繁序列集算法,即将大于或等于最小支持度数s的项目按支持度由小到大的顺序开始做循环运算,但在对MFCSd进行循环运算时,若MFCSd中的元素,即以客户序列为单位的每一项,若所包含事务的项目支持度均大于或等于进行循环运算的某一频繁项目支持度数,提取出来形成MFCSk;对MFCSk中以客户序列为单位的每一项,则统计该客户序列在备份MFCS的支持度数flag,如果flag>=s′(通常s=s′),则直接将该客户序列输出到最大频繁序列集MFSd,否则将MFCSd该客户序列中的事务相互组合形成集合,然后提取集合中所有元素,逐一进行循环运算;算法的时间复杂度将取决于对MFCSd进行多次循环运算,何时MFCSd为空,因此这是决定算法执行时间的关键。基于序列模式的事务级最大频繁序列集算法是在基于序列模式的项目级最大频繁序列集算法的基础上的进一步研究,即将以事务为单位的每一项,即取大于或等于最小支持度数s的事务按支持度由小到大的顺序,以类似于基于序列模式的项目级最大频繁序列集算法逐一循环计算的方式挖掘数据库中的数据。接着,本文阐述了挖掘最大频繁项目序列集ISSDM算法,针对该算法不能有效地解决客户序列视图数据库的数据挖掘问题,结合序列模式提出了改进ISSDM算法,并进行了相应的验证,结果表明,在进行相同数据量的算法执行时间对比实验中,改进算法执行时间明显优于原算法。最后,针对数据仓库领域的数据挖掘问题,将基于序列模式的项目级最大频繁序列集算法和改进ISSDM算法分别同数据仓库的多维模型相结合,提出了针对数据仓库多维模型的基于序列模式的项目级最大频繁序列集算法和改进ISSDM算法。总之,本文通过对基于FP-tree的最大频繁项目集的DMFIA算法和ISSDM算法的研究,针对数据库领域的客户序列视图数据库数据挖掘问题及数据仓库领域的多维模型,提出了一系列创新算法。实践表明,算法有较好的实用性、可操作性和创新性,具有较好的理论价值,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有较好的应用前景。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.3 创新性工作
  • 1.4 本章小节
  • 第二章 数据挖掘技术
  • 2.1 数据挖掘技术的产生背景
  • 2.1.1 数据挖掘技术的商业需求分析
  • 2.1.2 数据挖掘产生的技术背景分析
  • 2.2 数据挖掘概念
  • 2.2.1 从商业角度看数据挖掘技术
  • 2.2.2 数据挖掘的技术含义
  • 2.2.3 数据挖掘研究的理论基础
  • 2.3 数据挖掘技术的分类问题
  • 2.4 数据挖掘常用的知识表示模式与方法
  • 2.4.1 广义知识挖掘
  • 2.4.2 关联知识挖掘
  • 2.4.3 类知识挖掘
  • 2.4.4 预测型知识挖掘
  • 2.4.5 特异型知识挖掘
  • 2.5 不同存储形式下的数据挖掘问题
  • 2.5.1 事务数据库中的数据挖掘
  • 2.5.2 关系型数据库中的数据挖掘
  • 2.5.3 数据仓库中的数据挖掘
  • 2.6 本章小节
  • 第三章 序列模式挖掘算法的研究
  • 3.1 序列模式
  • 3.1.1 序列模式的概念及定义
  • 3.1.2 一些相关概念及定义
  • 3.2 序列模式挖掘的一些主要算法
  • 3.3 应用领域
  • 3.4 本章小节
  • 第四章 关联规则DMFIA算法的研究
  • 4.1 引言
  • 4.2 挖掘最大频繁项目集DMFIA算法
  • 4.2.1 频繁项目集和最大频繁项目集
  • 4.2.2 FP-tree频繁模式树
  • 4.2.3 基于频繁模式树FP-tree的DMFIA算法
  • 4.3 挖掘最大频繁项目(序列)新算法
  • 4.3.1 基于客户数据库的最大频繁项目集算法
  • 4.3.2 基于序列模式的项目级最大频繁序列集算法
  • 4.3.3 基于序列模式的事务级最大频繁序列集算法
  • 4.3.4 时间复杂度
  • 4.4 本章小节
  • DM算法的研究'>第五章 关联规则ISSDM算法的研究
  • 5.1 基本概念与解决方法
  • 5.2 对项目集格空间理论的发展
  • 5.3 项目序列集格空间和它的操作
  • 5.4 基于项目序列集操作的关联规则挖掘算法
  • 5.4.1 关联规则挖掘空间定义
  • 5.4.2 三个实用算子
  • 5.4.3 最大频繁项目序列集的生成算法
  • 5.4.4 ISS-DM算法执行示例
  • 5.5 算法分析
  • 5.6 实验数据与分析
  • DM算法的改进'>5.7 基于最大频繁项目序列集挖掘ISSDM算法的改进
  • 5.8 本章小节
  • 第六章 基于数据仓库的关联规则算法研究
  • 6.1 数据仓库
  • 6.1.1 数据仓库的多维数据模型
  • 6.1.2 建立多维数据模型
  • 6.2 基于数据仓库多维模型改进DMFIA算法
  • 6.3 基于数据仓库多维模型改进ISS-DM算法
  • 6.4 本章小节
  • 结论
  • 参考文献
  • 致谢
  • 攻读博士学位期间发表的论文
  • 相关论文文献

    • [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [19].浅析数据挖掘[J]. 内江科技 2020(06)
    • [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
    • [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于最大频繁项目集的数据挖掘关联规则算法研究
    下载Doc文档

    猜你喜欢