论文摘要
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,本文选择了基于最大频繁项目集的关联规则算法作为研究对象,并开展相关工作。本文针对客户数据库海量数据挖掘时间问题,为提高挖掘效率,从多方面满足用户分析数据的需求,论文借鉴了基于FP-tree最大频繁项目集挖掘DMFIA算法的相关思想,通过使用不同的数据分析方法,并灵活调整最小支持度数,提出了一种新的基于客户数据库的最大频繁项目集算法,可以从不同的角度分析数据,有效地减少了算法的执行时间。通过进一步分析发现原DMFIA算法和基于客户数据库的最大频繁项目集算法不能有效地解决客户序列视图数据库的数据挖掘问题,针对这一问题,借鉴以上算法相关思想,结合序列模式提出了一种新的基于序列模式的项目级最大频繁序列集算法,即将大于或等于最小支持度数s的项目按支持度由小到大的顺序开始做循环运算,但在对MFCSd进行循环运算时,若MFCSd中的元素,即以客户序列为单位的每一项,若所包含事务的项目支持度均大于或等于进行循环运算的某一频繁项目支持度数,提取出来形成MFCSk;对MFCSk中以客户序列为单位的每一项,则统计该客户序列在备份MFCS的支持度数flag,如果flag>=s′(通常s=s′),则直接将该客户序列输出到最大频繁序列集MFSd,否则将MFCSd该客户序列中的事务相互组合形成集合,然后提取集合中所有元素,逐一进行循环运算;算法的时间复杂度将取决于对MFCSd进行多次循环运算,何时MFCSd为空,因此这是决定算法执行时间的关键。基于序列模式的事务级最大频繁序列集算法是在基于序列模式的项目级最大频繁序列集算法的基础上的进一步研究,即将以事务为单位的每一项,即取大于或等于最小支持度数s的事务按支持度由小到大的顺序,以类似于基于序列模式的项目级最大频繁序列集算法逐一循环计算的方式挖掘数据库中的数据。接着,本文阐述了挖掘最大频繁项目序列集ISSDM算法,针对该算法不能有效地解决客户序列视图数据库的数据挖掘问题,结合序列模式提出了改进ISSDM算法,并进行了相应的验证,结果表明,在进行相同数据量的算法执行时间对比实验中,改进算法执行时间明显优于原算法。最后,针对数据仓库领域的数据挖掘问题,将基于序列模式的项目级最大频繁序列集算法和改进ISSDM算法分别同数据仓库的多维模型相结合,提出了针对数据仓库多维模型的基于序列模式的项目级最大频繁序列集算法和改进ISSDM算法。总之,本文通过对基于FP-tree的最大频繁项目集的DMFIA算法和ISSDM算法的研究,针对数据库领域的客户序列视图数据库数据挖掘问题及数据仓库领域的多维模型,提出了一系列创新算法。实践表明,算法有较好的实用性、可操作性和创新性,具有较好的理论价值,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有较好的应用前景。
论文目录
相关论文文献
- [1].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
- [2].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
- [3].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
- [4].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
- [5].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
- [6].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
- [7].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
- [8].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
- [9].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
- [10].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
- [11].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
- [12].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
- [13].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
- [14].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
- [15].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
- [16].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
- [17].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
- [18].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
- [19].浅析数据挖掘[J]. 内江科技 2020(06)
- [20].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
- [21].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
- [22].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
- [23].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
- [24].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
- [25].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
- [26].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
- [27].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
- [28].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
- [29].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)
- [30].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(10)
标签:数据挖掘论文; 知识发现论文; 关联规则论文; 序列模式论文; 算法论文; 最大频繁项目集论文; 最大频繁项目序列集论文; 最大频繁客户序列集论文;