论文摘要
从大量的数据中提取或者“挖掘”隐含的知识是数据挖掘的主要任务,因此又称数据挖掘为数据库中的知识发现过程。数据挖掘涉及了多个新兴学科领域的知识,其发展和这些学科的发展相辅相成。关联分析是数据挖掘诸多功能中最为重要和应用最广泛的一种技术。关联分析用于发现数据间蕴涵的关联规则,关联规则描述了给定数据集的数据项之间的某些有趣联系。概念是人类进行知识表达的一种手段。数据库知识发现的过程就是将数据库中蕴含的知识形式化成有用概念的过程。概念格是知识的一种表现模型,依据知识体在内涵和外延上的依赖或因果关系,建立概念层次结构。概念格是一种基于概念和概念层次的数学化的表达,是应用数学的一个分支。目前,概念格被广泛应用于多个研究领域。在数据挖掘领域,概念格是提取关联规则的重要方法之一。本文首先介绍了数据挖掘的基本概念、应用范围、功能、分类、常用技术和存在问题及发展方向。其次介绍了关联分析的基本概念及一些关联规则的主要应用场合和挖掘方法。其中着重介绍了挖掘关联规则的一些常用算法(如Apriori算法)的基本思想,并讨论了这些算法的共性和为提高效率所采用的一些技术和方法。这些算法普遍面临着因为项集生成瓶颈而造成的效率低下问题,同时存在着挖掘出的规则包含大量冗余规则的问题。本文针对这些问题,做了一些相关的研究工作,主要内容包括:提出了一个基于基集的关联规则挖掘算法。基集是用采样的原理从原始数据集中提取出的一个子集,本文提出了一个称为“动态系统扩散”的方法来获得这个集合。该方法以一些用户感兴趣的种子项为基础,使用一种动态扩散的方法,通过扫描数据库得到与种子项存在较大关系的一个子集。这个子集相对于原始数据库来说具有较小的规模,因而在传统算法生成频繁项集容易遇到的频繁项集急剧增多而造成效率严重下降的问题上,有了明显的改善。同时,该算法产生的关联规则避免了大量冗余无效的规则,使之更容易形成被用户接受的知识。提出了一种约简概念格的构造算法,并把该算法应用于关联规则的挖掘中。该算法在频繁1项集的基础上,利用项集可以用事务标识号表示的特点,同时在建格过程中引入支持度比较的方法,提高建格的速度,并使得最后得到的概念格具有高度的约简性。在建好的约简概念格上,本文提出了两种方法可以快速提取出频繁项集,从而进一步挖掘出关联规则。提出了一种综合利用基集和约简概念格技术的关联规则提取算法。该算法以基集作为建格的基础节点,利用约简概念格的建格和提取算法快速地搜索出所有的频繁项集。本文最后尝试了把基于基集和约简概念格的关联规则提取算法应用于GIS中空间数据的关联规则挖掘领域中。通过空间连接索引(SJI)技术将空间数据进行适当的格式转换,可以把空间数据库转换成适宜于关联规则挖掘的数据形式。本文针对空间数据挖掘容易产生大量无用强规则的特点,应用了两种剔除冗余规则和无意义规则的方法,让最后产生的结果更加精简并符合用户的期望。
论文目录
相关论文文献
- [1].基于频繁项集挖掘的零售医药企业药品关联研究[J]. 重庆科技学院学报(自然科学版) 2019(06)
- [2].基于差异节点集的加权频繁项集挖掘算法[J]. 计算机工程 2020(05)
- [3].基于强化学习的大数据频繁项集挖掘算法[J]. 信息通信 2020(06)
- [4].浅谈加权频繁项集挖掘的研究进展[J]. 电脑知识与技术 2019(27)
- [5].频繁项集挖掘的研究进展及主流方法[J]. 计算机科学 2018(S2)
- [6].不确定数据中的代表频繁项集近似挖掘[J]. 计算机与数字工程 2017(02)
- [7].基于频繁项集挖掘算法的伴随车应用与实现[J]. 计算机应用与软件 2017(04)
- [8].基于渐近取样的频繁项集挖掘近似算法[J]. 控制工程 2017(09)
- [9].一种利用差集的加权频繁项集挖掘算法[J]. 辽宁工程技术大学学报(自然科学版) 2016(03)
- [10].基于差分隐私的频繁项集挖掘研究综述[J]. 电子技术与软件工程 2016(03)
- [11].挖掘完全频繁项集的蚁群算法[J]. 微电子学与计算机 2014(12)
- [12].大数据环境下频繁项集挖掘的研究[J]. 青岛科技大学学报(自然科学版) 2015(02)
- [13].基于K均值聚类的大数据频繁项集挖掘研究[J]. 计算机仿真 2020(08)
- [14].基于动态数据的加权频繁项集挖掘算法[J]. 科学技术与工程 2019(20)
- [15].基于强化学习的大数据频繁项集挖掘算法[J]. 计算机工程与设计 2019(08)
- [16].大数据环境下基于前缀树的频繁项集挖掘[J]. 控制工程 2019(11)
- [17].一种高效的改进频繁项集挖掘算法[J]. 微电子学与计算机 2018(02)
- [18].关联规则频繁项集挖掘算法设计与实现[J]. 特区经济 2018(08)
- [19].基于概率模型的概率频繁项集挖掘方法[J]. 安阳师范学院学报 2017(02)
- [20].基于二叉树的并行频繁项集挖掘算法[J]. 计算机技术与发展 2015(10)
- [21].分布式频繁项集挖掘算法[J]. 计算机应用与软件 2015(10)
- [22].基于闭频繁项集挖掘的技术演化研究方法[J]. 图书情报工作 2013(19)
- [23].不确定数据频繁项集挖掘方法探析[J]. 莆田学院学报 2014(02)
- [24].一种基于多核微机的闭频繁项集挖掘算法[J]. 计算机应用与软件 2013(03)
- [25].基于改进倒排表和集合的最频繁项集挖掘算法[J]. 计算机应用研究 2012(06)
- [26].一种分布式全局频繁项集挖掘方法[J]. 计算机工程与应用 2011(29)
- [27].一种有效的负频繁项集挖掘方法[J]. 山东轻工业学院学报(自然科学版) 2011(04)
- [28].一种改进的加权频繁项集挖掘算法[J]. 计算机工程与应用 2010(23)
- [29].入侵检测中加权频繁项集挖掘[J]. 计算机工程与设计 2008(08)
- [30].一种新的动态频繁项集挖掘方法[J]. 计算机工程与应用 2008(21)