论文摘要
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,如何充分利用这些数据信息并为企业决策者提供决策支持成为一个十分迫切又棘手的问题,数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是帮助人们在海量数据中发现信息和知识的工具,近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注,如何提高数据挖掘的效率成为学术界热门的研究课题,而关联规则的发现是数据挖掘中最成功和最重要的一项任务,也是当今数据挖掘中一个非常活跃的研究领域,其中最著名的挖掘关联规则算法就是Apriori算法。论文对数据挖掘和关联规则的主要概念和发展状况作了综述,给出了挖掘关联规则问题的正式的描述,对典型的串行关联规则算法和并行关联规则算法作了较深入的分析,并且介绍了这些算法的思想及其各自的优缺点;针对CD算法所存在的多次扫描和冗余存储等问题进行改进。CD算法的目标是减少通信量获得较好的任务分布性,使各处理器只对本地数据并行地进行处理,但算法的I/O量较重,数据结构重复,没有有效利用整个内存。因此论文在CD算法的基础上提出了改进的算法NCD:通过对参与候选集的元素计数的方法来减少产生候选集的组合和数据库的扫描次数以达到要求。这种方法是利用多个处理器的并行计算得到候选集S′,由于候选集无法保证是超集,有可能报告失效,这时还须扫描数据一遍或多遍,直到不再报告失效为止。这种算法让各处理器在不知道其他处理器的任何信息的情况下独立地计算局部大项集,直到所有的处理器都计算出了局部大项集后,才开始交换数据,增加或删除项集,得到最终结果,这有利于提高挖掘的速度和减少数据库的I/O操作时间的开销。事实上CD算法使用了一个简单的原则,即允许在其他处理器上进行并行地冗余计算和冗余存储,尽而避免大量通信。论文对所提出的NCD算法与CD算法在实验数据集上进行测试,测试结果说明在数据集相同的情况下NCD算法效率得到了有效的提高。