论文摘要
关联规则(Association Rules)是挖掘发现大量数据中项集(Itemset)之间有趣的关联或相关联系,是数据挖掘领域研究的一个重要内容。将关联规则应用于社会保障数据,可以发现一些潜在的规律来辅助计算机审计社会保障数据。面对社会保障庞大的数据量,关联规则并行数据挖掘成为有效的方法之一。本文首先说明了社会保障审计的意义,分析了数据挖掘中的关联规则分析技术在社会保障审计中的作用。其次介绍了数据挖掘的发展、研究方向、应用和关联规则(关联模式)的基本概念、常用的算法和扩展算法,以及关联规则并行方面的算法和成果。然后通过具体分析社会保障数据的特点,将关联规则的抽样并行算法引入了社会保障数据的审计中。本文设计实现了4个结点上的关联规则并行抽样算法,并将其首次应用于社会保障审计领域。关联规则并行抽样算法共分为两大步:一、各结点独立使用关联规则经典算法APRIORI挖掘各自的数据。二、设计将各结点的挖掘结果传输到根节点,汇总各结点的挖掘结果,得出关联规则关系。对于社会保障数据的分割,在实验的基础上,经过比较按时间顺序划分、按所属区域划分和按随机策略划分的结果,选用精确度较高的按时间顺序划分方式。根据数据的特点,在数据挖掘的数据预处理阶段,主要进行了数据抽取、数据转换和清洗、数据加载等。本文将数据挖掘中的关联规则并行抽样算法与社会保障审计结合起来,利用关联规则的技术来发现社会保障数据中可以帮助审计得潜在知识,在取得较为理想的结果的同时,提高了数据挖掘的效率。