论文摘要
近年来,由于不确定数据的广泛应用,基于不确定数据的频繁项集的挖掘成为研究的热点。由于在不确定数据中,项集的支持度是一个随机的变量而不是一个固定的值。因此,不确定数据中关于频繁项集的定义大致分为两种:一种是基于期望支持度的频繁项集,它主要是根据项集的期望支持度来衡量它是否是频繁项集。第二种,基于概率的频繁项集,它主要是根据项集的频繁概率来确定频繁项集。然而,在如今这个海量数据的时代,传统的单机模式下的不确定频繁项集的挖掘方法往往无法满足用户对于时间和空间上的要求。因此,如何高效并行地完成不确定数据下频繁项集的挖掘任务是一个富有挑战性的问题,且具有重要的理论和实用价值。目前,以MapReduce编程模型为基础的Hadoop平台,为海量数据下的不确定数据中频繁项集的挖掘提供了新的解决思路。本文针对不确定频繁项集的并行挖掘算法,主要进行了三个方面的研究。首先,本文实现了基于期望支持度的不确定频繁项集并行挖掘算法,且在多个数据集上的实验证明了这种算法的可并行性和有效性。其次,本文实现了基于概率的不确定频繁项集并行挖掘算法,在计算概率的同时,本文引入了产生式来计算项集的频繁概率。最后,本文实现了近似概率不确定频繁项集并行挖掘算法,主要是利用泊松分布和正态分布对项集的支持度进行估计,进而求出项集的频繁概率。这两种算法均在保证精确率和召回率的同时大大提高了挖掘概率频繁项集的效率。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 国内外研究现状1.2.1 不确定数据频繁项集的定义1.2.2 不确定数据中频繁项集挖掘算法1.2.3 算法并行化1.3 面临的问题和挑战1.4 本文主要工作和安排第二章 Hadoop平台2.1 Hadoop的起源及发展过程2.2 Hadoop的分布式文件系统HDFS2.2.1 设计前提与目标2.2.2 HDFS的体系结构与工作机制2.3 Hadoop的JobTracker和Tasktracker2.4 MapReduce的简介以及工作机制2.4.1 MapReduce系统简介2.4.2 MapReduce的作业运行机制第三章 基于期望支持度的不确定频繁项集并行挖掘算法3.1 引言3.2 期望支持度分析3.3 U-Apriori算法3.4 基于U-Apriori算法的并行化算法PU-Apriori3.4.1 PU-Apriori算法总体框架图3.4.2 PU-Apriori算法3.5 实验分析3.5.1 实验环境3.5.2 数据集3.5.3 评判标准3.5.4 实验分析3.6 本章小结第四章 基于概率的不确定频繁项集并行挖掘算法4.1 引言4.2 概率频繁项集以及产生式的分析4.2.1 概率频繁项集的分析4.2.2 产生式的分析4.3 基于Apriori的概率频繁项集算法并行化4.4 实验分析4.5 本章小结第五章 基于近似概率的不确定频繁项集并行挖掘算法5.1 引言5.2 常用的概率估计方法5.2.1 基于泊松分布的概率估计方法5.2.2 基于正态分布的概率估计方法5.3 基于泊松分布的概率频繁项集算法并行化5.4 基于正态分布的概率频繁项集算法并行化5.5 实验分析5.5.1 实验环境以及实验参数5.5.2 实验结果及分析5.6 本章小结第六章 总结与展望参考文献简历与科研成果致谢
相关论文文献
标签:频繁项集的挖掘论文; 平台论文; 编程模型论文; 不确定数据论文;