基于Hadoop的不确定频繁项集并行挖掘方法研究

基于Hadoop的不确定频繁项集并行挖掘方法研究

论文摘要

近年来,由于不确定数据的广泛应用,基于不确定数据的频繁项集的挖掘成为研究的热点。由于在不确定数据中,项集的支持度是一个随机的变量而不是一个固定的值。因此,不确定数据中关于频繁项集的定义大致分为两种:一种是基于期望支持度的频繁项集,它主要是根据项集的期望支持度来衡量它是否是频繁项集。第二种,基于概率的频繁项集,它主要是根据项集的频繁概率来确定频繁项集。然而,在如今这个海量数据的时代,传统的单机模式下的不确定频繁项集的挖掘方法往往无法满足用户对于时间和空间上的要求。因此,如何高效并行地完成不确定数据下频繁项集的挖掘任务是一个富有挑战性的问题,且具有重要的理论和实用价值。目前,以MapReduce编程模型为基础的Hadoop平台,为海量数据下的不确定数据中频繁项集的挖掘提供了新的解决思路。本文针对不确定频繁项集的并行挖掘算法,主要进行了三个方面的研究。首先,本文实现了基于期望支持度的不确定频繁项集并行挖掘算法,且在多个数据集上的实验证明了这种算法的可并行性和有效性。其次,本文实现了基于概率的不确定频繁项集并行挖掘算法,在计算概率的同时,本文引入了产生式来计算项集的频繁概率。最后,本文实现了近似概率不确定频繁项集并行挖掘算法,主要是利用泊松分布和正态分布对项集的支持度进行估计,进而求出项集的频繁概率。这两种算法均在保证精确率和召回率的同时大大提高了挖掘概率频繁项集的效率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 不确定数据频繁项集的定义
  • 1.2.2 不确定数据中频繁项集挖掘算法
  • 1.2.3 算法并行化
  • 1.3 面临的问题和挑战
  • 1.4 本文主要工作和安排
  • 第二章 Hadoop平台
  • 2.1 Hadoop的起源及发展过程
  • 2.2 Hadoop的分布式文件系统HDFS
  • 2.2.1 设计前提与目标
  • 2.2.2 HDFS的体系结构与工作机制
  • 2.3 Hadoop的JobTracker和Tasktracker
  • 2.4 MapReduce的简介以及工作机制
  • 2.4.1 MapReduce系统简介
  • 2.4.2 MapReduce的作业运行机制
  • 第三章 基于期望支持度的不确定频繁项集并行挖掘算法
  • 3.1 引言
  • 3.2 期望支持度分析
  • 3.3 U-Apriori算法
  • 3.4 基于U-Apriori算法的并行化算法PU-Apriori
  • 3.4.1 PU-Apriori算法总体框架图
  • 3.4.2 PU-Apriori算法
  • 3.5 实验分析
  • 3.5.1 实验环境
  • 3.5.2 数据集
  • 3.5.3 评判标准
  • 3.5.4 实验分析
  • 3.6 本章小结
  • 第四章 基于概率的不确定频繁项集并行挖掘算法
  • 4.1 引言
  • 4.2 概率频繁项集以及产生式的分析
  • 4.2.1 概率频繁项集的分析
  • 4.2.2 产生式的分析
  • 4.3 基于Apriori的概率频繁项集算法并行化
  • 4.4 实验分析
  • 4.5 本章小结
  • 第五章 基于近似概率的不确定频繁项集并行挖掘算法
  • 5.1 引言
  • 5.2 常用的概率估计方法
  • 5.2.1 基于泊松分布的概率估计方法
  • 5.2.2 基于正态分布的概率估计方法
  • 5.3 基于泊松分布的概率频繁项集算法并行化
  • 5.4 基于正态分布的概率频繁项集算法并行化
  • 5.5 实验分析
  • 5.5.1 实验环境以及实验参数
  • 5.5.2 实验结果及分析
  • 5.6 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 简历与科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于Hadoop的不确定频繁项集并行挖掘方法研究
    下载Doc文档

    猜你喜欢