基于MapReduce的并行决策树分类算法研究与实现

基于MapReduce的并行决策树分类算法研究与实现

论文摘要

分类是数据挖掘和机器学习等领域中一个非常重要的研究课题,在众多领域中都得到了广泛的应用。当前已经提出的分类方法主要有贝叶斯分类、决策树、神经网络、支持向量机等,其中决策树方法以其构造速度快、生成模式简单、精度高等优点而广受欢迎。目前影响较大的决策树算法主要有ID3、SLIQ、SPRINT等。由于决策树分类模型精准程度直接依赖于训练数据集的大小,在处理海量数据时就会遇到时间复杂度过高的瓶颈,使其很难得到推广。因此,决策树分类算法的并行化开发就显得非常必要。本论文基于MapReduce并行编程模型对决策树分类算法的并行化进行了系统的研究。论文首先研究了各种串行决策树分类算法的主要思想,同时对现有的并行编程模型进行了全面的研究、分析和比较,发现MapReduce模型是一种适用于大规模数据并行计算的并行编程模型。在对决策树分类算法的并行性开发时,主要通过将训练数据集在各处理机上进行划分、并行地确定结点的最佳分裂属性以及并行地分割属性列表到各个子结点来实现。论文分别研究了三种MapReduce实现架构下并行决策树分类算法的设计,并在Phoenix共享内存架构上对SPRINT算法进行了具体的并行实现。通过实验分析和比较,结果表明本文研究的方法和实现不仅比基于MPI并行编程模型的同类决策树算法的实现编程更容易,而且在计算节点较多的情况下能得到更优的性能,获得更大加速比。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景和意义
  • 1.2 研究现状
  • 1.3 本文工作及论文结构
  • 2 决策树分类方法
  • 2.1 决策树方法概述
  • 2.1.1 决策树的生成
  • 2.1.2 决策树的剪枝
  • 2.2 常见的决策树算法
  • 3算法'>2.2.1 ID3算法
  • 4.5算法'>2.2.2 C4.5算法
  • 2.2.3 SLIQ 算法
  • 2.2.4 SPRINT 算法
  • 2.3 决策树算法的并行策略
  • 2.3.1 数据划分方式
  • 2.3.2 程序设计模式
  • 3 并行编程模型与决策树分类算法的并行实现
  • 3.1 PVM 并行编程模型
  • 3.2 MPI 并行编程模型
  • 3.3 OpenMP 并行编程模型
  • 3.4 基于骨架的并行编程模型
  • 3.5 MapReduce 并行编程模型
  • 3.6 并行决策树设分类算法
  • 3.6.1 基于PVM 的并行SLIQ 算法
  • 3.6.2 基于MPI 的并行SPRINT 算法
  • 4 MapReduce 实现架构下的并行决策树算法设计
  • 4.1 Google 的 MapReduce 架构下并行决策树算法的设计
  • 4.1.1 Google 的MapReduce 架构
  • 4.1.2 基于 Google 的 MapReduce 架构下的并行 SPRINT 算法设计
  • 4.2 Hadoop 架构下的并行决策树算法的设计
  • 4.2.1 Apache 的Hadoop 架构
  • 4.2.2 Hadoop 架构下并行SPRINT 算法的设计
  • 4.3 Phoenix 架构下的并行决策树算法设计
  • 4.3.1 Phoenix 架构
  • 4.3.2 Phoenix 架构下并行SPRINT 算法的设计
  • 4.4 本章小结
  • 5 实验分析
  • 5.1 实验环境搭建
  • 5.2 Phoenix 架构平台上的实现
  • 5.2.1 主要数据结构
  • 5.2.2 主要函数实现
  • 5.3 实验评估指标
  • 5.4 实验结果分析
  • 6 总结与展望
  • 6.1 本文总结
  • 6.2 进一步工作
  • 参考文献
  • 读研期间发表论文
  • 致谢
  • 相关论文文献

    • [1].决策树分类算法及其应用[J]. 科学技术创新 2017(25)
    • [2].基于决策树分类算法的遥感影像土地利用分类[J]. 阴山学刊(自然科学版) 2018(02)
    • [3].不确定数据的决策树分类算法[J]. 计算机应用 2009(11)
    • [4].一种有效的多关系决策树分类算法[J]. 内蒙古农业大学学报(自然科学版) 2020(02)
    • [5].决策树分类算法研究[J]. 信息与电脑(理论版) 2020(14)
    • [6].数据挖掘中决策树分类算法的研究与改进[J]. 软件导刊 2009(02)
    • [7].决策树分类算法在输变电设备状态监测装置可用性判断中的研究与应用[J]. 数字技术与应用 2016(12)
    • [8].决策树分类算法在教学评估中的应用[J]. 中国高等教育评估 2013(02)
    • [9].基于红黑树的连续属性数据流快速决策树分类算法[J]. 南京邮电大学学报(自然科学版) 2017(02)
    • [10].基于决策树分类算法的入侵检测研究[J]. 电子设计工程 2013(22)
    • [11].决策树几种分类算法的分析比较[J]. 电脑知识与技术 2018(20)
    • [12].基于不确定数据决策树分类算法的软件外包评价模型[J]. 天津职业技术师范大学学报 2011(03)
    • [13].基于修正系数的决策树分类算法[J]. 计算机工程与设计 2008(24)
    • [14].属性约简的决策树分类算法对未成年人犯罪行为的分析[J]. 中国人民公安大学学报(自然科学版) 2011(04)
    • [15].ID3决策树分类算法在学生信息中的应用[J]. 硅谷 2011(11)
    • [16].一种改进的基于粗糙集理论的决策树分类算法[J]. 云南民族大学学报(自然科学版) 2012(06)
    • [17].决策树分类算法——ID3算法及其讨论[J]. 软件导刊 2010(10)
    • [18].决策树分类算法-ID3的改进[J]. 黑龙江科技信息 2009(07)
    • [19].基于最小Gini指标的决策树分类算法设计与研究[J]. 软件导刊 2009(05)
    • [20].基于决策树分类算法异构数据的索引优化[J]. 电子科技 2018(03)
    • [21].数据挖掘中决策树分类算法的研究[J]. 东华理工大学学报(自然科学版) 2010(02)
    • [22].基于数据挖掘技术的高校精准化资助路径探析[J]. 国际公关 2020(08)
    • [23].基于bagging思想的决策树分类算法研究[J]. 北京服装学院学报(自然科学版) 2020(03)
    • [24].基于MR的并行决策树分类算法的设计与实现[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [25].决策树分类算法C4.5中连续属性过程处理的改进[J]. 计算机与现代化 2010(08)
    • [26].一种基于改进SLIQ决策树分类算法的应用研究[J]. 苏州大学学报(工科版) 2010(01)
    • [27].基于McDiarmid不等式的决策树分类算法[J]. 山西大学学报(自然科学版) 2019(04)
    • [28].数据挖掘中改进的C4.5决策树分类算法[J]. 吉林大学学报(理学版) 2017(05)
    • [29].基于关联矩阵的决策树分类算法[J]. 长春大学学报 2013(04)
    • [30].基于模糊分裂的概念自适应增量决策树分类算法[J]. 计算机工程与设计 2011(04)

    标签:;  ;  ;  

    基于MapReduce的并行决策树分类算法研究与实现
    下载Doc文档

    猜你喜欢