基于MapReduce的数据挖掘算法在全国人口系统中的应用

基于MapReduce的数据挖掘算法在全国人口系统中的应用

论文摘要

根据IDC报告的估计,到2011年全球存储的电子数据总量将达到1.8ZB,怎样从这茫茫的数据海洋中得到有用的信息,是数据挖掘领域的一个常见的研究课题。对于大规模数据的处理,传统的数据挖掘算法,在这样数据异构、海量、分布的环境中,往往在计算能力上表现出力不从心,计算速度过慢甚至无法运行,从而成为许多挖掘算法的致命伤。云计算的出现,为大规模数据的分析和存储带来了曙光,利用云计算技术,将传统的数据挖掘算法并行化,凭借云计算平台的存储能力,解决大规模数据的处理需求与计算能力和存储能力之间的矛盾。这样,如何利用开源的云计算平台解决现有挖掘算法的瓶颈问题,重点在于如何实现挖掘算法的并行化。本文在国家自然科学基金资助项目(编号:60773005)的支持下,对海量数据处理和计算进行了深入的研究,以人口数据为范例,进行可行的并行数据挖掘算法研究。首先,本文从现在最受关注的云计算框架Hadoop框架入手,从分布式文件系统HDFS和分布式计算框架MapReduce两个角度进行了介绍,尤其对MapReduce计算框架运行机理进行了阐述,为后来的算法设计提供基础。接着,针对我国人口系统中存在的海量数据挖掘的需求,依托Hadoop的分布式框架,提出了基于MapReduce的并行数据挖掘算法。通过对K-means算法、朴素贝叶斯算法、FP-Growth算法的算法原理、瓶颈问题进行分析,提出了对这三个算法的MapReduce化的方法,并对并行K-means算法进行实现。最后,通过将改进后的K-means算法应用于人口数据中,分析学历与就业之间关系,以期对教育政策和就业政策的制定,起到积极意义。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题的研究背景
  • 1.2 课题的来源和研究意义
  • 1.3 国内外研究现状及分析
  • 1.4 论文的整体结构
  • 2 分布式数据挖掘概述
  • 2.1 数据挖掘概述
  • 2.1.1 数据挖掘算法
  • 2.1.2 分布式数据挖掘
  • 2.2 MapReduce编程模型
  • 2.2.1 MapReduce编程模式原理
  • 2.2.2 MapReduce编程模式的执行过程
  • 2.3 Hadoop分布式框架
  • 2.3.1 分布式文件系统HDFS
  • 2.3.2 Hadoop中MapReduce的工作原理
  • 2.4 本章小结
  • 3 基于MapReduce数据挖掘算法设计
  • 3.1 并行数据挖掘算法设计背景
  • 3.2 并行聚类算法
  • 3.2.1 经典K-means算法分析
  • 3.2.2 并行K-means算法实现
  • 3.2.3 并行K-means算法代码实现
  • 3.3 并行分类算法
  • 3.3.1 经典贝叶斯分类算法分析
  • 3.3.2 并行贝叶斯分类算法设计
  • 3.4 并行关联规则算法
  • 3.4.1 经典FP-Growth算法分析
  • 3.4.2 并行FP-Growth算法设计
  • 3.5 本章小结
  • 4 并行数据挖掘算法在人口系统中的应用
  • 4.1 数据准备
  • 4.2 数据清理
  • 4.3 实验结果及分析
  • 4.3.1 实验环境搭建
  • 4.3.2 实验结果
  • 4.3.3 实验结果分析
  • 4.4 本章小结
  • 5 总结与展望
  • 致谢
  • 参考文献
  • 在学期间发表的学术论文
  • 详细摘要
  • 相关论文文献

    • [1].基于数据挖掘算法的成都市流动人口状况研究[J]. 经济研究导刊 2020(03)
    • [2].大数据下的数据挖掘算法在多维度评教模型中的应用[J]. 信息与电脑(理论版) 2020(01)
    • [3].审计信息系统的异常数据挖掘算法和应用[J]. 全国流通经济 2020(19)
    • [4].云计算环境下的数据挖掘算法探究[J]. 网络安全技术与应用 2019(05)
    • [5].基于决策树的大学生职位晋升影响因素数据挖掘算法[J]. 北华大学学报(自然科学版) 2019(06)
    • [6].如何运用数据挖掘算法进行投诉预测分析[J]. 信息通信 2019(11)
    • [7].基于关联规则的数据挖掘算法[J]. 电子技术与软件工程 2018(02)
    • [8].一种基于神经网络的数据挖掘算法[J]. 电脑编程技巧与维护 2017(03)
    • [9].基于数据挖掘算法的电子图书馆智能推荐技术研究[J]. 西南师范大学学报(自然科学版) 2017(07)
    • [10].采用高阶累积量压缩的镀铬加工实时数据挖掘算法[J]. 世界有色金属 2016(09)
    • [11].基于云计算的海量数据挖掘算法[J]. 产业与科技论坛 2015(16)
    • [12].数据挖掘算法基于关联规则的分析和应用[J]. 课程教育研究 2017(11)
    • [13].基于数据挖掘算法的创客校园质量管理模型研究[J]. 现代职业教育 2017(10)
    • [14].基于云计算的数据挖掘算法研究[J]. 无线互联科技 2013(12)
    • [15].基于大数据的高效数据挖掘算法及应用[J]. 信息与电脑(理论版) 2020(19)
    • [16].基于数据挖掘算法数据模型实现大数据分析的方法研究[J]. 电子测量技术 2020(03)
    • [17].数据挖掘算法在云平台应用中的优化与实施[J]. 电子元器件与信息技术 2019(03)
    • [18].关联规则下的数据挖掘算法分析[J]. 信息记录材料 2018(07)
    • [19].一种改进的数据挖掘算法[J]. 科技通报 2016(11)
    • [20].基于神经网络自适应搜索的大数据挖掘算法[J]. 计算机与网络 2016(23)
    • [21].基于R语言的数据挖掘算法研究[J]. 电脑知识与技术 2016(28)
    • [22].云计算平台下数据挖掘算法研究[J]. 信阳农林学院学报 2017(01)
    • [23].入侵检测中常用数据挖掘算法的分析与研究[J]. 无线互联科技 2014(11)
    • [24].基于链距离估计的非显著特征数据挖掘算法[J]. 科技通报 2015(06)
    • [25].数据挖掘算法的研究——以不确定图模型为例[J]. 电脑知识与技术 2015(12)
    • [26].数据挖掘算法的分析探讨[J]. 硅谷 2014(02)
    • [27].动态云模型大规模数据挖掘算法[J]. 长春工业大学学报(自然科学版) 2014(03)
    • [28].常用数据挖掘算法的分析对比[J]. 河南科技 2014(19)
    • [29].高速接入网云计算平台的大数据挖掘算法研究(英文)[J]. 机床与液压 2017(24)
    • [30].数据挖掘算法在中药研究中的应用[J]. 中国药房 2018(19)

    标签:;  ;  ;  

    基于MapReduce的数据挖掘算法在全国人口系统中的应用
    下载Doc文档

    猜你喜欢